• 回答数

    5

  • 浏览数

    130

真巧穆斯林
首页 > 学术论文 > 论文参考文献电子语料库是什么

5个回答 默认排序
  • 默认排序
  • 按时间排序

libby131313

已采纳

语料库(Corpus)指大量文本的集合,库中的文本(称为语料)通常经过整理,具有既定的格式与标记,特指计算机存储的数字化语料库。

141 评论

小白兔256

语料库顾名思义就是放语言材料的仓库。现在人们谈起语料库,不言而喻是指存放在计算机里的原始文本或经过加工后带有语言学信息标注的语料文本。

现在世界上已经有了不少规模较大的语料库,有些是国家级的,有些由大学和词典出版商联合建设。另外,由于个人微机的迅猛发展和存贮数据的硬盘造价持续下降,研究者个人也开始建立适合于自己研究的小型语料库。

发展

近年来,随着我国经济的发展,科研经费的增加,汉语语料库的建设得到了开展。1999年我院把建立汉语语料库列为院重大课题。目前语言所正在构建三个大规模的语料库:现场即席话语语料库,主要方言口语库和现代汉语文本语料库。

在世界范围内,我国的语料库建设在规模上还赶不上欧洲的一些发达国家,特别是英国。然而,在语料库语言学的研究上,以及语料库的实际运用上,我国已经进入世界前沿的行列。

173 评论

喵喵咩咩喔喔

语料库是存放语言材料的仓库(数据库),由语言实际使用中出现过的真实语言材料制作而成。语料库分为单语、双语和多语语料库。

218 评论

剪刀手七七

写文章时想不到合适的词可以用

298 评论

dianpingyao

corpus 语料库 关于语料库的三点基本认识: 语料库中存放的是在语言的实际使用中真实出现过的语言材料; 语料库是以电子计算机为载体承载语言知识的基础资源; 真实语料需要经过加工(分析和处理),才能成为有用的资源; 什么是第三代语料库? 苑春法,黄昌宁等人在1995年著文谈到"第三代语料库"的问题,并且介绍了美国计算语言学学会倡议的数据采取计划ACL/DCI.认为这一代语料库首先对所有可以得到的语料以文本形式存储起来,它的容量一般为一亿词次以上,21世纪可望达到万亿词次的量级[1].该文实际上已经将下一代语料库的建设提上议事日程. 【第三代语料库的特点】 时代:六,七十年代到八十年代及九十年代以来. 语料:从单语种到多语种. 数量:从百万级到千万级再到亿级和万亿级. 加工:从词法级到句法级再到语义和语用级. 文本:从抽样到全文. 【动态流通语料库】 是历时语料库.是基于大规模真实文本的语料库,是对语言文字的使用进行动态追踪的语料库,是对语言的发展变化进行监测的语料库,是"活"的语料库. 动态语料库有两大特色: 1,语料的动态性:语料是不断动态补充的. 2,语料的流通性:语料又多了一种新的"流通度"属性,这是一种具有量化的属性值的属性. 特点一:动态性 不确定一个固定的库容量(例如:把库容量目标确定为数百万字,上千万字,数千万字,数亿字等); 不确定一个固定的选择文本的时间段(例如:确定为49年-82年,80年-90年,90年-95年语料等) 不确定一个固定的文本选择范围或应用领域(例如:确定为只收现代汉语文学语料,或新闻语料,或科技语料或中小学生语料等,从而建立一些专门的语料库); 不确定一些固定的文本抽样对象(例如:《人民日报》,《光明日报》,《人民文学》,《小说选刊》,或者老舍著作,巴金著作,毛泽东著作,邓小平著作等). 是即期抽取的语料库:根据大众媒体的传播情况,依据一定的原则来动态抽取. 是历时的语料库:可以观察和测量到流通度的变化情况,可以追踪到语言成分的产生,成长和消亡. 是动态变化的语料库:大众传播媒体的情况是在不断变化的,语料库也要相应变化.(例如:1978年,我国报纸只有186种,基本上是单一的党委机关报,到1995年底,已经增加到2202种,平均期印数增加4倍,总印张增加3·5倍,报纸的品种,功能,发行都有了相当大的变化如果要科学地反应语言的流通应用情况,语料库的容量,选材,抽样等怎么可能一成不变呢 ) 特点二:流通性 1997年全世界期刊发行量最大的前50名的中国期刊(略) 【关于双语或多语语料库的研究】 目前大致可分为三类: 一是研究双语语料的对齐技术(Alignment),国内外学者就此提出多种策略和方法,现在已经出现了许多对齐双语或多语语料的程序或工具[Gale 1993]; 二是研究双语语料的各种应用,如在基于统计的机器翻译技术[Brown 1990]、基于实例的机器翻译技术[Nagao 1984],双语词典编纂[Klavans and Tzoukermann 1990]技术中,双语语料库都发挥着十分重要的作用; 三是双语语料库的设计、采集、编码和管理问题。目前比较著名的语料库编码方案有TEI 文本编码标准以及CES标准,两者均基于SGML标记语言。 就前两类研究来说,中国国内目前做了较多的跟踪研究工作,而对于第三类研究,即双语语料库尤其是涉及汉语的双语语料库的建设、编码和管理研究,探索工作似乎做的相对较少。 目前国内最大的语料交换平台是瓦特开元:

256 评论

相关问答

  • 论文中什么样的句子是参考文献

    参考文献是指在学术研究过程中,对某一著作或论文的整体的参考或借鉴。征引过的文献在注释中已注明,不再出现于文后参考文献中。参考文献按照其在正文中出现的先后以阿拉伯

    舜井街的猫 6人参与回答 2023-12-09
  • 电子商务论文英语参考文献

    参考文献要注意采用规范化的著录格式,同时要注意在供内部交流的刊物上发表的文章和内部使用的资料,尤其是不宜公开的资料,均不能作为参考文献著录。下面是我为大家整理的

    吃客声声 3人参与回答 2023-12-11
  • 论文参考文献参考的是什么

    参考文献是指在学术研究过程中,对某一著作或论文的整体的参考或借鉴。征引过的文献在注释中已注明,不再出现于文后参考文献中。按照字面的意思,参考文献是文章或著作等写

    双子座的小蛇 4人参与回答 2023-12-10
  • 论文电子文献是什么

    我写论文时也没区分什么电子文献不电子文献呀 在百度里搜索 “参考文献格式” 第一个就会出现一个表单 把对应的东西填写在里面 就生成标准文献格式了

    一吉一吉 2人参与回答 2023-12-08
  • 孟子思想的论文的参考文献是什么

    孟子在人性方面,主张性善论。以为人生来就具备仁、义、礼、智四种品德。人可以通过内省去保持和扩充它,否则将会丧失这些善的品质。因而他要求人们重视内省的作用。在社会

    林佳(林巧洳) 4人参与回答 2023-12-11