• 回答数

    4

  • 浏览数

    234

书画人生
首页 > 期刊论文 > 自然语言处理论文6000字

4个回答 默认排序
  • 默认排序
  • 按时间排序

蓝缀天堂鸟

已采纳

有乐观和悲观的周期在领域的NLP (我们当前可能到在一个更加乐观的阶段之内); 虽然一些非常真正的前进被做了,一个一般NLP系统的目标依然是逃避。 历史上,计算机学家经常是远太过于乐观关于NLP,大概着名的某些的原因以上。 是确切正确地从外边因而是重要的任务为什么是困难的。 It也是重要注意到,有自然语言之间的区别。 由于美国研究员的重要性更多工作在英语大概被完成了比在其他语言,主要,虽然有非常活跃工作者在欧洲和日本。 然而,因为它使用少量变化并且沉重依靠词序,英语在一些方面是一种非典型语言。 用英语和其他介绍来源写的课本很少包含关于语言的NLP的充分讨论与明显不同的语法结构。 We可能区别至少三个分明‘水平’在处理NL : Sounds Grammar Meaning Each可以被划分成两个或多个分段,不需要有关我们这里。 什么我在这简要的介绍想要做是说明某些在处理每个水平的问题。 Consider这三个词,讲话由从英国的南部的一个当地讲英语者: 输入,入口,收入。 是确切全部三个词包含元素与同一个意思。 要输入是投入某事; 水泵的入口是水被采取的地方; 您的收入是您赢得,即进来的金钱。 Is元素在发音了同样在所有三个词(由指定的报告人) ? 仔细听表示,它不是。 词输入是显著的,好象被拼写的imput,而入口发音如被拼写。 如果我们让声音通常被拼写的ng的N立场用英语(即在词象唱歌或歌手),则收入是 因为苏格兰语英语许多报告人这样,不表现I指定了从英国的南部的当地讲英语者; 反而他们一贯地发音所有三个词的第一个元素,当它被拼写,即作为(象可以所有讲英语者,当慢慢地和强调地讲话)时。 Interestingly,讲英语者对这些区别通常是相当未察觉的,在他们自己的讲话和其他的讲话上。 这不是,因为他们不可能区别在三声音m、n和N.之间。 三个词兰姆酒、奔跑和阶在这三声音仅不同并且是相当分明的对所有当地讲英语者。

261 评论

小妮子--Amy

介绍自然语言处理 一个自然语言' (荷兰)是任何自然语言使用的人,即不是一种人为的或人为的语言,如一种编程语言。 '自然语言处理' (自由党)是一个方便的描述,所有企图利用计算机来处理自然语言。 [ 1 ]的NLP包括: 语音合成:虽然这可能不是乍一看似乎很'聪明' ,合成的自然冠冕堂皇的讲话,是在技术上复杂,几乎肯定需要一些理解,什么是口语,以确保举例来说,正确的语调。 语音识别:基本上是连续减少声波分立的话。 自然语言理解:这里当作从孤立的话(无论是书面或决心通过语音识别)的'意义' 。这可能涉及完整的模型系统或'前端' ,带动其它项目由荷兰命令。 自然语言生成:荷兰创造适当的反应不可预测的投入。 问题补充:这个想法的使用数字电脑的NLP是'旧' ,这可能是因为第一个利用计算机,打破军事守则在第二次世界大战中。一些计算机科学家似乎都认为,俄罗斯(例如)是英语在不同的代码。在这种情况下,因为代码可以被打破,因此可以俄文。这种想法假设有一个共同'的含义基地'的所有自然语言,无论其表面的分歧。压倒一切的共识,语言学家是,这是不正确的。 人工语言处理'的形式,编译器和口译编程语言,是一个关键组成部分,成功的数字化电脑从最早的天。这一成功无疑鼓舞研究的NLP (还鼓励和乐观的态度) 。

262 评论

电锯小天王

在自然语言处理的领域内有乐观与悲观的周期性存在(我们现在大概是出于乐观期);虽然(技术上)真的有一些进步,但是达到一个全面自然语言处理系统的目标仍然遥不可及。(这里我没有用elusive的直译,难以捉摸,因为放进中文里会很怪,没有人说目标难以捉摸。)历史上,计算机专家有时对于自然语言处理(的挑战性)过于乐观,其原因很可能就是以上提到的(周期性)。因此从一开始就清楚这个(自然语言处理)的难度的原因是很重要的。同时,了解自然语言之间的不同也是很重要的一点。相对于其他自然语言来说,更多的研究重点放在了英文上,主要是因为美国研究者(在这个领域里)的重要性,尽管日本和欧洲也有很积极的研究学者。可是,在某一方面来讲,英文不是一个具有代表性的语言:它没有音调变化,并且严重依赖单词顺序。教课书和其他英文版的(自然语言处理)启蒙书籍几乎没有包括任何有关(与英语有)不同语法结构的语言的自然语言处理的合适论述。我们可以区别起码三个完全不同的自然语言处理级别:声音语法语义每一个都可以被再分为两到三个亚级别,但这不是本文的重点。在这个简介里我想要做的是阐明在处理每个级别中会遇到的一些问题。这里有以英文为母语的南英格兰人说的三个词:输入,纳入,收入(input, intake, income);(请大家)思考这三个词。很显然的,三个词都有相同语义的元素。输入,指的是把什么东西放进去;抽水机的纳入指的是水被抽进去的地方,你的收入指的是你赚的钱(就是进你口袋的钱)。三个词中的in元素(在指定说话人的情况下)都发一样的音吗?如果注意听的话就会发现并不是这样。Input 这个词在发音的时候听起来像是拼法是imput的词,而intake听起来就和它的拼法一样。 如果我们用N代表English 里边ng的发音,那么Income就有点iNcome的感觉。我特地点出了说话者是从南英格兰来的本土人,因为很多苏格兰人说英文的时候都没有这种习惯,就像所有其他英文母语者在慢慢地富有感情的说这三个词的时候一样,他们都会将in的发音发成和它拼法一样。有趣的是,不论在他们自己或是其他人的言语中,以英文为母语者通常都不会注意到这些差别。这不是因为他们没办法分辨m ,n ,N 这三种发音。Rum, Run, Rung这三个词就只有m, n, N这三个发音处不同而已,所有英文母语者都可以很好的区别它们。

313 评论

工藤新之助

最近出于兴趣和需要,重新回顾中文分词技术,期间有些心得,以及一些关于自然语言处理的浅薄之见,这里简单分享一下。 首先, 中文分词_百度百科 里面简单介绍了其中主要的分词算法以及相应的优缺点,包括字符匹配法、统计法以及理解法,其中字符匹配法和统计法比较流行且可以取到相对不错的效果,而理解法则相对比较复杂高级,但是我认为这才是真正解决中文分词任务的根本算法。 如今用于中文分词的算法和模型虽算不上比比皆是,但也算是唾手可得,开源的如jieba、ltp、Hanlp等等,提供中文分词服务的如腾讯云、百度大脑、讯飞AI平台等,以及其他如Jiagu等。 其实这些平台算法的差距并不算太大,分词准确率基本上都是在80%以上,然而在98%以下(这里胡诌个数),在一些不太严格的应用场景下基本已经够用了,只要挑一个在自己的业务场景下表现最好的即可。 在我看来,对于中文分词这项任务而言,最关键最核心的其实并不是算法模型,这些都不是所谓的瓶颈,最重要的其实是高质量、大规模的词典。对于字符匹配法而言,词典是基础,没有词典自然连分都分不出来;对于统计学习法而言,其效果一方面取决于算法和模型的选择,一方面取决于其训练数据的数量与质量,需要堆人力物力,比如找专门的标注公司标注数据等。但是就算是人标的数据,也难免有所错误遗漏,所以在有错误的训练数据下,模型也不可能学的太好,同时训练数据再大,也难以覆盖全部语料,总会出现OOV,总有些句子会训练不到,此时还强求模型可以做到“举一反三”有些不切实际。 词条中还提到了关于中文分词的技术难点:歧义识别与新词识别,关于歧义识别,上面并没有提具体的解决思路,对于新词识别而言,这又是自然语言处理领域很基础并且很重要的点,可以参见一下我之前的文章: 《NLP基础任务之新词发现探索之路》 | lightsmile's Blog ,也有另一个思路,比如说爬取网上一些网站的相关条目,比如百度百科等。 简单看了一下 jieba 、 ansj_seg 、 Jiagu 的分词词典,发现其中jieba的词典质量最差,其中不少词性都是错误的,Jiagu的词典还算不错,就是一些新词不全,ansi_seg的没有细看。 尽管这些工具在一些评测数据的结果可以达到90以上的成绩,但是在我看来,还是不够的,我觉得中文分词这个基础而又艰巨的任务还是要到99%以上才可以,否则分词都分不对,那些在分词基础之上的任务更是不行,毕竟词是基本的语义单元。 然而在现在深度学习盛行的潮流下,许多任务如文本分类、命名实体识别等并不一定需要依赖于分词,直接基于字符(char)的Embedding也可以取得不错的效果,并且也可以规避OOV(out of vocabulary words,未登录词)的问题。 但是深度学习,尤其是监督学习的很关键之处是得有大规模的高质量训练数据,不然巧妇难为无米之炊,再好的模型也难以从垃圾中学到有用的知识。 话说回来,虽然自然语言处理是计算机科学与其他领域的交叉学科,深度学习、机器学习算是人工智能的一部分,然而许多时候往往十分依赖人工,而所谓的智能其实也不智能。 无论是计算机视觉领域里的图像分类还是自然语言处理领域的文本分类,其任务都是学习一个从输入 映射到输出或者说标签 的函数 ,具体来说就是将 表征为多维向量 ,将 表征为多维向量 ,然后让 进入一个模型进行一系列的运算后得到一个 ,通过不断地比较 和 的值并调整模型的参数使模型的运算结果 更为准确即更加贴近 (过程有点类似于 “猜数字”游戏 ),从而最终得到一个近似函数 ,我们就可以用来代替未知的 用于预测未来的样本 ,得到它对应的 。 我们可以发现,以上学习算法确实可以得到能够解决问题的模型,然而局限之处在于它也只能做这个任务,即对输入 预测 ,别的啥也干不了。 同时在基于深度学习的自然语言处理模型中,基本套路都是Embedding+Encoder+Decoder,其中Embedding是基于字还是基于词,是使用预训练词向量还是随机初始化,这些选择所导致的效果的差异都随着训练轮数的增加而最终减小。然而,由于梯度下降以及解空间的特点,基于bert的效果确实是要比Word2Vec的要好,那些词向量确实比Word2Vec的嵌入了(或者说学到了)更多的语言知识。 关于模型的选择和取舍,工业界和学术界的标准其实差别很大。学术界里有的论文是开创性的,而许多论文其实都是在原来基础上小修小改,将最近的较新的思想和算法一堆,实验结果比原来指标高一点又是一篇文章,程序运行占用多大内存、跑了多长时间这些都不是主要因素,也就是一切向指标看齐。 而工业界则更加看重的是性价比,不同的公司、不同的部门、不同的阶段其主要矛盾不同。比如说Facebook之前出的fastText,尽管模型很简单,最终效果可能比不上一些其他复杂的模型,但是其训练速度超快、基于CPU就可以,并且可以很方便地对模型进行压缩。许多时候,一些指标高低差几个点并没有那么关键,模型大小、训练时间、预测时间在很多时候是比较关键的因素,除非由于甲方或客户不满意,或者家大业大,有的是资源,那么这时候效果和指标又成为主要矛盾,这时的优化可能要以一定的时间和空间为代价。 原来的自然语言处理各任务基本上都构建在分词的基础之上,粗略来说有一个 语法 、 语义 到 语用 的递进的过程。这一层一层的任务虽然耦合的很好,但是 这种Pipline将会导致下层的错误都将会被积累到上层,其直接影响就是越到上层其准确率越低,甚至低到惨不忍睹的程度。然而在表示学习,尤其是深度学习崛起以后,其强大的特征学习能力,使得现在的模型多为end-to-end模型,其结果是一方面可以使得相关人员摆脱繁琐的特征工程,可以将特征提取与组合设计的工作交给神经网络模型去隐形完成,大大解放了生产力;令一方面可以将模型视为整体的一部分,即它的输入直接对应原始输入,它的输出直接是我们想要的结果,有点直达病灶的意思,摆脱了原来Pipline错误累积的困境。 不过我个人看来成也end-to-end,败也end-to-end,虽然简化了任务,但是有点太过开门见山,得到的模型一个个都是彼此孤立的,各做各的事情,然而从整体论的角度来看它们都是整个自然语言处理系统的一部分,一些特征本来是可以共享,一些结果是彼此相互依赖的。这也又涉及到参数共享、多任务学习等概念,不细表。由于神经网络的可解释性较差,这使得模型更加像一个黑盒,训练调参的过程更像是在炼丹,因为谁也不知道具体能炼出个什么玩意儿。 如下图很形象地诠释了这一现状: 下面就深度学习下的自然语言处理四大任务进行简单对比(都是个人浅薄之见,难免有不足之处,还望海涵)。自然语言处理四大任务分别是:序列标注、文本分类、句子关系、文本生成。 序列标注任务的原始语料是一连串的句子,经过标注后的语料格式大概如下(以命名实体识别为例): 我们可以发现,每一行的格式都是一个字符以及它所对应的类别,如 B_{type} 、 O ,那么对于每一个字符模型需要预测的类别数量总计为 2*len(types) + 1 ,其中2是指 BI 这种标注规范, len(types) 指类型种类的数量(如人名、地名、机构名共三种),1是指 O 。可以发现模型需要拟合的函数的值域还是很小的,即 O(len(types)) 。 文本分类任务的标注语料格式大概如下(以情感极性分析为例): 每一行的格式都包含原始文本以及它所对应的类别(或者说标签),我们可以发现模型需要预测的类别数量总计为 len(types) ,即类型种类的数量(以新闻语料分类,如 娱乐 、 军事 、 科技 、 体育 等),可以发现模型需要拟合的函数的值域也是较小的,即 O(len(types)) 。 句子关系任务的标注语料格式大致如下(以语句相似度为例): 每一行都是两个句子以及它们的关系( 1 代表语义相同, 0 代表语义不同),我们可以发现模型需要预测的类别数量总计为 len(relations) ,即关系种类的数量,可以发现模型需要拟合的函数的值域也是较小的,即 O(len(relations)) 。 文本生成任务的标注语料格式大致如下(以机器翻译为例): 我们可以发现每一行都是源语言句子以及目标语言的对应翻译。虽然此时模型和序列标注模型一样都需要对于单个样本预测多次,但是序列标注模型需要预测的次数直接等于字符的数量,是确定的,但是文本生成任务模型需要预测的次数是不确定的,并且每次预测的值域都是目标语言所有word(或者character)所组成的整体集合,即 O(len(words)) ,其规模可能是十万级或百万级的。因此我们很容易发现文本生成任务的难度和复杂程度是要远远高于其他任务的。对话任务如生成式闲聊机器人更是如此。 可能是之前的AlphaGo过于吸引广大群众的眼球,做相关业务的公司吹的太厉害,以及“人工智能”、“深度学习”这几个词听起来逼格满满,导致许多外行人认为现在的人工智能已经发展到很厉害的层次,并且可以做各种各样的事情,似乎无所不能。但是内行人心里却明白:“什么人工智能,人工智障吧”、“所谓人工智能,多是智能不够,人工来凑”。外行人看不到深度模型算法的局限性,如许多模型的精度并不能达到那么高;也看不到深度模型算法的前提条件,如高质量、大规模的数据集,他们以为模型大约聪明到随便喂点数据便成为终结者般的存在。这也就导致了他们刚开始预期很高,然而在投资或找到外包后发现效果远远不能达到预期,大失所望而潦草结束或撤资离场的局面。 如下一张图大概有点这个意思: 统观学术界与工业界,和计算机视觉领域相比,自然语言处理这种更深层次的、涉及到认知智能的领域的进展虽悠久但缓慢,并且许多任务目前为止距离真正商用还有很大的距离。然而正是科学史上如阿基米德、牛顿等伟大人物与其他相对无名之辈默默耕耘,前赴后继,才使得如今之人类齐享先辈之成果,即所谓“前人栽树后人乘凉”也。 我辈也无需悲观,须戒骄戒躁,搞算法的就多己见、少盲从,少水论文;搞工程的就多积累经验,提升实践能力,多做高质量的项目。功夫不负有心人。

109 评论

相关问答

  • 自然论文2000字

    无论是身处学校还是步入社会,许多人都有过写论文的经历,对论文都不陌生吧,论文对于所有教育工作者,对于人类整体认识的提高有着重要的意义。那要怎么写好论文呢?下面是

    雯香识女人coco 2人参与回答 2023-12-09
  • 6000字护理本科论文

    脑出血患者的护理研究【摘要】 随着我国人民生活水平的不断提高,脑血管病的发病率呈逐年增高趋势,且发病急骤、病情危重,是人类死亡及致残的主要原因之一。对脑血管患者

    海鸟2010 2人参与回答 2023-12-10
  • 计算机毕业论文自然语言处理

    很抱歉,我是小学毕业的老糟头子。视频、图像处理,涉及领域非常广阔,任何一个应用,都可以写出无数篇有价值的论文。比如CT图像的电脑判读,比如润滑油的色度检测,比如

    超爱吃的丫头 3人参与回答 2023-12-11
  • 自然语言论文题目

    不一定,但最好是摘要里面的

    嘟嘟200907 5人参与回答 2023-12-09
  • 儿童文学语言自然性翻译研究论文

    儿童 文学在世界各地广泛存在,其早期的表现形式往往为寓言和民间 传说 。下面是我为大家整理的浅谈儿童文学研究 毕业 论文 范文 ,供大家参考。 《

    独孤道兵 3人参与回答 2023-12-09