自然语言处理毕业论文

4个回答默认排序

默认排序

按时间排序

晶莹剔透0702

已采纳

很抱歉，我是小学毕业的老糟头子。视频、图像处理，涉及领域非常广阔，任何一个应用，都可以写出无数篇有价值的论文。比如CT图像的电脑判读，比如润滑油的色度检测，比如违章人脸识别，比如人脸图像的历史年轮，视频特效，图像特效等等。至于自然语言，不知道你想说啥。计算机领域没有自然语言，只有程序语言。程序语言不外乎是C、Delphi，外加VB。如果你更专，那就必须会汇编语言。不管什么语言，必须能控制硬件、数据库、媒体文件、HTML5等等。但无论如何不要碰python，那是庞氏。搞程序，随便完成一个课题，都可以用代码来实现课题中的程序控制部分，写论文也很容易。其实不管选图像、视频处理，还是程序语言，关键是你得选择一个适合自己的课题，用你的计算机技术来完成这个课题，那就是论文了。

354 评论 2小时前发布

墨小客s

你的论文准备往什么方向写，选题老师审核通过了没，有没有列个大纲让老师看一下写作方向？老师有没有和你说论文往哪个方向写比较好？写论文之前，一定要写个大纲，这样老师，好确定了框架，避免以后论文修改过程中出现大改的情况！！学校的格式要求、写作规范要注意，否则很可能发回来重新改，你要还有什么不明白或不懂可以问我，希望你能够顺利毕业，迈向新的人生。一、毕业论文选题的重要意义第一、选题是撰写毕业论文的第一步，它实际上是确定“写什么”的问题，也就是确定论文论述的方向。如果“写什么”都不明确，“怎么写”根本无从谈起，因此毕业论文的顺利完成离不开合适的论文选题。第二、毕业论文的写作一方面是对这几年所学知识的一次全面检验，同时也是对同学们思考问题的广度和深度的全面考察。因此，毕业论文的选题非常重要，既要考虑论文涉及的层面，又要考虑它的社会价值。二、毕业论文选题的原则（一）专业性原则毕业论文选题必须紧密结合自己所学的专业，从那些学过的课程内容中选择值得研究或探讨的学术问题，不能超出这个范围，否则达不到运用所学理论知识来解决实际问题的教学目的。我们学的是工商管理专业，选题当然不能脱离这个大范畴，而且在限定的小范围内，也不能脱离工商管理、企业经营去谈公共事业管理或金融问题。学术研究是无止境的，任何现成的学说，都有需要完善改进的地方，这就是选题的突破口，由此入手，是不难发现问题、提出问题的。（二）价值性原则论文要有科学价值。那些改头换面的文章抄袭、东拼西凑的材料汇集以及脱离实际的高谈阔论，当然谈不上有什么价值。既然是论文，选题就要具有一定的学术意义，也就是要具有先进性、实践性和一定的理论意义。对于工商管理专业的学生而言，我们可以选择企业管理中有理论意义和实践指导意义的论题，或是对提高我国企业的管理水平有普遍意义的议题，还可以是新管理方法的使用。毕业论文的价值关键取决于是否有自己的恶创见。也就是说，不是简单地整理和归纳书本上或前人的见解，而是在一定程度上用新的事实或新的理论来丰富专业学科的某些氦姬份肯莓厩逢询抚墨内容，或者运用所学专业知识解决现实中需要解决的问题。（三）可能性原则选题要充分考虑到论题的宽度和广度以及你所能占有的论文资料。既要有“知难而进”的勇气和信心，又要做到“量力而行”。”选题太大、太难，自己短时间内无力完成，不行；选题太小、太易，又不能充分发挥自己的才能，也不行。一切应从实际出发，主要应考虑选题是否切合自己的特长和兴趣，是否可以收集到足够的材料和信息，是否和自己从事的工作相接近。一定要考虑主客观条件和时限，选择那些适合自己情况，可以预期成功的课题。一般来说，题目的大小要由作者实际情况而定，很难作硬性规定要求。有的同学如确有水平和能力，写篇大文章，在理论上有所突破和创新，当然是很好的。但从成人高校学生的总体来看，选题还是小点为宜。小题目论述一两个观点，口子虽小，却能小题大做，能从多层次多角度进行分析论证.这样，自己的理论水平可以发挥，文章本身也会写得丰满而充实。选择一个比较恰当的小论题，特别是与自己的工作或者生活密切相关的问题，不仅容易搜集资料，同时对问题也看得准，论述也会更透彻，结论也就可能下得更准确。三、毕业论文选题的方法第一、浏览捕捉法。这种方法是通过对占有的论文资料快速、大量地阅读，在比较中来确定题目的方法。浏览，一般是在资料占有达到一定数量时集中一段时间进行，这样便于对资料作集中的比较和鉴别。浏览的目的是在咀嚼消化已有资料的过程中，提出问题，寻找自己的论题。这就需要我们对收集到的材料进行全面阅读研究，主要的、次要的、不同角度的、不同观点的都应了解，不能“先入为主”，不能以自己头脑中原有的观点决定取舍。而应冷静地、客观地对所有资料作认真的分析思考，从内容丰富的资料中吸取营养，反复思考琢磨之后，就会有所发现，然后再根据自己的实际确定自己的论题。第二、追溯验证法。这种方法要求同学们先有一种拟想，然后再通过阅读资料加以验证来确定选题的方法。同学们应该先有自己的主观论点，即根据自己平时的积累，初步确定准备研究的方向、题目或选题范围。这种选题方法应注意：看自己的“拟想”是否与别人重复，是否对别人的观点有补充作用；如果自己的“拟想”虽然别人还没有谈到，但自己尚缺乏足够的理由来加以论证，那就应该中止，再作重新构思。要善于捕捉一闪之念，抓住不放，深入研究。在阅读文献资料或调查研究中，有时会突然产生一些思想火花，尽管这种想法很简单、很朦胧，也未成型，但千万不可轻易放弃。第三、知识迁移法。通过四年的学习，对某一方面的理论知识（经济或者法律或者其它）有一个系统的新的理解和掌握。这是对旧知识的一种延伸和拓展，是一种有效的更新。在此基础之上，同学们在认识问题和解决问题的时候就会用所学到的新知识来感应世界，从而形成一些新的观点。理论知识和现实的有机结合往往会激发同学们思维的创造力和开拓性，为毕业论文的选题提供了一个良好的实践基础和理论基础。第四、关注热点法。热点问题就是在现代社会中出现的能够引起公众广泛注意的问题。这些问题或关系国计民生，或涉及时代潮流，而且总能吸引人们注意，引发人们思考和争论。同学们在平时的学习和工作中大部分也都会关注国际形势、时事新闻、经济变革。选择社会热点问题作为论文论题是一件十分有意义的事情，不仅可以引起指导老师的关注，激发阅读者的兴趣和思考，而且对于现实问题的认识和解决也具有重要的意义。将社会热点问题作为论文的论题对于同学们搜集材料、整理材料、完成论文也提供了许多便利。第五，调研选题法。调研选题法类同于关注社会热点这样的选题方法，但所涉及的有一部分是社会热点问题，也有一部分并不是社会热点问题。社会调研可以帮助我们更多地了解调研所涉问题的历史、现状以及发展趋势，对问题的现实认识将更为清晰，并可就现实问题提出一些有针对性的意见和建议。同学们将社会调研课题作为毕业论文的论题，有着十分重要的现实意义，不仅可为地方经济建设和社会发展提供有价值的资料和数据，而且可为解决一些社会现实问题提供一个很好的路径。

185 评论 9小时前发布

德高防水专卖店

最近出于兴趣和需要，重新回顾中文分词技术，期间有些心得，以及一些关于自然语言处理的浅薄之见，这里简单分享一下。首先，中文分词_百度百科里面简单介绍了其中主要的分词算法以及相应的优缺点，包括字符匹配法、统计法以及理解法，其中字符匹配法和统计法比较流行且可以取到相对不错的效果，而理解法则相对比较复杂高级，但是我认为这才是真正解决中文分词任务的根本算法。如今用于中文分词的算法和模型虽算不上比比皆是，但也算是唾手可得，开源的如jieba、ltp、Hanlp等等，提供中文分词服务的如腾讯云、百度大脑、讯飞AI平台等，以及其他如Jiagu等。其实这些平台算法的差距并不算太大，分词准确率基本上都是在80%以上，然而在98%以下（这里胡诌个数），在一些不太严格的应用场景下基本已经够用了，只要挑一个在自己的业务场景下表现最好的即可。在我看来，对于中文分词这项任务而言，最关键最核心的其实并不是算法模型，这些都不是所谓的瓶颈，最重要的其实是高质量、大规模的词典。对于字符匹配法而言，词典是基础，没有词典自然连分都分不出来；对于统计学习法而言，其效果一方面取决于算法和模型的选择，一方面取决于其训练数据的数量与质量，需要堆人力物力，比如找专门的标注公司标注数据等。但是就算是人标的数据，也难免有所错误遗漏，所以在有错误的训练数据下，模型也不可能学的太好，同时训练数据再大，也难以覆盖全部语料，总会出现OOV，总有些句子会训练不到，此时还强求模型可以做到“举一反三”有些不切实际。词条中还提到了关于中文分词的技术难点：歧义识别与新词识别，关于歧义识别，上面并没有提具体的解决思路，对于新词识别而言，这又是自然语言处理领域很基础并且很重要的点，可以参见一下我之前的文章：《NLP基础任务之新词发现探索之路》 | lightsmile's Blog ，也有另一个思路，比如说爬取网上一些网站的相关条目，比如百度百科等。简单看了一下 jieba 、 ansj_seg 、 Jiagu 的分词词典，发现其中jieba的词典质量最差，其中不少词性都是错误的，Jiagu的词典还算不错，就是一些新词不全，ansi_seg的没有细看。尽管这些工具在一些评测数据的结果可以达到90以上的成绩，但是在我看来，还是不够的，我觉得中文分词这个基础而又艰巨的任务还是要到99%以上才可以，否则分词都分不对，那些在分词基础之上的任务更是不行，毕竟词是基本的语义单元。然而在现在深度学习盛行的潮流下，许多任务如文本分类、命名实体识别等并不一定需要依赖于分词，直接基于字符（char）的Embedding也可以取得不错的效果，并且也可以规避OOV（out of vocabulary words，未登录词）的问题。但是深度学习，尤其是监督学习的很关键之处是得有大规模的高质量训练数据，不然巧妇难为无米之炊，再好的模型也难以从垃圾中学到有用的知识。话说回来，虽然自然语言处理是计算机科学与其他领域的交叉学科，深度学习、机器学习算是人工智能的一部分，然而许多时候往往十分依赖人工，而所谓的智能其实也不智能。无论是计算机视觉领域里的图像分类还是自然语言处理领域的文本分类，其任务都是学习一个从输入映射到输出或者说标签的函数，具体来说就是将表征为多维向量，将表征为多维向量，然后让进入一个模型进行一系列的运算后得到一个，通过不断地比较和的值并调整模型的参数使模型的运算结果更为准确即更加贴近（过程有点类似于 “猜数字”游戏），从而最终得到一个近似函数，我们就可以用来代替未知的用于预测未来的样本，得到它对应的。我们可以发现，以上学习算法确实可以得到能够解决问题的模型，然而局限之处在于它也只能做这个任务，即对输入预测，别的啥也干不了。同时在基于深度学习的自然语言处理模型中，基本套路都是Embedding+Encoder+Decoder，其中Embedding是基于字还是基于词，是使用预训练词向量还是随机初始化，这些选择所导致的效果的差异都随着训练轮数的增加而最终减小。然而，由于梯度下降以及解空间的特点，基于bert的效果确实是要比Word2Vec的要好，那些词向量确实比Word2Vec的嵌入了（或者说学到了）更多的语言知识。关于模型的选择和取舍，工业界和学术界的标准其实差别很大。学术界里有的论文是开创性的，而许多论文其实都是在原来基础上小修小改，将最近的较新的思想和算法一堆，实验结果比原来指标高一点又是一篇文章，程序运行占用多大内存、跑了多长时间这些都不是主要因素，也就是一切向指标看齐。而工业界则更加看重的是性价比，不同的公司、不同的部门、不同的阶段其主要矛盾不同。比如说Facebook之前出的fastText，尽管模型很简单，最终效果可能比不上一些其他复杂的模型，但是其训练速度超快、基于CPU就可以，并且可以很方便地对模型进行压缩。许多时候，一些指标高低差几个点并没有那么关键，模型大小、训练时间、预测时间在很多时候是比较关键的因素，除非由于甲方或客户不满意，或者家大业大，有的是资源，那么这时候效果和指标又成为主要矛盾，这时的优化可能要以一定的时间和空间为代价。原来的自然语言处理各任务基本上都构建在分词的基础之上，粗略来说有一个语法、语义到语用的递进的过程。这一层一层的任务虽然耦合的很好，但是这种Pipline将会导致下层的错误都将会被积累到上层，其直接影响就是越到上层其准确率越低，甚至低到惨不忍睹的程度。然而在表示学习，尤其是深度学习崛起以后，其强大的特征学习能力，使得现在的模型多为end-to-end模型，其结果是一方面可以使得相关人员摆脱繁琐的特征工程，可以将特征提取与组合设计的工作交给神经网络模型去隐形完成，大大解放了生产力；令一方面可以将模型视为整体的一部分，即它的输入直接对应原始输入，它的输出直接是我们想要的结果，有点直达病灶的意思，摆脱了原来Pipline错误累积的困境。不过我个人看来成也end-to-end，败也end-to-end，虽然简化了任务，但是有点太过开门见山，得到的模型一个个都是彼此孤立的，各做各的事情，然而从整体论的角度来看它们都是整个自然语言处理系统的一部分，一些特征本来是可以共享，一些结果是彼此相互依赖的。这也又涉及到参数共享、多任务学习等概念，不细表。由于神经网络的可解释性较差，这使得模型更加像一个黑盒，训练调参的过程更像是在炼丹，因为谁也不知道具体能炼出个什么玩意儿。如下图很形象地诠释了这一现状：下面就深度学习下的自然语言处理四大任务进行简单对比（都是个人浅薄之见，难免有不足之处，还望海涵）。自然语言处理四大任务分别是：序列标注、文本分类、句子关系、文本生成。序列标注任务的原始语料是一连串的句子，经过标注后的语料格式大概如下（以命名实体识别为例）：我们可以发现，每一行的格式都是一个字符以及它所对应的类别，如 B_{type} 、 O ，那么对于每一个字符模型需要预测的类别数量总计为 2*len(types) + 1 ，其中2是指 BI 这种标注规范， len(types) 指类型种类的数量（如人名、地名、机构名共三种），1是指 O 。可以发现模型需要拟合的函数的值域还是很小的，即 O(len(types)) 。文本分类任务的标注语料格式大概如下（以情感极性分析为例）：每一行的格式都包含原始文本以及它所对应的类别（或者说标签），我们可以发现模型需要预测的类别数量总计为 len(types) ，即类型种类的数量（以新闻语料分类，如娱乐、军事、科技、体育等），可以发现模型需要拟合的函数的值域也是较小的，即 O(len(types)) 。句子关系任务的标注语料格式大致如下（以语句相似度为例）：每一行都是两个句子以及它们的关系（ 1 代表语义相同， 0 代表语义不同），我们可以发现模型需要预测的类别数量总计为 len(relations) ，即关系种类的数量，可以发现模型需要拟合的函数的值域也是较小的，即 O(len(relations)) 。文本生成任务的标注语料格式大致如下(以机器翻译为例）：我们可以发现每一行都是源语言句子以及目标语言的对应翻译。虽然此时模型和序列标注模型一样都需要对于单个样本预测多次，但是序列标注模型需要预测的次数直接等于字符的数量，是确定的，但是文本生成任务模型需要预测的次数是不确定的，并且每次预测的值域都是目标语言所有word（或者character）所组成的整体集合，即 O(len(words)) ，其规模可能是十万级或百万级的。因此我们很容易发现文本生成任务的难度和复杂程度是要远远高于其他任务的。对话任务如生成式闲聊机器人更是如此。可能是之前的AlphaGo过于吸引广大群众的眼球，做相关业务的公司吹的太厉害，以及“人工智能”、“深度学习”这几个词听起来逼格满满，导致许多外行人认为现在的人工智能已经发展到很厉害的层次，并且可以做各种各样的事情，似乎无所不能。但是内行人心里却明白：“什么人工智能，人工智障吧”、“所谓人工智能，多是智能不够，人工来凑”。外行人看不到深度模型算法的局限性，如许多模型的精度并不能达到那么高；也看不到深度模型算法的前提条件，如高质量、大规模的数据集，他们以为模型大约聪明到随便喂点数据便成为终结者般的存在。这也就导致了他们刚开始预期很高，然而在投资或找到外包后发现效果远远不能达到预期，大失所望而潦草结束或撤资离场的局面。如下一张图大概有点这个意思：统观学术界与工业界，和计算机视觉领域相比，自然语言处理这种更深层次的、涉及到认知智能的领域的进展虽悠久但缓慢，并且许多任务目前为止距离真正商用还有很大的距离。然而正是科学史上如阿基米德、牛顿等伟大人物与其他相对无名之辈默默耕耘，前赴后继，才使得如今之人类齐享先辈之成果，即所谓“前人栽树后人乘凉”也。我辈也无需悲观，须戒骄戒躁，搞算法的就多己见、少盲从，少水论文；搞工程的就多积累经验，提升实践能力，多做高质量的项目。功夫不负有心人。

243 评论 11小时前发布

杭椒牛柳

我可能会倾向于人工智能，因为未来的市场人工智能占比还是较大的，这样你写论文的范围很广，比较容易

98 评论 11小时前发布

自然语言处理毕业论文

4个回答 默认排序 默认排序 按时间排序

相关问答

学术期刊

向你推荐

热门问题

4个回答默认排序

默认排序

按时间排序