• 回答数

    6

  • 浏览数

    165

带嘴过日子
首页 > 学术论文 > 中文分词相关毕业论文

6个回答 默认排序
  • 默认排序
  • 按时间排序

一抹熙云

已采纳

汉语言文学本科专业毕业论文撰写规范要求》1 内容及要求 题目毕业论文题目应该明确、精练、有概括性。题目的字数一般在25字以内,必要时可加副标题。 摘要与关键词 摘要摘要应概括地反映出毕业论文的目的、内容、方法、成果和结论。中文摘要以300~350字为宜。外文摘要应另起一页,其内容及格式应与中文摘要一致。 关键词关键词一般为3~5个,按词条的外延层次排列,外延大的排在前面。 目录目录中的标题要与正文中标题一致,要求标题层次清晰。 正文正文是毕业论文的核心部分,一般应包括绪论、主体及结论等部分。 绪论(前言、引言)绪论(前言、引言)一般作为第一部分,是毕业论文主体的开端。包括毕业论文的背景及目的、国内外研究状况和相关领域中已有的研究成果、本课题的意义、采用方法、理论依据和具备的条件、毕业论文构成及主要内容等。 主体主体是毕业论文的主要部分,应该结构合理、层次清楚、重点突出、文字简练通顺。主体包括的内容由中文系根据汉语言文学专业特点制定,要求按照内容分章节论述论点。对论文中出现的引文等内容要求应在原文中明确指出出处。 结论毕业论文的结论单独作为一章编写。结论是毕业论文的总结,是整个论文的归宿。要求精炼、准确地阐述自己的创造性工作或新的见解及其意义和作用,还可进一步提出需要讨论的问题和建议。 参考文献毕业论文的撰写应本着严谨求实的科学态度,凡有引用他人成果之处,均应按其所出现的先后次序列于参考文献中。 致谢致谢中主要感谢导师和对毕业论文工作有直接贡献及帮助的人士和单位。 附录对于一些不便放入正文中、但作为毕业论文又是不可缺少的部分,或有重要参考价值的内容,可编入毕业论文的附录中。2 书写规范与打印要求 文字用汉语规范文字书写,本专业规定字数在一万字以上。 书写毕业论文版面不分栏,一律由本人在计算机上用Word输入、编排并打印在A4幅面白纸上,行间距为单倍行距。 字体和字号章 标 题: 3号黑体 节 标 题: 4号黑体 条 标 题: 小4号黑体 正 文: 小4号宋体 页 码: 5号宋体数字和字母: Times New Roman体 页面设置 页眉和页脚页眉为,上写“西安石油大学本科毕业论文”。页脚为。页眉和页脚文字均用5号宋体。 页边距上边距:25mm;下边距:25mm;左边距:30mm;右边距:25mm。 页码的书写及编排毕业论文页码从绪论部分开始至附录,用阿拉伯数字连续编排,页码位于页面底端居中排列。封面、毕业论文任务书、摘要不编页码;目录用罗马数字单独编页码。 封面 毕业论文封面由学校统一印制,缺项内容用钢笔填写。 扉页扉页为“毕业论文任务书”。任务书应由指导教师填写(打印),签名用钢笔填写,不得打印。 摘要中文摘要包括题目、“摘 要:”字样、摘要正文和关键词。摘要正文后下空一行打印“关键词:”,每一关键词之间用分号分开,最后一个关键词后不打标点符号。所有文字均用小4号宋体。外文摘要字体用小4号Times New Roman体,格式与中文摘要相同。 目录目录的编写格式,各专业应有明确要求。目录中各章题序的阿拉伯数字用Times New Roman体。 正文正文分章节撰写, 每章应另起一页。各章标题要突出重点、简明扼要。正文层次的编排和标题序码由各专业规定。 引用文献引用文献标示方式应采用所在学科领域内通用的方式,用上标的形式置于所引内容最末句的右上角,不得将引用文献标示置于各级标题处。 参考文献按毕业论文正文中出现的顺序列出直接引用的主要参考文献。参考文献的著录应符合国家标准GB7714-87 《文后参考文献著录规则》。3 印刷与装订毕业论文单面印刷,左侧装订。按以下顺序排列:(一) 封面、(二) 扉页(任务书)、(三) 中文摘要、(四) 外文摘要、(五) 目录、(六) 正文(绪论、主体、结论等)、(七) 参考文献、(八) 致谢、(九) 附录、(十) 封底

120 评论

猎户座HS

中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块。不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性、句法树等模块的效果。当然分词只是一个工具,场景不同,要求也不同。在人机自然语言交互中,成熟的中文分词算法能够达到更好的自然语言处理效果,帮助计算机理解复杂的中文语言。竹间智能在构建中文自然语言对话系统时,结合语言学不断优化,训练出了一套具有较好分词效果的算法模型,为机器更好地理解中文自然语言奠定了基础。在此,对于中文分词方案、当前分词器存在的问题,以及中文分词需要考虑的因素及相关资源,竹间智能自然语言与深度学习小组做了些整理和总结。中文分词根据实现原理和特点,主要分为以下2个类别:

1、基于词典分词算法也称字符串匹配分词算法。该算法是按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配,若找到某个词条,则说明匹配成功,识别了该词。常见的基于词典的分词算法分为以下几种:正向最大匹配法、逆向最大匹配法和双向匹配分词法等。基于词典的分词算法是应用最广泛、分词速度最快的。很长一段时间内研究者都在对基于字符串匹配方法进行优化,比如最大长度设定、字符串存储和查找方式以及对于词表的组织结构,比如采用TRIE索引树、哈希索引等。

2、基于统计的机器学习算法这类目前常用的是算法是HMM、CRF、SVM、深度学习等算法,比如stanford、Hanlp分词工具是基于CRF算法。以CRF为例,基本思路是对汉字进行标注训练,不仅考虑了词语出现的频率,还考虑上下文,具备较好的学习能力,因此其对歧义词和未登录词的识别都具有良好的效果。NianwenXue在其论文《Combining Classifiers for Chinese Word Segmentation》中首次提出对每个字符进行标注,通过机器学习算法训练分类器进行分词,在论文《Chinese word segmentation as character tagging》中较为详细地阐述了基于字标注的分词法。常见的分词器都是使用机器学习算法和词典相结合,一方面能够提高分词准确率,另一方面能够改善领域适应性。

179 评论

一起去听风

汉语言的是吧给你发了,不知道是否符合你学校的要求

150 评论

红颜一笑吧

摘 要网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本论文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人、索引引擎、Web服务器三个方面进行详细的说明。为了更加深刻的理解这种技术,本人还亲自实现了一个自己的Java搜索引擎——新闻搜索引擎。新闻搜索引擎是从指定的Web页面中按照超连接进行解析、搜索,并把搜索到的每条新闻进行索引后加入数据库。然后通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的新闻。本人在介绍搜索引擎的章节中除了详细的阐述技术核心外还结合了新闻搜索引擎的实现代码来说明,图文并茂、易于理解。 关键字:搜索引擎,网络机器人,Lucene,中文分词,JavaCC AbstractThe resources in the internet are abundant, but it is a difficult job to search some useful information. So a search engine is the best method to solve this problem. This article fist introduces the system structure of search engine based on the internet in detail, and then gives a minute explanation form Spider search, engine and web server. In order to understand the technology more deeply, I have programmed a news search engine by myself in news search engine is explained and searched according to hyperlink from a appointed web page, then indexes every searched information and adds it to the index database. Then after receiving the customers' requests from the web server, it soon searches the right news form the index engine,In the chapter of introducing search engine, it is not only elaborating the core technology, but also combine with the modern code, pictures included, easy to understand. Key Words:Search Engine, Spider, Lucene, Phrase Query, JavaCC 目 录第1章 引言··· 选题背景:··· 现实意义··· 1第2章 搜索引擎的结构··· 系统概述··· 搜索引擎的构成··· 网络机器人··· 索引与搜索··· Web服务器··· 搜索引擎的主要指标及分析··· 小节··· 4第3章 网络机器人··· 什么是网络机器人··· 网络机器人的结构分析··· 如何解析HTML· 该类几种重要的方法。··· Spider程序结构··· 如何构造Spider程序··· 如何提高程序性能··· 网络机器人的代码分析··· 小节··· 10第4章 基于Lucene的索引与搜索··· 什么是全文检索与全文检索系统?··· 什么是Lucene全文检索··· Lucene的系统结构分析··· 系统结构组织··· 数据流分析··· Lucene索引构建逻辑模块分析··· 绪论··· 对象体系与UML图··· Lucene的包结构··· Lucene的主要逻辑图··· 对Lucene包的小结··· Lucene查询逻辑··· 查询者输入查询条件··· 查询条件被传达到查询分析器中··· 查询遍历树··· 返回结果··· Lucene 检索原理··· Lucene和Nucth的中文分析模块··· Nutch分析··· Nutch中文搜索 中文分词··· 利用JavaCC构造中文分析模块··· 分词小结··· Lucene与Spider的结合··· Index类的实现··· HTML解析类··· Lucene 小结··· 31第5章 基于Lucene的搜索引擎实现··· 基于Tomcat的Web服务器··· 什么是基于Tomcat的Web服务器··· 用户接口设计··· 客户端设计··· 服务端设计··· 在Tomcat上部署项目··· 小节··· 35第6章 搜索引擎策略··· 简介··· 面向主题的搜索策略··· 导向词··· 网页评级··· 权威网页和中心网页··· 小节··· 38结束语··· 39参考文献··· 40致 谢··· 41外文资料原文··· 42外文原文翻译··· 48 第1章 引言 选题背景:面对浩瀚的网络资源,搜索引擎为所有网上冲浪的用户提供了一个入口,毫不夸张的说,所有的用户都可以从搜索出发到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。搜索引擎技术伴随着WWW的发展是引人注目的。搜索引擎大约经历了三代的更新发展:第一代搜索引擎出现于1994年。这类搜索引擎一般都索引少于1,000,000个网页,极少重新搜集网页并去刷新索引。而且其检索速度非常慢,一般都要等待10秒甚至更长的时间。在实现技术上也基本沿用较为成熟的IR(Information Retrieval)、网络、数据库等技术,相当于利用一些已有技术实现的一个WWW上的应用。在1994年3月到4月,网络爬虫World Web Worm (WWWW)平均每天承受大约1500次查询。大约在1996年出现的第二代搜索引擎系统大多采用分布式方案(多个微型计算机协同工作)来提高数据规模、响应速度和用户数量,它们一般都保持一个大约50,000,000网页的索引数据库,每天能够响应10,000,000次用户检索请求。1997年11月,当时最先进的几个搜索引擎号称能建立从2,000,000到100,000,000的网页索引。Altavista搜索引擎声称他们每天大概要承受20,000,000次查询。结束语本课题对基于因特网的Java搜索引擎结构和性能指标进行了分析,了解Spider程序的结构和功能。在进行海量数据搜索时,如果使用单纯的数据库技术,那将是非常痛苦的,速度将是极大的瓶颈。所以本文提出了使用全文搜索引擎Lucene进行索引、搜索。解决中文分词和有效的中文搜索信息。同时解决了如何把Lucene全文搜索引擎和Spider程序互相集合来实现新闻搜索的功能。对于如何构架基于Tomcat的Web服务器,使得用户通过浏览器进行新闻的搜索有了一定的理解,对Tomcat如何部署进行了说明。在些基础上,终于可以调试出一个简单的在本地搜索新闻Java搜索引擎。参考文献[1] Jeff Heaton(美), Programming Spiders, Bots, and Aggregator in Java.[2] Borland Software Corporation(美),JBuilder培训教程(译者:周鹏 [等] 译)北京:机械工业出版社[3]徐宝文,张卫丰. 搜索引擎与信息获取技术.北京:清华大学出版社,[4]车东.基于Java的全文搜索引擎Lucene[5]罗旭.主题搜索引擎的设计与实现[6]Bruce Eckel(美).Thinking in Java.北京:机械工业出版社[7] Otis Gospodnetic Erik Hatcher (美).Action in Lucene.电子工业出版社,[8]耿祥义,张跃平. JAVA2实用教程(第二版).北京:清华大学出版社,[9]刘彬.JSP数据库高级教程.北京:清华大学出版社,[10]刘卫国,严晖.数据库技术与应用——SQL Server.北京:清华大学出版社,[11]闫宏飞.Tiny Search Engine: Design and implementation(PPT). [12]李晓明,闫宏飞,王继民.搜索引擎——原理、技术与系统.北京:科学出版社,2004 更多参考请点击

342 评论

木洛希雨

1. 好词典很重要m不论什么样的分词方法, 优秀的词典必不可少, 越拿老掉牙的词典对越新的文本进行分词, 就越会分成一团糟. 怎样构建一个优秀的词典, 快速发现新新词汇.。可以看有几篇文章,讲的非常透彻明白 : 互联网时代的社会语言学:基于SNS的文本数据挖掘。

2. 算法跟着需求走,建议根据不同的需求选用不同的算法, 例如, 类似知乎头部搜索的 AutoComplete 部分, 讲究的是速度快, 兴趣相关( 优先找和你账户相关, 和可能感兴趣的内容 ), 分词算法反而在其次了. 而像全文搜索这样大段大段的长文字.。我觉得则更注重的是精准, 应该选一个像CRF这样的算法。

123 评论

雁塔陶瓷001

首先问你是什么论文啊?毕业论文?如果是毕业论文关键是看你的专业方向啊,比如软件,可能有:程序设计的,包括用.net设计一个软件系统,或者用jsp3层架构开发一个网页式的管理软件;还有像算法研究的:比如人工智能方面的(我本科毕业时做的就是中文分词方面的);还有就是有硬件和软件配合的设计,比如基于ARM-LUINX-GCC的嵌入式开发;还有比如网络方向的:像防火墙的研究和设计等等。做论文,首先看你的兴趣,再次看你的导师给你什么样的建议或指导,一个合理的指导会使你非常“舒服”的。总之在写论文的时候多点耐心,多花点时间多认真点就可以了。在学校的时候不知道你们学校有没有购买万方的论文库,这个是个好帮手,好好利用,毕业后你要查的话就是收费的了……(我毕业后才后悔极了)

207 评论

相关问答

  • 毕业论文中三线表相关性分析

    就是,我觉得其他表也挺好看的!切

    春雨蒙蒙a2015 1人参与回答 2023-12-10
  • 词汇学相关论文文献

    英文论文参考文献示例 无论在学习或是工作中,大家肯定对论文都不陌生吧,通过论文写作可以提高我们综合运用所学知识的能力。你写论文时总是无从下笔?以下是我收集整理的

    琳子Yulander 2人参与回答 2023-12-06
  • 毕业论文相关性分析方法

    毕业论文采用的研究方法有哪些 毕业论文采用的研究方法有哪些,在写论文的时候需要用到研究方法,研究的方法有很多种,不同的研究方法使用的方式也是不一样的,以下就是我

    allen阿蕾 2人参与回答 2023-12-11
  • 中文分词相关毕业论文

    汉语言文学本科专业毕业论文撰写规范要求》1 内容及要求1.1 题目毕业论文题目应该明确、精练、有概括性。题目的字数一般在25字以内,必要时可加副标题。1.2

    带嘴过日子 6人参与回答 2023-12-06
  • 中文速录相关毕业论文

    毕业论文是中文专业本科段的最后一门课程。只有通过了毕业论文答辩的自考学员,才能获得由南京师范大学颁发的本科毕业文凭。因此,撰写毕业论文是每一个中文本科自考学员必

    Smile丶燚 4人参与回答 2023-12-07