• 回答数

    4

  • 浏览数

    351

霸王V风月
首页 > 学术期刊 > 中文分词毕业论文

4个回答 默认排序
  • 默认排序
  • 按时间排序

YeezyYeezy

已采纳

就是以数据诸如文字,声音,图像等为主要内容,以检索文献资料的内容而不是外表特征的一种检索技术·主要该系统有TRS系统·天宇系统·等与其他搜索引擎相比,全文搜索引擎的显著特点是它能够以文中任何一个有检索意义的词作为检索入口,而且取得的检索结果是原始文献,而不是文献线索随着计算机产业的发展,以计算机存储设备为载体的电子信息愈来愈多,这些信息大致可分为两类:结构化数据和非结构化数据,结构化数据指的是诸如企业财务帐目和生产数据、学生的分数数据等等,非结构化数据的则是一些文本数据、图象声音等多媒体数据等等。据统计,非结构化数据占有整个信息量的80%以上。对于结构化数据,用RDBMS(关系数据库管理系统)技术来管理是目前最好的一种方式。但是由于RDBMS自身底层结构的缘故使得它管理大量非结构化数据显得有些先天不足,特别是查询这些海量非结构化数据的速度较慢。而通过全文检索技术就能高效地管理这些非结构化数据。经过几年的发展,全文检索从最初的字符串匹配程序已经演进到能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的大型软件。由于内涵和外延的深刻变化,全文检索系统已成为新一代管理信息系统的代名词,衡量全文检索系统的基本指标也逐渐形成规范。首先,我们关注的是查全率,即系统在进行某一检索时,检索出的相关资料量与系统资料库中相关资料总量的比率。查准率则是保证我们找到最有用资料的一个关键,是系统在进行某一检索时,检索出的有用资料数量与检索出资料总量的比率。检索速度或者说响应时间是提高工作效率的保障,指的是从提交检索课题到查出资料结果所需的时间。最基本的检索速度是应该达“千万汉字,秒级响应"。还有诸如收录范围(所查找的范围)、用户负担(用户在检索过程中付出精力的总和)、输出形式 (输出信息表现形式)等指标也是衡量全文检索系统优劣的要素。搜索引擎应该是全文检索技术最主要的一个应用。目前,搜索引擎的使用已成为排在收发电子邮件之后的第二大互联网应用技术。搜索引擎起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的到排文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。全文检索技术是搜索引擎的核心支撑技术。一个好的检索引擎是一个理想站点的关键。很多人在访问一个站点时喜欢使用站点检索,站点检索应是分类目录导航和全文检索的完美结合,具体包括以下几个方面:分类目录导航的关键是检索范围,检索范围的限制能使得检索结果不会太多、太滥;全文检索对于站点检索是必不可少的,在通常情况下能够帮助人们很快地找到所要的网页;有时利用分类目录导航和全文检索还很难定位到所要的信息,这时就要组合检索辅助;必须有相关排序功能,因为当检索结果太多时,用户不可能一一浏览,大多数用户只浏览前面几条,没有相关排序,可能准确的检索结果排在后面,用户不能浏览到,而排在前面的检索结果却相关性很少,造成用户的错觉。此外,我们还要考虑HTML/XML的特殊性、支持大量并发用户突发访问、Web站点的动态特性、要求索引维护效率很高等方面。目前的技术实现有Lucene,Solr,ElasticSearch等。全文检索过程分为索引、搜索两个过程: 索引(Indexing)从关系数据库中、互联网上、文件系统采集源数据(要搜索的目标信息),源数据的来源是非常广泛的。将源数据采集到一个统一的地方,例如存储系统,要创建索引,将索引创建到一个索引库(文件系统)中,从源数据库中提取关键信息,从关键信息中抽取一个一个词,词和源数据是有关联的。也即创建索引时,词和源数据有关联,索引库中记录了这个关联,如果找到了词就说明找到了源数据(http的网页、电子书、新闻等……)。搜索(Search)用户执行搜索(全文检索)编写查询关键字。从索引库中搜索索引,根据查询关键字搜索索引库中的一个一个词。展示搜索的结果。

92 评论

AstrophelandStella

号称是“国产首款自主研发”的浏览器内核红芯,却被指抄袭谷歌。此前,红芯还声称要打造世界上第五个浏览器内核Redcore。

8月15日,红芯宣布完成亿元C轮系列融资。当天下午,就有网友发布了“解压红芯浏览器执行文件”的动图,显示多次解压后的文件有“Chrome”(谷歌浏览器)字样,认为红芯只是一个“换肤版”浏览器,并非自主创新。

针对质疑,红芯联合创始人、首席运营官高婧表示,红芯浏览器的创新基于国际通行标准,并非完全“另起炉灶”,看到Chrome内核文件是正常的,“但他只看到了文件名,没有看到真正的代码,也就看不到代码的创新。”高婧称。

不过,业内人士对于高婧的说法似乎并不认可。据业内人士介绍,“全新打造一个浏览器内核,不仅工程化门槛很高,而且必要性不强,因为几乎所有网站在制作时都只考虑兼容几大主流浏览器内核,这相当于每个浏览器内核都已经构建好了一个隐形生态。”

8月16日,红芯创始人陈本峰在接受媒体采访时,对于舆论给予的“抄袭”罪名,称“红芯是站在巨人的肩膀上创新,并非抄袭”。

但按照谷歌Chrome的开源要求,使用其内核是需要明确标注的,且不管是使用还是基于该内核进行开发,都要和谷歌签订协议。针对这一点,陈本峰本人也承认,红芯采用谷歌Chrome内核却并未与谷歌签订修改协议,并表示“只想到满足客户的需求,至于基于什么内核,并不是客户关注重点”。

红芯创始人陈本峰被曝简历造假

陈本峰虽然承认了错误,并表示是个教训,但依然难挡被业内曝光其个人经历造假。在一篇关于陈本峰的文章中写到,“陈本峰20岁遇到科大讯飞创始董事长、中文语音合成技术宗师王仁华教授。2000年,由于编程能力出众,陈本峰成为了当时的初始团队。而他用了一个暑假帮助讯飞完善了中文分词系统,使其准确率70%提升到93%。”

对此,科大讯飞董事长刘庆峰在接受采访时表示,讯飞产业投资公司是在2013年投资了红芯浏览器,当时在天使轮投了300万元人民币。陈本峰本科毕业论文是在科大实验室做的,后来研究生去香港科技大学读书,之后就跟科大讯飞没关系了。对于网上传言陈本峰是科大讯飞创始人一事,刘庆峰表示:“与事实不符,就是在科大讯飞实验室的一个实习学生”。

干嘛要说假话,真话说出来不好吗?说真话人才会获得真实,获得轻松!

来源:凤凰网资讯

253 评论

飞花叶叶雪

什么c语言?这个问题说难不难,说易不易。粗浅的c语言一般可以在中国中学生联盟网技术论坛上拷贝一份,里面有一些可以作参考。

233 评论

蔡zhong凯

太多了。你不是本专业的吧?可以去图书馆主页搜一下关键字,然后找几篇文章看看,你会有眉目的。

145 评论

相关问答

  • 毕业论文关键词用分号

    需要的,都是用分号隔开,这个是有国标的。其实你可以参考其他人的硕士论文格式。一般格式为:“ 摘要: 开心; 快乐; 生活”

    julielovecat 3人参与回答 2023-12-09
  • 毕业论文中谢词

    毕业论文谢辞范文(通用16篇) 感谢经济xxxx系的各位同学,与他们的交流使我受益颇多。最后要感谢我的家人以及我的朋友们对我的理解、支持、鼓励和帮助,正是因为有

    葳蕤9999 3人参与回答 2023-12-07
  • 中文专业毕业论文答辩词

    毕业论文答辩稿写法: 1、自己为什么选择这个课题。 2、研究这个课题的意义和目的是什么。 3、全文的基本框架、基本结构是如何安排的。 4、全文的各部分之间逻辑关

    耗耗和妞妞 2人参与回答 2023-12-10
  • 中英动词毕业论文

    英语文学是英语专业学生的一门重要的课程,对于英语学生的自身能力的提升具有十分重要的意义。下面是我为大家整理的英语文学方向毕业论文,供大家参考。 摘要:教师在教学

    潇潇若雨 2人参与回答 2023-12-07
  • 毕业论文关键词分隔

    毕业论文格式要求规范 导语:每一篇论文都有它严格的要求,要求是对论文的科学规范也是告诉同学们论文的一些学术的严谨性,下面是我整理的毕业论文格式要求规范,欢迎参考

    小黑君kk 3人参与回答 2023-12-11