奔跑小猪mm
摘 要网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本论文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人、索引引擎、Web服务器三个方面进行详细的说明。为了更加深刻的理解这种技术,本人还亲自实现了一个自己的Java搜索引擎——新闻搜索引擎。新闻搜索引擎是从指定的Web页面中按照超连接进行解析、搜索,并把搜索到的每条新闻进行索引后加入数据库。然后通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的新闻。本人在介绍搜索引擎的章节中除了详细的阐述技术核心外还结合了新闻搜索引擎的实现代码来说明,图文并茂、易于理解。 关键字:搜索引擎,网络机器人,Lucene,中文分词,JavaCC AbstractThe resources in the internet are abundant, but it is a difficult job to search some useful information. So a search engine is the best method to solve this problem. This article fist introduces the system structure of search engine based on the internet in detail, and then gives a minute explanation form Spider search, engine and web server. In order to understand the technology more deeply, I have programmed a news search engine by myself in news search engine is explained and searched according to hyperlink from a appointed web page, then indexes every searched information and adds it to the index database. Then after receiving the customers' requests from the web server, it soon searches the right news form the index engine,In the chapter of introducing search engine, it is not only elaborating the core technology, but also combine with the modern code, pictures included, easy to understand. Key Words:Search Engine, Spider, Lucene, Phrase Query, JavaCC 目 录第1章 引言··· 选题背景:··· 现实意义··· 1第2章 搜索引擎的结构··· 系统概述··· 搜索引擎的构成··· 网络机器人··· 索引与搜索··· Web服务器··· 搜索引擎的主要指标及分析··· 小节··· 4第3章 网络机器人··· 什么是网络机器人··· 网络机器人的结构分析··· 如何解析HTML· 该类几种重要的方法。··· Spider程序结构··· 如何构造Spider程序··· 如何提高程序性能··· 网络机器人的代码分析··· 小节··· 10第4章 基于Lucene的索引与搜索··· 什么是全文检索与全文检索系统?··· 什么是Lucene全文检索··· Lucene的系统结构分析··· 系统结构组织··· 数据流分析··· Lucene索引构建逻辑模块分析··· 绪论··· 对象体系与UML图··· Lucene的包结构··· Lucene的主要逻辑图··· 对Lucene包的小结··· Lucene查询逻辑··· 查询者输入查询条件··· 查询条件被传达到查询分析器中··· 查询遍历树··· 返回结果··· Lucene 检索原理··· Lucene和Nucth的中文分析模块··· Nutch分析··· Nutch中文搜索 中文分词··· 利用JavaCC构造中文分析模块··· 分词小结··· Lucene与Spider的结合··· Index类的实现··· HTML解析类··· Lucene 小结··· 31第5章 基于Lucene的搜索引擎实现··· 基于Tomcat的Web服务器··· 什么是基于Tomcat的Web服务器··· 用户接口设计··· 客户端设计··· 服务端设计··· 在Tomcat上部署项目··· 小节··· 35第6章 搜索引擎策略··· 简介··· 面向主题的搜索策略··· 导向词··· 网页评级··· 权威网页和中心网页··· 小节··· 38结束语··· 39参考文献··· 40致 谢··· 41外文资料原文··· 42外文原文翻译··· 48 第1章 引言 选题背景:面对浩瀚的网络资源,搜索引擎为所有网上冲浪的用户提供了一个入口,毫不夸张的说,所有的用户都可以从搜索出发到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。搜索引擎技术伴随着WWW的发展是引人注目的。搜索引擎大约经历了三代的更新发展:第一代搜索引擎出现于1994年。这类搜索引擎一般都索引少于1,000,000个网页,极少重新搜集网页并去刷新索引。而且其检索速度非常慢,一般都要等待10秒甚至更长的时间。在实现技术上也基本沿用较为成熟的IR(Information Retrieval)、网络、数据库等技术,相当于利用一些已有技术实现的一个WWW上的应用。在1994年3月到4月,网络爬虫World Web Worm (WWWW)平均每天承受大约1500次查询。大约在1996年出现的第二代搜索引擎系统大多采用分布式方案(多个微型计算机协同工作)来提高数据规模、响应速度和用户数量,它们一般都保持一个大约50,000,000网页的索引数据库,每天能够响应10,000,000次用户检索请求。1997年11月,当时最先进的几个搜索引擎号称能建立从2,000,000到100,000,000的网页索引。Altavista搜索引擎声称他们每天大概要承受20,000,000次查询。结束语本课题对基于因特网的Java搜索引擎结构和性能指标进行了分析,了解Spider程序的结构和功能。在进行海量数据搜索时,如果使用单纯的数据库技术,那将是非常痛苦的,速度将是极大的瓶颈。所以本文提出了使用全文搜索引擎Lucene进行索引、搜索。解决中文分词和有效的中文搜索信息。同时解决了如何把Lucene全文搜索引擎和Spider程序互相集合来实现新闻搜索的功能。对于如何构架基于Tomcat的Web服务器,使得用户通过浏览器进行新闻的搜索有了一定的理解,对Tomcat如何部署进行了说明。在些基础上,终于可以调试出一个简单的在本地搜索新闻Java搜索引擎。参考文献[1] Jeff Heaton(美), Programming Spiders, Bots, and Aggregator in Java.[2] Borland Software Corporation(美),JBuilder培训教程(译者:周鹏 [等] 译)北京:机械工业出版社[3]徐宝文,张卫丰. 搜索引擎与信息获取技术.北京:清华大学出版社,[4]车东.基于Java的全文搜索引擎Lucene[5]罗旭.主题搜索引擎的设计与实现[6]Bruce Eckel(美).Thinking in Java.北京:机械工业出版社[7] Otis Gospodnetic Erik Hatcher (美).Action in Lucene.电子工业出版社,[8]耿祥义,张跃平. JAVA2实用教程(第二版).北京:清华大学出版社,[9]刘彬.JSP数据库高级教程.北京:清华大学出版社,[10]刘卫国,严晖.数据库技术与应用——SQL Server.北京:清华大学出版社,[11]闫宏飞.Tiny Search Engine: Design and implementation(PPT). [12]李晓明,闫宏飞,王继民.搜索引擎——原理、技术与系统.北京:科学出版社,2004 更多参考请点击
牙牙大少
我纠结的是写啥子好写...我们老师给的题目,貌似一个学校的奥....教室管理信息系统校园电子商务系统博客远程网络教学系统建设物流信息系统设计搜索引擎优化探析“绿色”信息(网络信息垃圾)相关?C语言试题管理系统的设计与实现毕业论文管理系统信管专业电子词典设计与开发在线调查问卷系统的设计与开发海口市公交车线路查询系统的设计与实现信管专业就业信息系统开发数据结构教学网站开发CRM系统在企业客户忠诚管理的应用研究客户关系管理系统在企业中的应用研究论信息化对企业发展的促进作用——以***为例MIS对企业战略的影响研究——以**公司为例信息化对企业竞争力的影响研究论信息化对企业文化建设的影响国家旅游岛背景下海南旅游信息资源的开发与利用研究海南省农业电子商务发展现状、存在问题及对策研究我校大学生信息需求与利用行为调查研究农产品追溯系统的信息防伪技术浅析浅析农产品追溯信息系统的信息安全国内农产品追溯信息系统的发展现状研究××企业信息技术的外包策略探讨××企业客户关系管理(CRM)探讨××企业信息化建设的问题与对策企业信息化与国际旅游岛发展战略探讨网络环境下的大学生信息消费研究海南信息产业结构分析与发展对策探讨非对称信息条件下大学生就业行为研究网络信息安全的经济学分析电子商务环境下的XX企业信息分析与预测研究海南高校信息资源开发与利用的现状及对策研究
78海吃不胖
1. 无线数据网络中基于斯塔克尔博格博弈的功率控制 2. 动能定理,机械能守恒定律应用3. 宽带网络中业务模型的仿真分析 4. 基于 AVC码率控制算法的研究 5. 基于GRF-3100射频系统的混频器的设计与制作 6. VOIP语音通信系统的设计与应用 7. 基于Labview的实验数据处理的研究 8. 基于NS2的路由算法研究与仿真 9. 图像处理工具箱的VC实现 10. 嵌入式实时系统设计模式的应用 11. 基于VC的UDP的实现 12. 基于TCP/IP协议嵌入式数字语音传输系统终端硬件设计 13. 基于MPLS的VPN技术原理及其实现 14. 基于FPGA的步进电机控制系统的数字硬件设计研究 15. 多路信号复用的基带发信系统模型 16. 数字音频水印研究 17. 数字电视传输系统-城市数字电视平移 18. 虚拟演播室应用研究与设计 19. 电视节目制作系统设计 20. KM3知识管理系统解决方案 21. 移动通信系统的频率分配算法设计 22. 通信系统的抗干扰技术 23. 扩频通信系统抗干扰分析 24. 基于OPNET的网络规划设计 25. 基于NS2的路由算法仿真 26. 基于GPRS的数据采集与传输系统设计 27. 搅拌混合器微分先行控制系统设计 28. 车辆牌照自动识别系统 29. 基于CPLD器件的数字频率计的设计 30. 大容量汉字显示系统的设计 31. 数控直流电压源的设计 32. 基于s6700电子标签阅读器设计 33. 嵌入式网络连接设计 34. Java手机网络游戏的实现和程序设计 35. 简频率特性测试仪设计 36. DDS及其在声学多普勒流速测量系统中的应用 37. AVR 8位嵌入式单片机在车载全球定位系统显示终端中的应用 38. 基于单片机的考勤系统设计 39. 基于单片机的寻呼机编码器 40. 基于MF RC632射频识别读写器芯片的专用读卡器 41. 具有SPI接口的数字式同步发送器设计 42. 小区停车场计费系统设计 43. 村村通无线接入系统中的CDMA技术 44. 语音校检报文的程序设计 45. 基于轧制扰动负荷观测器的轧机传动机电振动控制系统设计 46. 基于MATLAB的数字滤波器的设计 47. 基于VHDL的乒乓游戏机的设计 48. 语音信号的滤波设计 49. 基于DSPTMS320F206的高炉自动进料控制系统 50. 基于VHDL语言的基带线路码产生电路仿真设计 51. 智能天线的研究 52. 混合动力汽车电机驱动单元 53. 混合动力汽车 54. 直流电机双闭环调速系统设计 55. 双馈电机直接转矩DSP控制 56. 双馈电机直接转矩控制 57. 无刷直流电机调速系统 58. 异步电机直接转矩控制 59. 人脸识别系统的研究与实现 60. 锁相频率合成器的设计与仿真 61. 动态链接库进阶 62. 电话业务综合管理系统设计 63. 弹性分组环RPR的公平算法研究 64. 低轨卫星移动通信信道模型研究 65. 大数计算的算法探讨及其在椭圆曲线密码体制中的应用 66. HY防火墙管理软件开发过程及ACL模块功能实现 67. EPON的原理分析 68. DCS通讯与软测量技术的研究 69. 3G的AKA协议中F1至F5的UE端的实现 70. 《信号与系统》课件的设计与实现 71. 《电路与电子学》电子课件的设计与制作 72. RSA公钥算法研究与实现 73. p2p通信模型的java实现 74. 搜索引擎的开发与实现 75. 图书馆管理系统及原代码毕业设计 76. 网络安全专题学习网站设计 77. 网络教育应用网站设计 78. 校园网组建、开发与管理 79. 最优化软件设计实现 80. 租赁网的设计和实现 81. 远程控制终端数据接口设计 82. 遗传算法及其在网络计划中的应用 83. 研华PCI-1753板卡Linux驱动程序的开发 84. 软测量技术在造纸打浆过程的应用研究 85. 嵌入式系统研制AD数模转换器 86. 劳动生产率增长条件的研究 87. 基于XML帮助系统的设计与实现 88. 基于MPT-1327的集群系统智能基站的研究与设计 89. 基于J2ME的手机部分功能实现 90. 购销存财务软件的应用比较 91. 高清视频多媒体播放器 92. 基于CORBA网络管理技术及其安全性的研究和应用 93. 基本开发的网上商场的设计与实现 94. 桂林大广电子公司网站设计 95. 电信客户关系管理系统的分析与实现 96. 企业办公局域网的建设 97. 第三代移动通信承载业务和QoS处理机制无线资源管 98. 计算机病毒动态防御系统毕业论文 99. 3G标准化进程及其演进策略 100. 鲁棒数字水印算法的研究和比较 101. 基于SPCE061A的语音遥控小车设计——?硬件电路设计
建议LZ写百度与google的异同与将来搜索引擎发展的内容,因为一个是国内最大的搜索引擎百度,其市值现在与腾讯并驾齐驱;一个是国际最大、全球占有份额最高的搜索引
[摘要]随着新媒体的迅猛发展,新媒体与传统媒体融合趋势越来越明显,信息资源的整合性也越来越强。搜索引擎作为检索信息的有效工具,正发挥着越来越重要的作用。企业也开
我建议你选择:3.基于SEAM的医院统计分析系统4.基于FLEX的出生缺陷数据挖掘系统WebGIS系统的设计与实现其中之一,上面2个太注重于研究,后面2个更重于
论文查询网站有FindaRticles文献论文搜索、钛学术文献平台、Semantic Scholar学术搜索引擎和Base Search德国比勒菲尔德学术搜索引
可以看免费论文的网站有中国知网、scholar天玑学术网、Citeseerx、CALLS高校学位论文库、国家哲学社会科学文献中心等。 1、中国知网 专业的论文收