• 回答数

    5

  • 浏览数

    188

春天里吃大米
首页 > 学术期刊 > python抓取毕业论文

5个回答 默认排序
  • 默认排序
  • 按时间排序

吃兔吃土

已采纳

可以转换成TXT再抓取

223 评论

七七七绮哥

你的问题事实上包含几部分:将 PDF 转化为纯文本格式抽取其中部分内容格式化写入到 excel 中转换 PDF 有很多库可以完成,如下是通过 pdfminer 的示例:from cStringIO import StringIOfrom import PDFResourceManager, PDFPageInterpreterfrom import TextConverterfrom import LAParamsfrom import PDFPagedef convert_pdf_2_text(path):rsrcmgr = PDFResourceManager()retstr = StringIO()device = TextConverter(rsrcmgr, retstr, codec='utf-8', laparams=LAParams())interpreter = PDFPageInterpreter(rsrcmgr, device)with open(path, 'rb') as fp:for page in (fp, set()):(page)text = ()()()return text需要指出的是,pdfminer 不但可以将 PDF 转换为 text 文本,还可以转换为 HTML 等带有标签的文本。上面只是最简单的示例,如果每页有很独特的标志,你还可以按页单独处理。

205 评论

减肥大胃王

用python怎么抓取道客巴巴文件就是Linuxshell脚本了,我们通常说“事半功倍”,shell脚本的确可以帮助你实现这个目的。我们平时在LINUX部署一个应用会用到很多的命令如 Checkout,ps,vi,kill等等,如果能把这个操作流程写成一个SHELL脚本让机器自动执行,那该是省了多少事?另外,作为 UNIX/LINUX管理员,平时可以要监控较多的PC终端,他完全可以在UNIX/LINUX上定制各种任务(如备份,删除临时文件,检查磁盘空间等等),所以,掌握Shell脚本(如Sed,awk,grep等)对一个测试人员来讲是十分必要的!

143 评论

最真的poor

别折腾了,不打算往爬虫方向发展的话没必要自己学,爬虫所需要的技术非常广泛、且对深度都有一定要求,不存在“快速学会”的情况。所有那些吹快速学会爬虫的培训班都是扯淡,那些课程学完后的水平连傻瓜式爬虫工具都不如,有啥意义?再说了,你们写论文、做研究又不会需要什么很大量、很高频、很实时的数据,那些傻瓜式爬虫工具完全足够了,点几下就能出数据。

344 评论

桃大大仙

方法/步骤

155 评论

相关问答

  • python爬取论文参考文献

    合并数据。引文网络的构建是基于AMSLER网络原理,同时考虑文献之间的共被引情况和耦合情况,合并数据可通过Python或者市面的小工具进行操作。Python由荷

    3未闻花名3 1人参与回答 2023-12-11
  • python批量爬取论文文献

    可以先利用搜索引擎学习。简单爬虫不难,无非发起http访问,取得网页的源代码文本,从源代码文本中抽取信息。首先要自己会写代码。学习爬虫可以从下面一些知识点入手学

    熊猫虾仁@三侠 4人参与回答 2023-12-08
  • python数据分析毕业论文

    用python做数据分析的内容有一份,直接给你使用

    我是你的大白 5人参与回答 2023-12-11
  • python博客毕业论文

    难,2月左右。如果是直接开发制作的话大概需要2个月左右时间要是用现成的改制,这个用不了多少时间,一般一两周就可以。

    小梅子zh 3人参与回答 2023-12-11
  • python毕业论文

    可以的,毕业设计可以用Python语言,重点是论文的项目和文字内容排版。论文的内容不能过于重复。

    垂杨紫陌 4人参与回答 2023-12-08