• 回答数

    4

  • 浏览数

    245

媛姐姐丶
首页 > 学术论文 > 用python爬取知网论文

4个回答 默认排序
  • 默认排序
  • 按时间排序

非人勿扰的2016

已采纳

过程大体分为以下几步:

91 评论

我是丽香

Python自动化可以实现,有偿服务

235 评论

Diana~蜜桃

一、使用的技术栈:爬虫:python27 +requests+json+bs4+time分析工具: ELK套件开发工具:pycharm数据成果简单的可视化分析1.性别分布0 绿色代表的是男性 ^ . ^1 代表的是女性-1 性别不确定可见知乎的用户男性颇多。二、粉丝最多的top30粉丝最多的前三十名:依次是张佳玮、李开复、黄继新等等,去知乎上查这些人,也差不多这个排名,说明爬取的数据具有一定的说服力。三、写文章最多的top30四、爬虫架构爬虫架构图如下:说明:选择一个活跃的用户(比如李开复)的url作为入口url.并将已爬取的url存在set中。抓取内容,并解析该用户的关注的用户的列表url,添加这些url到另一个set中,并用已爬取的url作为过滤。解析该用户的个人信息,并存取到本地磁盘。logstash取实时的获取本地磁盘的用户数据,并给elsticsearchkibana和elasticsearch配合,将数据转换成用户友好的可视化图形。五、编码爬取一个url:解析内容:存本地文件:代码说明:* 需要修改获取requests请求头的authorization。* 需要修改你的文件存储路径。源码下载:点击这里,记得star哦!https : // github . com/forezp/ZhihuSpiderMan六、如何获取authorization打开chorme,打开https : // www. zhihu .com/,登陆,首页随便找个用户,进入他的个人主页,F12(或鼠标右键,点检查)七、可改进的地方可增加线程池,提高爬虫效率存储url的时候我才用的set(),并且采用缓存策略,最多只存2000个url,防止内存不够,其实可以存在redis中。存储爬取后的用户我说采取的是本地文件的方式,更好的方式应该是存在mongodb中。对爬取的用户应该有一个信息的过滤,比如用户的粉丝数需要大与100或者参与话题数大于10等才存储。防止抓取了过多的僵尸用户。八、关于ELK套件关于elk的套件安装就不讨论了,具体见官网就行了。网站:https : // www . elastic . co/另外logstash的配置文件如下:从爬取的用户数据可分析的地方很多,比如地域、学历、年龄等等,我就不一一列举了。另外,我觉得爬虫是一件非常有意思的事情,在这个内容消费升级的年代,如何在广阔的互联网的数据海洋中挖掘有价值的数据,是一件值得思考和需不断践行的事情。

279 评论

lifeierwawa

别折腾了,不打算往爬虫方向发展的话没必要自己学,爬虫所需要的技术非常广泛、且对深度都有一定要求,不存在“快速学会”的情况。所有那些吹快速学会爬虫的培训班都是扯淡,那些课程学完后的水平连傻瓜式爬虫工具都不如,有啥意义?再说了,你们写论文、做研究又不会需要什么很大量、很高频、很实时的数据,那些傻瓜式爬虫工具完全足够了,点几下就能出数据。

203 评论

相关问答

  • 知网爬取论文关键词分析

    论文关键词是什么意思 关键词关键词,就是您输入搜索框中的文字,也就是您命令搜索引擎寻找的东西。 您可以命令搜索引擎寻找任何内容,所以关键词的内容可以是:人

    妮儿1212J 4人参与回答 2023-12-07
  • 如何爬取知网的论文数据

    1.【中国知网】 中国知网是高校都用的学术资源网站,论文、期刊和外文文献都可以在这里找到,需要充值钱进去花钱下载才可以,毕竟是要引用别人的知识储备。直接在官网搜

    evenmaosir 4人参与回答 2023-12-12
  • 爬虫爬取知网论文资料犯不犯法

    法律分析:下列三种情况,爬虫有可能违法,严重的甚至构成犯罪: 爬虫程序规避网站经营者设置的反爬虫措施或者破解服务器防抓取措施,非法获取相关信息,情节严重的,有可

    chocolate宸 2人参与回答 2023-12-11
  • 如何爬取知网论文题目

    1,打开网页,在搜索栏里输入“中国知网”,点击搜索。进入界面,查找“中国知网”的官网,点击进入。2,进入“中国知网”首页,默认的文献检索方式是以”主题“进行检索

    恩恩慧慧 5人参与回答 2023-12-11
  • 如何爬取中国知网vip论文

    进入中国知网官方网站上看。首先从浏览器搜索知网,点击知网官网进入网站,然后注册个人账号或者使用机构账号登录,再在搜索框输入自己想要搜索的论文主题进行检索。 点击

    cynthia20056 3人参与回答 2023-12-11