• 回答数

    3

  • 浏览数

    181

苹果香蕉最爱
首页 > 学术期刊 > python如何爬取知网论文

3个回答 默认排序
  • 默认排序
  • 按时间排序

adamjackjason

已采纳

一、使用的技术栈:爬虫:python27 +requests+json+bs4+time分析工具: ELK套件开发工具:pycharm数据成果简单的可视化分析1.性别分布0 绿色代表的是男性 ^ . ^1 代表的是女性-1 性别不确定可见知乎的用户男性颇多。二、粉丝最多的top30粉丝最多的前三十名:依次是张佳玮、李开复、黄继新等等,去知乎上查这些人,也差不多这个排名,说明爬取的数据具有一定的说服力。三、写文章最多的top30四、爬虫架构爬虫架构图如下:说明:选择一个活跃的用户(比如李开复)的url作为入口url.并将已爬取的url存在set中。抓取内容,并解析该用户的关注的用户的列表url,添加这些url到另一个set中,并用已爬取的url作为过滤。解析该用户的个人信息,并存取到本地磁盘。logstash取实时的获取本地磁盘的用户数据,并给elsticsearchkibana和elasticsearch配合,将数据转换成用户友好的可视化图形。五、编码爬取一个url:解析内容:存本地文件:代码说明:* 需要修改获取requests请求头的authorization。* 需要修改你的文件存储路径。源码下载:点击这里,记得star哦!https : // github . com/forezp/ZhihuSpiderMan六、如何获取authorization打开chorme,打开https : // www. zhihu .com/,登陆,首页随便找个用户,进入他的个人主页,F12(或鼠标右键,点检查)七、可改进的地方可增加线程池,提高爬虫效率存储url的时候我才用的set(),并且采用缓存策略,最多只存2000个url,防止内存不够,其实可以存在redis中。存储爬取后的用户我说采取的是本地文件的方式,更好的方式应该是存在mongodb中。对爬取的用户应该有一个信息的过滤,比如用户的粉丝数需要大与100或者参与话题数大于10等才存储。防止抓取了过多的僵尸用户。八、关于ELK套件关于elk的套件安装就不讨论了,具体见官网就行了。网站:https : // www . elastic . co/另外logstash的配置文件如下:从爬取的用户数据可分析的地方很多,比如地域、学历、年龄等等,我就不一一列举了。另外,我觉得爬虫是一件非常有意思的事情,在这个内容消费升级的年代,如何在广阔的互联网的数据海洋中挖掘有价值的数据,是一件值得思考和需不断践行的事情。

143 评论

sophiabian

方法/步骤

271 评论

bamanai119

别折腾了,不打算往爬虫方向发展的话没必要自己学,爬虫所需要的技术非常广泛、且对深度都有一定要求,不存在“快速学会”的情况。所有那些吹快速学会爬虫的培训班都是扯淡,那些课程学完后的水平连傻瓜式爬虫工具都不如,有啥意义?再说了,你们写论文、做研究又不会需要什么很大量、很高频、很实时的数据,那些傻瓜式爬虫工具完全足够了,点几下就能出数据。

155 评论

相关问答

  • python爬虫毕业论文

    基于python网络爬虫的设计与实现论文好写。因为基于python网络爬虫的设计与实现论文可以从网络上寻找相关的资料来攥写,比较方便,所以基于python网络爬

    木洛希雨 2人参与回答 2023-12-08
  • 基于python的网络爬虫论文

    利用python写爬虫程序的方法: 1、先分析网站内容,红色部分即是网站文章内容div。 2、随便打开一个div来看,可以看到,蓝色部分除了一个文章标题以外没有

    yangyang2336903 3人参与回答 2023-12-05
  • python爬取中国知网论文

    免费下载知网论文的方法如下: 1、方法一:到中国国家图书馆网站上注册一个账号。进入知网,然后通过关键词i检索文献,之后将需要的文章标题复制下来,然后再从国家图书

    喊姐姐~给糖吃 4人参与回答 2023-12-07
  • post方法爬取知网硕博类论文

    下载知网论文步骤: 我是在家使用的知网,用的是文献党下载器(wxdown.org),在文献党下载器资源库,双击“知网”名称进入知网首页,首页有很多检索项,可以根

    Miss乔大小姐 2人参与回答 2023-12-09
  • 方法爬取知网硕博类论文

    下载知网论文步骤: 我是在家使用的知网,用的是文献党下载器(wxdown.org),在文献党下载器资源库,双击“知网”名称进入知网首页,首页有很多检索项,可以根

    真南真北 5人参与回答 2023-12-08