• 回答数

    5

  • 浏览数

    189

布丁无敌
首页 > 学术论文 > 可以用爬虫爬知网论文吗

5个回答 默认排序
  • 默认排序
  • 按时间排序

神之雪1314

已采纳

这个或许需要多研究一下程序。

340 评论

猪小七ice

一、使用的技术栈:爬虫:python27 +requests+json+bs4+time分析工具: ELK套件开发工具:pycharm数据成果简单的可视化分析1.性别分布0 绿色代表的是男性 ^ . ^1 代表的是女性-1 性别不确定可见知乎的用户男性颇多。二、粉丝最多的top30粉丝最多的前三十名:依次是张佳玮、李开复、黄继新等等,去知乎上查这些人,也差不多这个排名,说明爬取的数据具有一定的说服力。三、写文章最多的top30四、爬虫架构爬虫架构图如下:说明:选择一个活跃的用户(比如李开复)的url作为入口url.并将已爬取的url存在set中。抓取内容,并解析该用户的关注的用户的列表url,添加这些url到另一个set中,并用已爬取的url作为过滤。解析该用户的个人信息,并存取到本地磁盘。logstash取实时的获取本地磁盘的用户数据,并给elsticsearchkibana和elasticsearch配合,将数据转换成用户友好的可视化图形。五、编码爬取一个url:解析内容:存本地文件:代码说明:* 需要修改获取requests请求头的authorization。* 需要修改你的文件存储路径。源码下载:点击这里,记得star哦!https : // github . com/forezp/ZhihuSpiderMan六、如何获取authorization打开chorme,打开https : // www. zhihu .com/,登陆,首页随便找个用户,进入他的个人主页,F12(或鼠标右键,点检查)七、可改进的地方可增加线程池,提高爬虫效率存储url的时候我才用的set(),并且采用缓存策略,最多只存2000个url,防止内存不够,其实可以存在redis中。存储爬取后的用户我说采取的是本地文件的方式,更好的方式应该是存在mongodb中。对爬取的用户应该有一个信息的过滤,比如用户的粉丝数需要大与100或者参与话题数大于10等才存储。防止抓取了过多的僵尸用户。八、关于ELK套件关于elk的套件安装就不讨论了,具体见官网就行了。网站:https : // www . elastic . co/另外logstash的配置文件如下:从爬取的用户数据可分析的地方很多,比如地域、学历、年龄等等,我就不一一列举了。另外,我觉得爬虫是一件非常有意思的事情,在这个内容消费升级的年代,如何在广阔的互联网的数据海洋中挖掘有价值的数据,是一件值得思考和需不断践行的事情。

235 评论

郁敏0729

返照入闾巷,

297 评论

残殃之暮

不违法但是不能随意出卖自己用是没事的

248 评论

兜里五块糖

爬虫不违法,违法的是不遵从网站的爬虫协议,对网站造成负担,对正常用户造成影响。其次,搜索引擎也是爬虫,爬虫协议就是告诉爬虫怎么爬取可以。最后,没有官方接口或者已经下架的接口,爬取这些信息肯定是违法的,轻重而已;当然这是法律意义的,实际上爬虫到底违法不违法,看看案例就知道了。不对对方造成损失,不侵犯未公开接口,就没有问题。

349 评论

相关问答

  • 网络爬虫能查重论文吗

    肯定查的出来啊,现在的系统每天都在实时更新的,百度百科被收录的基本都能检测出来。

    maggie800315 4人参与回答 2023-12-09
  • 爬虫爬取知网论文资料犯不犯法

    法律分析:下列三种情况,爬虫有可能违法,严重的甚至构成犯罪: 爬虫程序规避网站经营者设置的反爬虫措施或者破解服务器防抓取措施,非法获取相关信息,情节严重的,有可

    chocolate宸 2人参与回答 2023-12-11
  • 爬虫爬取知网论文引证

    论文——题目科学论文都有题目,不能“无题”。论文题目一般20字左右。题目大小应与内容符合,尽量不设副题,不用第1报、第2报之类。论文题目都用直叙口气,不用惊叹号

    细毛1015 3人参与回答 2023-12-12
  • 知网论文信息爬虫

    这个或许需要多研究一下程序。

    shangbabayue 6人参与回答 2023-12-07
  • python爬虫查重论文

    叙述和描写为主,但往往兼有抒情和议论,是一种形式多样,笔墨灵活的文体,也是最广泛的文体。论文写作,是把自己的亲身感受和经历通过生动、形象的语言,描述给读者。论文

    十二季财富 4人参与回答 2023-12-08