爬取中国知网论文数据

发布时间：2023-12-06 11:50:42

爬取中国知网论文数据

知网中的外文文献大多都是摘要，知网和外文文献机构只是合作关系对外文文献只收录了摘要，并没有把全文收录到知网中。所以，下载外文文献最有效的方法还是去文献来源数据库中下载。

从知网可以获悉该文献被收录在哪个数据库，如下图，可获悉该文献被收录在Elsevier（sciencedirect）数据库中：

如果你用的是学校内部IP地址进入的知网，正好学校也有Elsevier数据库资源，并且这篇文献涵盖在学校订购的资源中，是可以直接点击这个文献来源数据库链接，进入Elsevier下载该文献的，但是如果学校没有订购该文献还是下载不了的。

解决办法：用文献党下载器提供的Elsevier（sciencedirect）数据库入口进入该数据库检索下载该文献。

1、进入文献党下载器首页（）下载客户端，登录客户端进入文献党下载器资源库，在资源库双击“Elsevier（sciencedirect）”名称，即可进入该数据库

2、进入Elsevier（sciencedirect）数据库首页，直接输入篇名检索文献

3、检索到该文献点击PDF完成全文下载：

一篇知网外文文献通过文献党下载器3步完成全文下载：

只要能展现在页面的都可以

必然不可以，读取文献内容需要权限的

#!/usr/bin/env python # -*- coding: utf-8 -*- # @Author: Administrator # @Date: 2015-10-31 15:45:27 # @Last Modified by: Administrator # @Last Modified time: 2015-11-23 16:57:31 import requests import sys import json import re reload(sys) ('utf-8') #获取到匹配字符的字符串 def find(pattern,test): finder = (pattern, test) start = () end = () return test[start:end-1] cookies = { '_ga':'', '_za':'8d570b05-b0b1-4c96-a441-faddff34', 'q_c1':'23ddd234234', '_xsrf':'234id':'"ZTE3NWY2ZTsdfsdfsdfWM2YzYxZmE=|1446435757|15fef3b84e044c122ee0fe8959e606827d333134"', 'z_c0':'"QUFBQXhWNGZsdfsdRvWGxaeVRDMDRRVDJmSzJFN1JLVUJUT1VYaEtZYS13PT0=|14464e234767|57db366f67cc107a05f1dc8237af24b865573cbe5"', '__utmt':'1', '__utma':'', '__utmb':'', '__utmc':'51123390', '__utmz':'|utmcgcn=(referral)|utmcmd=referral|utmcct=/', '__utmv':'|2=registration_date=2028=1^3=entry_date=201330318=1'} headers = {'user-agent': 'Mozilla/ (Windows NT ; WOW64) AppleWebKit/ (KHTML, like Gecko) Chrome/ Safari/', 'referer':'', 'host':'','Origin':'', 'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8', 'Connection':'keep-alive','X-Requested-With':'XMLHttpRequest','Content-Length':'81', 'Accept-Encoding':'gzip,deflate','Accept-Language':'zh-CN,zh;q=','Connection':'keep-alive' } #多次访问之后，其实一加载时加载20个问题，具体参数传输就是offset，以20递增 dicc = {"offset":60} n=20 b=0 # 与爬取图片相同的是，往下拉的时候也会发送http请求返回json数据，但是不同的是，像模拟登录首页不同的是除了 # 发送form表单的那些东西后，知乎是拒绝了我的请求了，刚开始以为是headers上的拦截，往headers添加浏览器 # 访问是的headers那些信息添加上，发现还是拒绝访问。 #想了一下，应该是cookie原因。这个加载的请求和模拟登录首页不同 #所以补上其他的cookies信息，再次请求，请求成功。 for x in xrange(20,460,20): n = n+20 b = b+20 dicc['offset'] = x formdata = {'method':'next','params':'{"offset":20}','_xsrf':'20770d88051f0f45e941570645f5e2e6'} #传输需要json串，和python的字典是有区别的，需要转换 formdata['params'] = (dicc) # print (dicc) # print dicc circle = ("", cookies=cookies,data=formdata,headers=headers) #response内容其实爬过一次之后就大同小异了。都是 #问题返回的json串格式 # {"r":0, # "msg": ["

\n # \n

205K<\/div>\n #

\u6d4f\u89c8<\/div>\n # <\/span>\n

\n #

爬取中国知网论文数据

爬取中国知网论文数据

python知网论文数据爬取

\n # # \u4ec0\u4e48\u4fc3\u4f7f\u4f60\u8d70\u4e0a\u72ec\u7acb\u5f00\u53d1\u8005\u4e4b\u8def\uff1f<\/a>\n # <\/h2>\n
\n #

\n # # \u672c\u79d1\u6e23\u6821\u7684\u5b66\u751f\u5982\u4f55\u8fdb\u5165\u7f8e\u5e1d\u725b\u6821\u8bfbPhD\uff1f<\/a>\n # <\/h2>\n
\n # #

数据爬取毕业论文

爬取知网论文

中国知网论文爬虫

相关百科

热门百科