十四不是四
方法1:BS版简单写了个,只是爬链接的,加上标题老报错,暂时没看出来原因,先给你粘上来吧(方法2无问题)fromBeautifulSoupimportBeautifulSoupimporturllib2importredefgrabHref(url,localfile):html=(url).read()html=unicode(html,'gb2312','ignore').encode('utf-8','ignore')content=BeautifulSoup(html).findAll('a')myfile=open(localfile,'w')pat=(r'href="([^"]*)"')pat2=(r'/tools/')foritemincontent:h=(str(item))href=(1)(href):#s=BeautifulSoup(item)#()#('\r\n')(href)('\r\n')#()defmain():url=""localfile=''grabHref(url,localfile)if__name__=="__main__":main()方法2:Re版由于方法1有问题,只能获取到下载页面链接,所以换用Re解决,代码如下:importurllib2importreurl=''find_re=(r'href="([^"]*)".+?>(.+?)')pat2=(r'/tools/')html=(url).read()html=unicode(html,'utf-8','ignore').encode('gb2312','ignore')myfile=open('','w')(html):(str(x)):print>>myfile,x[0],x[1]()print'Done!'
法律分析:下列三种情况,爬虫有可能违法,严重的甚至构成犯罪: 爬虫程序规避网站经营者设置的反爬虫措施或者破解服务器防抓取措施,非法获取相关信息,情节严重的,有可
1,打开网页,在搜索栏里输入“中国知网”,点击搜索。进入界面,查找“中国知网”的官网,点击进入。2,进入“中国知网”首页,默认的文献检索方式是以”主题“进行检索
python可以做很多类型的项目或许你可以参考一下:知乎的回答:
论文——题目科学论文都有题目,不能“无题”。论文题目一般20字左右。题目大小应与内容符合,尽量不设副题,不用第1报、第2报之类。论文题目都用直叙口气,不用惊叹号
这个或许需要多研究一下程序。