python爬知网论文标题

3个回答默认排序

默认排序

按时间排序

十四不是四

已采纳

方法1：BS版简单写了个，只是爬链接的，加上标题老报错，暂时没看出来原因，先给你粘上来吧（方法2无问题）fromBeautifulSoupimportBeautifulSoupimporturllib2importredefgrabHref(url,localfile):html=(url).read()html=unicode(html,'gb2312','ignore').encode('utf-8','ignore')content=BeautifulSoup(html).findAll('a')myfile=open(localfile,'w')pat=(r'href="([^"]*)"')pat2=(r'/tools/')foritemincontent:h=(str(item))href=(1)(href):#s=BeautifulSoup(item)#()#('\r\n')(href)('\r\n')#()defmain():url=""localfile=''grabHref(url,localfile)if__name__=="__main__":main()方法2：Re版由于方法1有问题，只能获取到下载页面链接，所以换用Re解决，代码如下：importurllib2importreurl=''find_re=(r'href="([^"]*)".+?>(.+?)')pat2=(r'/tools/')html=(url).read()html=unicode(html,'utf-8','ignore').encode('gb2312','ignore')myfile=open('','w')(html):(str(x)):print>>myfile,x[0],x[1]()print'Done!'

323 评论 2小时前发布

小倩TINA

Python自动化可以实现，有偿服务

330 评论 11小时前发布

dp786639854

提取所有链接应该用循环：urls = ("//a")for url in urls: print(("href"))如果get_attribute方法报错应该是没有找到a标签对象，如果确定是有的话，可能是页面加载比较慢还没加载出来，selenium默认是不会等待对象出现的，需要在找对象前加一些等待时间；另外如果页面上有iframe的话需要先切换进去才能找到里面的对象。

278 评论 12小时前发布

python爬知网论文标题

3个回答 默认排序 默认排序 按时间排序

相关问答

学术论文

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序