• 回答数

    3

  • 浏览数

    337

海派小小甜心
首页 > 学术论文 > python爬知网论文标题

3个回答 默认排序
  • 默认排序
  • 按时间排序

十四不是四

已采纳

方法1:BS版简单写了个,只是爬链接的,加上标题老报错,暂时没看出来原因,先给你粘上来吧(方法2无问题)fromBeautifulSoupimportBeautifulSoupimporturllib2importredefgrabHref(url,localfile):html=(url).read()html=unicode(html,'gb2312','ignore').encode('utf-8','ignore')content=BeautifulSoup(html).findAll('a')myfile=open(localfile,'w')pat=(r'href="([^"]*)"')pat2=(r'/tools/')foritemincontent:h=(str(item))href=(1)(href):#s=BeautifulSoup(item)#()#('\r\n')(href)('\r\n')#()defmain():url=""localfile=''grabHref(url,localfile)if__name__=="__main__":main()方法2:Re版由于方法1有问题,只能获取到下载页面链接,所以换用Re解决,代码如下:importurllib2importreurl=''find_re=(r'href="([^"]*)".+?>(.+?)')pat2=(r'/tools/')html=(url).read()html=unicode(html,'utf-8','ignore').encode('gb2312','ignore')myfile=open('','w')(html):(str(x)):print>>myfile,x[0],x[1]()print'Done!'

359 评论

小倩TINA

Python自动化可以实现,有偿服务

134 评论

dp786639854

提取所有链接应该用循环:urls = ("//a")for url in urls: print(("href"))如果get_attribute方法报错应该是没有找到a标签对象,如果确定是有的话,可能是页面加载比较慢还没加载出来,selenium默认是不会等待对象出现的,需要在找对象前加一些等待时间;另外如果页面上有iframe的话需要先切换进去才能找到里面的对象。

314 评论

相关问答

  • 爬虫爬取知网论文资料犯不犯法

    法律分析:下列三种情况,爬虫有可能违法,严重的甚至构成犯罪: 爬虫程序规避网站经营者设置的反爬虫措施或者破解服务器防抓取措施,非法获取相关信息,情节严重的,有可

    chocolate宸 2人参与回答 2023-12-11
  • 如何爬取知网论文题目

    1,打开网页,在搜索栏里输入“中国知网”,点击搜索。进入界面,查找“中国知网”的官网,点击进入。2,进入“中国知网”首页,默认的文献检索方式是以”主题“进行检索

    恩恩慧慧 5人参与回答 2023-12-11
  • python爬虫做毕业论文

    python可以做很多类型的项目或许你可以参考一下:知乎的回答:

    美多多lady 6人参与回答 2023-12-05
  • 爬虫爬取知网论文引证

    论文——题目科学论文都有题目,不能“无题”。论文题目一般20字左右。题目大小应与内容符合,尽量不设副题,不用第1报、第2报之类。论文题目都用直叙口气,不用惊叹号

    细毛1015 3人参与回答 2023-12-12
  • 知网论文信息爬虫

    这个或许需要多研究一下程序。

    shangbabayue 6人参与回答 2023-12-07