python爬虫0.3


爬取整个网页whole2html_simple.py
这是一个神秘博士贴子只有一页http://tieba.baidu.com/p/5260095920试一下程序
:显示404,因为输入时没在末尾输入     ?pn=   此参数有关(对于只一页的,pn=X都是当前页)添加后成功。
这是一个神秘博士贴子有几十页http://tieba.baidu.com/p/4052795843?pn= 试一下
:该程序可以爬取成功整个网页,除了【贴吧啊发表的头像以及贴吧评论】某些看不到。 使用其他网页皆可
 
爬取贴吧中的评论文本tieba_text.py
在from bs4 import beautifulSoup 此句报错显示importerror bs4       解决网址如下https://stackoverflow.com/questions/11783875/importerror-no-module-named-bs4-beautifulsoup
For python2.x:sudo pip install BeautifulSoup4
For python3:sudo apt-get install python3-bs4
然后成功 运行。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值