爬取整个网页whole2html_simple.py
这是一个神秘博士贴子只有一页http://tieba.baidu.com/p/5260095920试一下程序
这是一个神秘博士贴子只有一页http://tieba.baidu.com/p/5260095920试一下程序
:显示404,因为输入时没在末尾输入
?pn= 此参数有关(对于只一页的,pn=X都是当前页)添加后成功。
这是一个神秘博士贴子有几十页http://tieba.baidu.com/p/4052795843?pn=
试一下
:该程序可以爬取成功整个网页,除了【贴吧啊发表的头像以及贴吧评论】某些看不到。
使用其他网页皆可
。
爬取贴吧中的评论文本tieba_text.py
在from bs4 import beautifulSoup 此句报错显示importerror bs4 解决网址如下https://stackoverflow.com/questions/11783875/importerror-no-module-named-bs4-beautifulsoup
For python2.x:
sudo pip install BeautifulSoup4
For python3:
sudo apt-get install python3-bs4
然后成功
运行。