
网络爬虫
shawn xie123
热爱python无法自拔
展开
-
网页中怎么查看请求头header信息
打开网页,以百度为例,打开后按F12键打开chrome开发者工具,刷新网页后找到Network在network界面找到headers菜单,往下拉找到User-Agent信息,如下图所示:...原创 2018-10-31 22:57:41 · 57218 阅读 · 0 评论 -
用try方法提高爬虫的效率
网络爬虫经常会碰到各种异常,原因多种多样,当发现错误时,再来修改代码,再重新运行,需要时间,这不利于爬虫的效率。我们可以通过try来避免异常。代码如下:URL = 'http://www.bj.xiaozhu.com/'res = requests.get(url=URL)try: print(res.text)except ConnectionError: print(...翻译 2018-10-31 23:28:57 · 2315 阅读 · 0 评论 -
爬取酷狗网络红歌榜 基于python--BeautifulSoup库
爬取酷狗网络红歌榜 基于python–BeautifulSoup库,我们要爬取酷狗网络红歌榜里的排名、歌手、歌曲名、播放时间信息。代码如下:import requestsfrom bs4 import BeautifulSoupfrom time import sleep#使用header是用于伪装为浏览器,让爬虫更稳定Headers = {'User-Agent': 'Mozill...原创 2018-11-03 22:51:26 · 1499 阅读 · 0 评论 -
python 正则表达式
Python支持的正则表达式的常用符号说明:(1) “.”字符为匹配配仟意单个字符。例如,a.b可以的匹配结果为abc,aic、a&c等,但不包括换行符。2) “\”字符为转义字符,可以把字符改变为原来的意思,听上去不是很好理解。例如:’.‘字符是匹配任意的单个字符,但有时不需要这个功能,只想让它代表一个点,这时可以使用’.‘就能匹配为’ . ’ 了。3 […]字符集,相当于...转载 2018-11-06 12:02:15 · 1374 阅读 · 0 评论 -
python爬虫时提示bs4.FeatureNotFound: Couldn't find a tree builder with the features you requests
python爬虫时,提示bs4.FeatureNotFound: Couldn’t find a tree builder with the features you requests解决办法就是在cmd界面输入pip3 install lxml提示sucessful即可,再去运行爬虫程序,不再报错...原创 2018-11-02 23:37:56 · 3326 阅读 · 0 评论 -
python3 爬取TOP500的音乐信息并存储到mongoDB数据库中
爬取TOP500的音乐信息,包括排名情况、歌曲名、歌曲时间。网页版酷狗不能手动翻页进行下一步的浏览,仔细观察第一页的URL:http://www.kugou.com/yy/rank/home/1-8888.html这里尝试将1改为2,再进行浏览,恰好是第二页的信息,再改为3,恰好是第三页的信息,多次尝试发现不同的数字即为不同的页面。因此只需更改home/后面的数字即可。由于每页显示的为22首...原创 2018-12-01 14:25:37 · 2931 阅读 · 0 评论