Python间接爬取网易云热评墙
做人啊,最要紧的是开心 你饿不饿,我去给你煮碗面 其实我不想给你煮面我只是想见你一面 --来自网易云音乐《问你是否跟我走》
1.前言
感觉网易云热评墙里面有好多金句啊,就超级带感的(复制到说说里绝对高逼格,哈哈),真的很佩服能写出这些句子的人啊,很有趣,所以嘞,从今天开始我也要学习做一个有趣的人,记记背背咯。结果的文本文档长这样:
2.过程
因为网易云热评墙只能通过手机客户端->云村…里面得到,电脑网页上无,我就找到了第三方网站网易云热评墙-这个故事从未停止上面爬取,其实我很怀疑这个网站上的就是从热评墙上爬下来的,很想知道他们怎么做的哩(不然我总感觉自己做坏事了,我爬他,他爬它…)。无所谓了,多思无益。
在这里坦白一件事,我写代码的时候不是闭卷的,我会参考之前的代码(捂脸),因为记不得一些包的名字还有函数名之类的(好了,我就是在找借口)。反正这次参考之前代码,出现了一些问题(我也算是知错就改,不断进步的嘛)。
(1)urllib.urlopen报HTTPError
错误的代码:
html=urllib.request.urlopen(url).read()
soup=bs(html,'html.parser',from_encoding="utf-8")
正确的代码(这里User-Agent我用的别人的):
req=urllib.request.Request(url)
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safar