
爬虫
sharkman5
这个作者很懒,什么都没留下…
展开
-
爬虫爬一些网站是总是得到一个空的列表
爬虫爬一些网站是总是得到一个空的列表#抓取PTT八卦版的网页原始码(HTML)import urllib.request as requrl="https://www.ptt.cc/bbs/Gossiping/index.html"#建立一个Request物件,附加Request Headers 的资讯 request=req.Request(url,headers={ "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) App原创 2021-01-29 15:18:41 · 6564 阅读 · 4 评论 -
爬虫403 被服务器拒绝
import urllib.request as requestsrc=!["https://www.ptt.cc/bbs/movie/index.html"]with request.urlopen(src) as response: data=response.read().decode('utf-8')print(data)在这种情况下直接对网路进行连接,一般情况下会被服务器拒绝出现这样的报错“”“urllib.error.HTTPError: HTTP Error 403: For原创 2021-01-27 09:11:59 · 3051 阅读 · 20 评论