爬虫
文章平均质量分 74
时光爱客
明天是遥远的,我们只能从当下的努力中嗅出它的味道。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬取新浪、网易、今日头条、UC四大网站新闻标题及内容
首先说明一下,文件的命名不能含有:?|"*新浪:新浪网的新闻比较好爬取,我是用BeautifulSoup直接解析的,它并没有使用JS异步加载,直接爬取就行了。from bs4 import BeautifulSoupfrom urllib import requestdef download(title, url,m): req = request.Request(url)原创 2017-10-24 11:28:05 · 16927 阅读 · 4 评论 -
python3 爬取网页的异常处理
有时候python爬取的网页会出现异常,我们需要添加异常处理我们主要说明一下URLError和HTTPError参考博客:点击打开链接URLError首先解释下URLError可能产生的原因:网络无连接,即本机无法上网连接不到特定的服务器服务器不存在HTTPError是URLError的子类,在你利用urlopen方法发出一个请求时,服务器上都会对应原创 2017-11-10 21:02:38 · 5945 阅读 · 0 评论
分享