
爬虫
JUNECODE
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
实例学习——爬取简书网热评文章
近来学习多线程爬虫,发现书上关于爬取简书网热评文章的代码因网页更改问题运行有误,在此修正。 开发环境:(Windows)eclipse+pydev+MongoDB 爬取网址:https://www.jianshu.com/c/bDHhpK 1、手动浏览网页,发现没有分页的界面,可判断该网站采用了异步加载技术。 2、查看网页源代码,通过观察源代码Network处Headers的URL,发...原创 2019-09-06 15:51:12 · 456 阅读 · 0 评论 -
实例学习——爬取Pexels高清图片(学习异步加载)
近来学习爬取Pexels图片时,发现书上代码会抛出ConnectionError,经查阅资料知,可能是向网页申请过于频繁被禁,可使用time.sleep(),减缓爬取速度,但考虑到爬取数据较多,运行时间过长,所以选择对抛出的异常pass,在此修正。 开发环境:(Windows)eclipse+pydev 爬取网址:https://www.pexels.com/search/book/ 1...原创 2019-09-07 09:05:33 · 1274 阅读 · 0 评论 -
实例学习——爬取简书网用户动态(lxml/bs4)
开发环境:(Windows)eclipse+pydev+MongoDB 爬取网址:https://www.jianshu.com/u/9104ebf5e177 lxml解析: # _*_ coding:utf-8 _*_ import requests from lxml import etree import pymongo client = pymongo.MongoCli...原创 2019-09-08 10:26:53 · 436 阅读 · 0 评论