
我们一起学Python 第四章爬虫
TD大会·初度
必须为了必须,要到最耀眼的地方去,唯有代码和汗水不会辜负你!
展开
-
1.爬虫基础
# 0 爬虫准备工作- 参考资料 - python网络数据采集, 图灵工业出版 - 精通Python爬虫框架Scrapy, 人民邮电出版社 - [Python3网络爬虫](http://blog.youkuaiyun.com/c406495762/article/details/72858983) - [Scrapy官方教程](http://scrapy-chs.readt...原创 2018-11-07 08:38:18 · 454 阅读 · 0 评论 -
2.页面解析和数据提取
# 页面解析和数据提取- 结构数据: 先有的结构,在谈数据 - JSON文件 - JSON Path - 转换成Python类型进行操作(json类) - XML文件 - 转换成python类型(xmltodict) - XPath - CSS选择器 - 正则- 非结构化数据:先有...原创 2018-11-08 07:39:58 · 453 阅读 · 0 评论 -
3.动态HTML
动态HTML爬虫跟反爬虫动态HTML介绍JavaScraptjQueryAjaxDHTMLPython采集动态数据从Javascript代码入手采集Python第三方库运行JavaScript,直接采集你在浏览器看到的页面Selenium + PhantomJSSelenium: web自动化测试工具自动加载页面获取数据截屏安装: pip install...原创 2018-11-08 07:51:29 · 258 阅读 · 0 评论 -
4.爬虫scrapy
scrapy爬虫框架框架爬虫框架scrapypyspidercrawleyscrapy框架介绍https://doc.scrapy.org/en/latest/http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html安装利用pipscrapy概述包含各个部件ScrapyEngin...原创 2018-11-08 07:56:10 · 283 阅读 · 0 评论 -
5.分布式爬虫
scrapy-shellhttps://segmentfault.com/a/1190000013199636?utm_source=tag-newestshell启动Linux: ctr+T,打开终端,然后输入scrapy shell “url:xxxx”windows: scrapy shell “url:xxx”启动后自动下载指定url的网页下载完成后,url的内容保存在r...原创 2018-11-08 07:57:17 · 235 阅读 · 0 评论