python网络爬虫从入门到精通导读
刚刚接触爬虫的概念,感觉这种书直接读会读不下去(之前被c++primer读怕了 )所以就尝试某大神的方法,先把书中的内容都扫一遍把概念整理清楚再上手开发。
第二章 数据采集
正则表达式:查找某种符合一定格式的字符串、寻找ping信息的时间结果、抓取网页上特定内容的图片
beatifulsoup :python库,作用同正则表达式。
Xpath:在XML中搜索信息的语言,
遍历多页面的爬虫:搜索360网页显示关键词的网页的大致信息,并且可以支持翻页查询。
使用API:用HTTP协议向API发起某种请求,获得某种信息,用JSON返回服务器响应。用API调用google地图的地理位置。
第三章 文件与数据储存
python中的文件读写 :&python对图片(pIL&OPENCV)和字符串的操作
CSV文件:读写
使用数据库:使用mysql,SQLAlchemy,Redis,doxc文档
第四章 JS与动态内容
JS&AJAX:是一种技术,允许浏览器通过异步请求来获取数据,相当于每次只刷新一点(可以理解为下拉刷新)
流程:发送请求,获得数据,显示元素,改变网页
例子:对携程常见问答的爬取。对bilibili的特别推荐进行爬取。
抓取动态内容:使用Selenium来模拟用户的行为。
V8引擎:能够用来执行JS的运行工具,可以类比为一个浏览器。
第五章 表单与模拟登陆
post: 一些简单的信息可以用HTTP GET 来获得,但是要用post 表单来传输一些比较机密、正规的文件。可以直接用request库中的,post()方法。
Cookies:让服务器记住终端用户,在本地存放一个小文本文件。可以使用cookies进行模拟登陆。
验证码:三种方式,程序识别图片,手动打码,人工打码服务平台。
第六章 数据的进一步处理
python文本分析:jieba与sonenlp,为自然语言处理做准备。
科学库的使用:numpy,matplotlib(看利用python进行数据分析那章)
第七章 更灵活的爬虫
vps:用强大的爬虫可以开发出效率高,扩展性强的程序,但是自己的机器资源有限,要部署到远程服务端上。(但是现在就是流行云服务器,这个东西可以直接不学,看看能不能部署到云服务器上面)
VPS流程:配置远程主机,编写本地爬虫,部署爬虫,查看运行结果,使用爬虫管理框架。
第八章 浏览器模拟与网站测试
测试: 确定某一个小功能是否正确,可以用python的unittest来测试,和pytest模块。设计JS用selenium测试。
第九章 更猛的爬虫
Scrapy框架:
反爬虫:
多进程:
分布式爬虫
938

被折叠的 条评论
为什么被折叠?



