1、path环境变量的作用:
为了让cmd找到各种命令exe工具,配path就找exe所在目录配置就可以了。
C:\Anaconda3\Scripts—找pip.exe
C:\Anaconda3----python.exe
2.修改完path,要重启cmd
where python
path
pip install redis
pip install aiohttp
pip install asyncio
第五讲:动态html
一、反爬策略:
1、请求头:
—user-agent
—referer
—cookie
2、访问频率限制。
—代理池
—再用户访问高峰期进行爬取,冲散日志。12-13 7-10
—设置等待时长。time.sleep(3)
3、ajax异步请求,用接口获取数据。
4、能一次性获取的数据,绝不发送第二次请求(获取数据的过程中尽量减少请求次数。)
5、页面内容是js代码。
selenium+phantomjs的组合进行页面内容的获取。
二、html页面的技术
1、js:
页面在请求html的过程中,服务器返回html,同时还会请求js文件。
2、jqery:js的库,方便js开发。
3、ajax:web的异步请求技术
同步请求,异步请求。
三、selenium和phantomjs
1、什么是selenium?
selenium一个web自动化测试工具。【但是它本身是不带浏览器】。这个工具其实就是作为一些外部工具驱动来使用的,可以控制一些外部应用来完成自动化测试。
2、phantomjs:他其实就是一个内置无界面浏览器引擎。–无界面可以提高程序运行速度。
因为phantomjs是一个浏览器引擎,所以他最大的功能就是执行页面的js代码。
3.安装selenium和phantomjs?
selenium安装

本文介绍了Python爬虫中的反爬策略,包括设置请求头、使用代理池、调整访问时间以及利用Selenium和PhantomJS应对动态HTML。详细讲解了Selenium作为一个Web自动化测试工具的功能,以及如何安装和使用PhantomJS,通过执行页面JS代码获取动态内容。
最低0.47元/天 解锁文章
2713

被折叠的 条评论
为什么被折叠?



