知识点:
-
整理 爬虫面试题
-
添加 爬虫的代码
-
加深 爬虫的理解
-
版本 python3.6
1. 谈一谈你对Selenium和PhantomJS了解
- Selenium是一个Web的自动化测试工具,可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生
- Selenium 自己不带浏览器,不支持浏览器的功能,它需要与第三方浏览器结合在一起才能使用。但是我们有时候需要让它内嵌在代码中运行,所以我们可以用一个叫 PhantomJS 的工具代替真实的浏览器
- Selenium 库里有个叫 WebDriver 的 API。WebDriver 有点儿像可以加载网站的浏览器,但是它也可以像 BeautifulSoup 或者其他Selector 对象一样用来查找页面元素,与页面上的元素进行交互 (发送文本、点击等),以及执行其他动作来运行网络爬虫。
- PhantomJS 是一个基于Webkit的“无界面”(headless)浏览器,它会把网站加载到内存并执行页面上的 JavaScript,因为不会展示图形界面,所以运行起来比完整的浏览器要高效。
- PhantomJS 爬数据比较慢,可以选择多线程。如果运行的时候发现有的可以运行,有的不能,可以尝试将 phantomJS 改成 Chrome。
如果我们把 Selenium 和 PhantomJS 结合在一起,就可以运行一个非常强大的网络爬虫了,这个爬虫可以处理 JavaScript、Cookie、headers,以及任何我们真实用户需要做的事情。
Python面试:Selenium与PhantomJS爬虫实战

本文介绍了Selenium作为Web自动化测试工具的功能,如与PhantomJS结合进行无界面浏览,以及如何利用Selenium进行数据提取、元素定位和交互。通过实例展示了driver对象的方法,如页面源码获取、URL读取、页面导航和截图。同时讨论了Selenium在应对反爬策略中的局限性,并预告了接下来关于反爬与反反爬的讨论。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



