爬虫：selenium + phantomjs 解决js抓取问题(一)

最新推荐文章于 2025-08-11 22:22:04 发布

weixin_33682790

最新推荐文章于 2025-08-11 22:22:04 发布

阅读量102

点赞数

CC 4.0 BY-SA版权

文章标签： python 测试爬虫

原文链接：http://www.cnblogs.com/dripseo/p/5220461.html

本文介绍了如何利用Selenium模块及其PhantomJS组件，通过模拟浏览器行为来抓取百度搜索结果的相关链接。示例代码展示了从指定URL获取页面内容，并通过查找特定元素来提取所需信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

selenium模块主要用来做测试，模拟键盘、鼠标来操作浏览器。

phantomjs 就像一个无界面的浏览器一样。

两个结合能很好的解决js抓取的问题。

测试代码：

#coding=utf-8

from selenium import webdriver

driver = webdriver.PhantomJS()

#抓取百度搜索结果的相关链接
url = "http://www.baidu.com/s?wd=web&ie=utf-8&tn=baiduhome"
driver.get(url)


q = driver.find_element_by_id("rs")
s = q.find_elements_by_tag_name('th')
for i in s:
    print i.text


driver.quit()