27、高级网页抓取:无头浏览器与爬虫的使用

高级网页抓取:无头浏览器与爬虫的使用

1. 无头浏览器的使用

1.1 安装问题与选择

如果你在安装 PySide 时遇到问题,可以查看特定于你操作系统的项目文档。你也可以选择安装 PyQt,还能在 GitHub 的安装文档中检查更新。

1.2 为何使用无头浏览器

无头浏览器可以在服务器上运行,运行和解析页面的速度比普通浏览器快,并且能在更多平台上使用。如果你最终想在服务器上运行基于浏览器的网页抓取脚本,很可能会用到无头浏览器。安装并启动它可能只需不到 10 分钟,而大多数其他浏览器加载并正常运行则需要一些时间(具体取决于你使用的堆栈和部署方式)。

1.3 使用 Ghost.py 进行屏幕读取

Ghost.py 是一个用于屏幕读取的 WebKit 实现,可直接与 Qt WebKit 交互。它基于 Qt 构建,Qt 是一个用 C++ 编写的跨平台应用程序开发框架。

1.3.1 安装必要库

要开始使用 Ghost.py,你需要安装一些较大的库。如果能安装 PySide 会更好,它能让 Python 与 Qt 连接,并让 Python 访问更多程序和交互。安装过程可能需要一些时间,在开始运行安装命令后,你可以去做个三明治:

pip install pyside
pip install ghost.py --pre
1.3.2 搜索 Python 主页

让我们使用 Ghost.py 在 Python 主页上搜索新的抓取文档。以下是启动新的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值