高级网页抓取:无头浏览器与爬虫的使用
1. 无头浏览器的使用
1.1 安装问题与选择
如果你在安装 PySide 时遇到问题,可以查看特定于你操作系统的项目文档。你也可以选择安装 PyQt,还能在 GitHub 的安装文档中检查更新。
1.2 为何使用无头浏览器
无头浏览器可以在服务器上运行,运行和解析页面的速度比普通浏览器快,并且能在更多平台上使用。如果你最终想在服务器上运行基于浏览器的网页抓取脚本,很可能会用到无头浏览器。安装并启动它可能只需不到 10 分钟,而大多数其他浏览器加载并正常运行则需要一些时间(具体取决于你使用的堆栈和部署方式)。
1.3 使用 Ghost.py 进行屏幕读取
Ghost.py 是一个用于屏幕读取的 WebKit 实现,可直接与 Qt WebKit 交互。它基于 Qt 构建,Qt 是一个用 C++ 编写的跨平台应用程序开发框架。
1.3.1 安装必要库
要开始使用 Ghost.py,你需要安装一些较大的库。如果能安装 PySide 会更好,它能让 Python 与 Qt 连接,并让 Python 访问更多程序和交互。安装过程可能需要一些时间,在开始运行安装命令后,你可以去做个三明治:
pip install pyside
pip install ghost.py --pre
1.3.2 搜索 Python 主页
让我们使用 Ghost.py 在 Python 主页上搜索新的抓取文档。以下是启动新的
超级会员免费看
订阅专栏 解锁全文
847

被折叠的 条评论
为什么被折叠?



