- 博客(5)
- 收藏
- 关注
原创 爬取淘宝商品-使用selenium
爬取淘宝商品信息,基于selenium工具,基本思路:使用selenium打开浏览器进入淘宝页面并搜索管检测,等待页面加载完毕,在网页源代码中寻找信息。需要使用selenium、pyquery和urllib库。用于个人学习笔记,错误之处请指正。在代码中有详细注释。寻找网址和搜索关键词,用于构造URL。2.2 构造浏览器对象和关键词。2.3 获取商品列表。2.4 解析商品信息。
2024-06-07 14:18:27
728
原创 爬取豆瓣图书 使用pyquery库解析
使用requests库请求网页源代码,pyquery库进行解析获取含有数据的节点。本项目为爬取豆瓣图书首页中展示的图书,获取其书名、作者和作品链接,仅供学习。结果保存在一个字典里面,最后保存到JSON文件中。有不足或者想法的欢迎指正,共同学习。
2024-06-01 23:39:33
431
爬虫笔记-解析库-Xpath
2024-06-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人