一碗biang biang面-优快云博客

原创图形验证码的识别—tesserocr库

爬虫过程中，图片验证码的通过

2024-06-20 22:56:31 290

原创爬取微博评论—分析Ajax请求

通过分析Ajax请求来获取第一次加载出来的评论，并返回JSON格式的数据，从中提取出想要的数据。

2024-06-08 23:51:12 576

原创爬取淘宝商品-使用selenium

爬取淘宝商品信息，基于selenium工具，基本思路：使用selenium打开浏览器进入淘宝页面并搜索管检测，等待页面加载完毕，在网页源代码中寻找信息。需要使用selenium、pyquery和urllib库。用于个人学习笔记，错误之处请指正。在代码中有详细注释。寻找网址和搜索关键词，用于构造URL。2.2 构造浏览器对象和关键词。2.3 获取商品列表。2.4 解析商品信息。

2024-06-07 14:18:27 728

原创爬取头条热榜通过分析Ajax

爬取头条热榜信息，将其保存到JSON文件中去。结尾附全部代码，可直接运行学习。供自己学习分享，差错之处请指正。

2024-06-02 23:49:44 729

原创爬取豆瓣图书使用pyquery库解析

使用requests库请求网页源代码，pyquery库进行解析获取含有数据的节点。本项目为爬取豆瓣图书首页中展示的图书，获取其书名、作者和作品链接，仅供学习。结果保存在一个字典里面，最后保存到JSON文件中。有不足或者想法的欢迎指正，共同学习。

2024-06-01 23:39:33 431

爬虫笔记-解析库-Xpath

基于崔庆才《python3网络爬虫开发实战》写的学习笔记和心得，其中包括内容和方法最总，包括代码，其中有些方法由于版本更迭做了修改。使用jupyter写的。

2024-06-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 图形验证码的识别—tesserocr库

原创 爬取微博评论—分析Ajax请求

原创 爬取淘宝商品-使用selenium

原创 爬取头条热榜 通过分析Ajax

原创 爬取豆瓣图书 使用pyquery库解析