
Python爬虫
文章平均质量分 73
东哥说AI
AI超级个体:专注AI智能体、AI编程、大模型部署定制、RPA等前沿技术应用。
分享AI玩法、变现思路。
关注东哥不迷路,创富路上大踏步。
展开
-
Windows使用selenium操作Edge浏览器实现爬虫
selenium是一个常用的用于自动化测试和爬虫的框架,随着Edge浏览器的广泛使用,使用selenium操作Edge浏览器也是一种必然,主要包含下载安装Edge浏览器驱动、安装selenium库等步骤,可以实现对Edge浏览器的方便快速使用。原创 2023-12-12 23:19:09 · 7167 阅读 · 26 评论 -
Python爬虫常见异常及解决办法
Python 的一个很重要的应用场景就是爬虫,可以高效爬取大量数据,但是在使用过程种可能会出现一些异常:cannot find Chrome binary需要通过配置参数或修改源文件实现设置binary_location参数。持续更新……原创 2020-05-12 20:44:18 · 5267 阅读 · 21 评论 -
Python 快速验证代理IP是否有效
得到了一些代理IP但是不清楚到底是否可用,这个时候可以用Python来快速验证,携带该IP模拟访问某个网站,如果多次未请求成功则说明该IP是不可用的。原创 2020-04-12 20:16:47 · 109946 阅读 · 13 评论 -
Python 不用selenium 带你高效爬取京东商品评论
项目来自于一个朋友让我帮他爬取京东某商品的所有评论,评论涉及到翻页,可以利用selenium来操作,但是效率较低,这时想到了网站的数据可能是请求的JSON等格式的数据再渲染到网页的,于是利用浏览器工具抓包查看,找到了关于评论整体情况和详情的请求链接,这时就可以直接使用requests库请求获取评论文本数据再使用正则表达式来匹配所需的评论信息了,整个小项目很简单,重点在分析过程,只要分析思路清晰,代码实现就是很简单的事了。整个效率还是挺高的,还可以通过多线程或多进程进一步提高效率,也可以指定商品爬取评论。原创 2020-04-12 17:15:11 · 4507 阅读 · 23 评论 -
不会玩阴阳师的我带你一键下载《阴阳师:百闻牌》所有卡牌并调用百度OCR识别文字信息
从没玩过阴阳师的我被朋友问到百闻牌所有卡牌的链接获取方式,虽然对这个游戏什么都不懂,但是不影响我做这个小项目。本项目主要从使用selenium对网页中动态加载的图片链接出发,使用requests库下载所有图片,并在线程池中使用回调函数调用文字识别函数实现文字识别,文字识别时对一张图片划分成不同区域,根据百度AIPOCR模块返回的含位置信息版文字信息来判断角色、描述或者节能还是应该排除。整个项目从项目概述(项目背景、项目配置)出发,到具体实现细节,再到最后的结果分析,虽不尽善尽美,但是已经尽心尽力。原创 2020-03-22 18:41:04 · 3456 阅读 · 8 评论 -
Python 批量下载BiliBili视频 打包成软件
B站是一个神奇的地方,有动画、番剧,还有游戏、鬼畜,更有为广大程序猿所喜爱的科技和编程教学视频,课时你也许会为怎么下载保存下这些视频而发愁,我也遇到了这样的烦恼,于是利用强大的Python进行一番探索,实现了3种模式的下载:单个视频下载、多个视频下载和系列视频下载,同时可以选择视频的质量,多个视频下载时使用多线程提高下载效率。本篇博客从项目背景、环境配置、具体实现细节、结果测试和分析等多方面进行分析,但是同时也有很多可以改进的地方。希望这个小项目能为大家使用,但是请不要滥用,给大家带来方便就足矣。原创 2020-03-08 20:31:11 · 45269 阅读 · 135 评论 -
Python 爬取留言板留言(三):多进程版+selenium模拟
Python用于爬虫,可以爬取网上的大量数据。本篇详细讲解了利用Python selenium模拟操作浏览器抓取领导留言板的数据,多进程实现,用2种方法控制进程数量达到提高爬取小频率的目的。同时需要提前手动获取fid,同时利用多个函数来分别实现具体功能,达到了低耦合的编程规范,也认识到了一些不足,在后期进行改进。原创 2020-02-29 18:03:57 · 3457 阅读 · 5 评论 -
Python 爬取留言板留言(二):多线程版+selenium模拟
Python用于爬虫,可以爬取网上的大量数据。本篇详细讲解了利用Python selenium模拟操作浏览器抓取领导留言板的数据,多线程实现,用3种方法控制线程数量达到提高爬取小频率的目的,同时强化了异常捕获和处理,增加代码的健壮性,与第一版相比有了较多的改进。同时需要提前手动获取fid,同时利用多个函数来分别实现具体功能,达到了低耦合的编程规范,也认识到了一些不足,在后期进行改进。原创 2020-02-28 21:49:15 · 6635 阅读 · 15 评论 -
Python 爬取留言板留言(一):单进程版+selenium模拟
Python用于爬虫,可以爬取网上的大量数据。本篇详细讲解了利用Python selenium模拟操作浏览器抓取领导留言板的数据,单进程实现,同时需要提前手动获取fid,同时利用多个函数来分别实现具体功能,达到了低耦合的编程规范,也认识到了一些不足,在后期进行改进。原创 2020-02-29 16:47:11 · 10926 阅读 · 4 评论