
python网络爬虫实战
文章平均质量分 74
JamePrin
这个作者很懒,什么都没留下…
展开
-
验证码识别【1】
【学习笔记】利用OCR技术识别图形验证码使用到tesserocr库,需要下载安装获取验证码的方式这里采用本地保存的方式,比较简便识别图形验证码识别测试代码:import tesserorfrom PIL import Imageimage = Image.open('code.jpg')result = tesseror.image_to_text(image)# 另一个方法: tesseror.file_t_text('code.jpg') 效果没那么好print(re原创 2021-05-16 12:44:53 · 292 阅读 · 1 评论 -
动态渲染页面爬取--【2】
1、获取内容通过a = find_element(By.ID, 'xxxx')找到节点之后,可通过a.text # 获取文本a.get_attribute('?') # 获取属性a.location # 获取位置 (例如:{'x': 734, 'y': 476})a.tag_name # 标签名a.size # 节点大小2、切换Framebrowser.switch_to.frame('xxx')进入子Framebrowser.switch_to.parent_frame()返原创 2021-05-13 00:51:35 · 234 阅读 · 1 评论 -
了解动态渲染页面爬取--【1】
**问题:**有时候爬虫获取信息收到阻碍,因为网页有些内容并不是原HTML代码,而是JS经过计算生成的;就算有些能通过分析Ajax获取,但其Ajax接口含有很多加密参数,难以找出规律。解决问题: 可以直接模拟浏览器的运行方式来实现,做到可见即可爬!,就不用管网页内部的JS使用了什么算法渲染,不管后台的接口有哪些参数。库的使用: Selenium、Splash、PyV8、Ghost…Selenium自动化测试工具、驱动浏览器执行特定动作(点击、下拉等),还能获得当前呈现的源代码。 举了一个例原创 2021-05-10 00:33:39 · 155 阅读 · 1 评论