
Python爬虫
文章平均质量分 81
Python爬虫
AliceY_2025
这个作者很懒,什么都没留下…
展开
-
Python爬虫学习笔记 (15) [中级] 动态网页处理 selenium 3 - Glidedsky爬虫基础2
更新日期: 2021.04.10本节内容 :镀金的天空: http://glidedsky.com一个专供爬虫升级打怪的网站~~做了基础 1&2 部分,以下是基础 2 部分~目录1. 需求描述2. 代码3. 关于 selenium 的使用4. selenium 的其他功能 - 先不学啦1. 需求描述爬虫往往不能在一个页面里面获取全部想要的数据,需要访问大量的网页才能够完成任务。目标网站一个有1000个网页,每个页面有有12个数字,拿到每页上的数据,把这些数字求和。答案正确,即可通关。原创 2021-04-10 22:09:00 · 553 阅读 · 0 评论 -
Python爬虫学习笔记 (11) [初级] 小练习 爬取Eason所有歌曲歌词 & 制作词云图
更新日期: 2021.04.03本节内容 :爬虫学了这么久,一直想不到想要目录1. 爬取歌曲信息1. 爬取歌曲信息爬取九库音乐网上 Eason 的歌曲清单,含歌曲名字和歌词。meixiaimport requestsfrom requests.exceptions import RequestExceptionfrom bs4 import BeautifulSoupimport reimport timeimport randomimport xlwings as xw# 获原创 2021-04-03 21:30:30 · 485 阅读 · 0 评论 -
Python爬虫学习笔记 (16) [中级] 处理简单的加密字体(&#x) - 获取某眼电影票房信息
更新日期: 2021.04.10本节学习内容 :动态网页加载完毕,获得了全部的网页代码,接下来就要解析目标信息了。这个阶段的反扒措施主要有字体加密,JS代码,图片信息等等。今天先看看加密字体中最简单的一种~目录1. 目标信息 - 某眼电影票房信息2. 研究编码规律3. 解码 - 中文3. 解码 - 数字和英文4. 总结1. 目标信息 - 某眼电影票房信息网站页面上显示了票房信息(31.00亿),代码中显示为&#x开头的一组代码。2. 研究编码规律数字: ‘&#’ 出现在原创 2021-04-10 15:14:44 · 507 阅读 · 0 评论 -
Python爬虫学习笔记 (14) [中级] 动态网页处理 selenium 2+ 豆瓣网电影清单 (下拉&点击加载页面)
更新日期: 2021.04.09本节学习内容 :上一节练习了获取当当网图书清单,页面上没有判停的标志,使用 selenium不断的下拉滚动条继续加载,拉了 97次,终于到底了~本节操练下使用 selenium 的另一种场景,即页面下方有个按键,比如 “点击下载更多”,不断的下拉滚动条,然后点击这个按键,直到这个按键不再出现了(拉到底了),或者,已经拉到了我预定的次数(获得了足够的信息),不需要继续加载了。目录1. 采集豆瓣网电影清单2. 关于 selenium 的使用1. 采集豆瓣网电影清单代码原创 2021-04-09 23:50:31 · 394 阅读 · 0 评论 -
Python爬虫学习笔记 (13) [中级] 动态网页处理 selenium 1+ 当当网图书清单 (下拉滚动条加载页面)
更新日期: 2021.04.05本节学习内容 :处理动态网页的利器 selenium~目录1. selenium是什么?为什么比requests慢?1. selenium是什么?为什么比requests慢?selenium是一套web测试系统,包含了测试的录制,编写和运行,以及测试的并行处理。支持多种主流浏览器。selenium被应用在爬虫中,是因为它可以模拟人的操作来驱动浏览器,完成加载动态网页所要求的点击和下拉等动作,以获取网页的完整代码。selenium驱动浏览器操作的过程是可以在网页原创 2021-04-06 08:12:48 · 380 阅读 · 0 评论 -
Python爬虫学习笔记 (12) [初级] 阶段总结~
更新日期: 2021.04.04二月开始学习 Python,三月开始学习爬虫,现在四月初了,基本学完了初级爬虫的内容,总结一下~~目录1. 收获2. 问题2.1 代码不规范2.2 信息不规范3. 走在通往中级爬虫的路上3.1 处理网页代码上的问题3.2 数据可视化3.2 其他1. 收获经过一个月的学习,基本可以爬取没有反扒机制的网站了~~学习了获取网页代码的 requests 库,解析代码的 bs4 库和精细解析的 re 库,存为 txt 和 Excel (通过xlwings库) 文档的方法,还尝原创 2021-04-04 22:00:50 · 155 阅读 · 0 评论 -
Python爬虫学习笔记 (10) [初级] 正则 re 常用方法总结
更新日期: 2021.03.31本节内容 :前面的 re 学习笔记内容源自官网文档,逐一介绍了 re 的的诸多才艺。本节将从 how to 的视角来介绍并总结常用方法清单。目录1. 分析目标信息在文档中出现的规律2. 确定查找工具 - 目标是一个还是多个?每个目标出现一次还是多次?3. 确定需匹配的字符串 - 目标信息有规律,还是 TA 的上下文有规律?4. 为需匹配的字符串设计匹配方法4.1 匹配单个字符串4.2 匹配一定数量的字符串4.3 单词边界确认 & 开头/结尾确认4.4 转义元字原创 2021-03-31 22:49:09 · 168 阅读 · 1 评论 -
Python爬虫学习笔记 (8) [初级] 将信息存储为 Excel 文件 - xlwings 库
更新日期: 2021.03.23已经学习的内容:爬取网页:掌握 requests 的常用方法。解析代码:掌握 BeautifulSoup (bs4) 和 re 的常用方法。保存信息:最简单的文件类型 txt。本节学习内容 :使用 xlwings 将获取的信息存储为 Excel 文件。目录1. 为什么选择 xlwings ?2. 安装和导入3. 创建/打开文件4. 获取工作表中单元格的值5. 写入数据6. 保存文件,关闭文件和程序7. 其他功能1. 为什么选择 xlwings ?对于 t原创 2021-03-27 23:03:53 · 557 阅读 · 0 评论 -
Python爬虫学习笔记 (7) [初级] BeautifulSoup bs4 常用方法总结
更新日期: 2021.03.23已经学习的内容:爬取网页:掌握 requests 的常用方法。解析代码:掌握 BeautifulSoup (bs4) 和 re 的常用方法。保存信息:最简单的文件类型 txt。本节内容 :前面的 bs4 学习笔记内容源自官网文档,逐一介绍了它的的诸多才艺。本节内容如下:bs4 解析思路及常用方法。定位目标标签 召之即来~获取目标信息 探囊取物~目录1. 解析思路及常用方法1.1 观察网页代码的规律1.2 常用方法2. 定位目标标签 召之即来~2.原创 2021-03-23 23:22:27 · 743 阅读 · 0 评论 -
Python爬虫学习笔记 (6) [初级] re 和各种 bs4 解析器 - 速度测试
更新日期: 2021.03.22已经学习的内容:爬取网页:掌握 requests 的常用方法。解析代码:掌握 Beautiful Soup (bs4) 和 re 的常用方法。保存信息:最简单的文件类型 txt。本节内容 :比较 bs4 和 re 解析器的解析速度。目录1. 测试目的2. 测试内容3. 测试文档及目标信息4. 比较两种 re 方法的解析速度每个 re 语句提取两个信息每个 re 语句提取一个信息, 提取两次5. 测试 bs4 在各种依赖下运行的速度1. 测试目的分析两类解原创 2021-03-22 23:30:20 · 678 阅读 · 0 评论 -
Python爬虫学习笔记 (5) [初级] 学习 re 正则解析库
更新日期: 2021.03.20已经学习的内容:获取网页:掌握 requests 的常用方法解析代码:掌握 bs4 的常用方法,初步了解 re 的使用保存信息:先用最简单的文件类型 txt本节学习内容 :掌握解析库 re 的常用方法目录1. bs4 是什么?能帮我完成什么任务?1. bs4 是什么?能帮我完成什么任务?Beautiful Soup是Python的一个库。...原创 2021-03-21 15:26:38 · 305 阅读 · 2 评论 -
Python爬虫学习笔记 (4) [初级] 学习BeautifulSoup bs4 靓汤
日期:2021.03.13目录学习资料来源学习资料来源通过Python官网学习.打开官网找到Beautiful Soup (bs4),当前最新beautifulsoup4版本是4.9.3 (Released on Oct 3, 2020). 英文版介绍是基于4.9.0,而中文版…不清楚是4.2.0还是4.4.0… 好多内容, 先看下中文版, 再看看英文版有什么不同吧…...原创 2021-03-17 23:17:37 · 626 阅读 · 0 评论 -
Python爬虫学习笔记 (3) [初级] 学习 requests
日期:2021.03.12目录学习资料GET发起请求提交参数获取网页信息获取网页中二进制编码的信息(图片,视频等)处理JSON格式内容 - 暂时不学获得页面的raw内容 - 暂时不学个性化请求头POST - 暂时不学响应状态代码响应头信息Cookies重新定向网址及其历史学习资料在Python官网学习requests打开www.python.org,找到第三方库中的requests,注意屏幕右上方的 “Latest version" 是绿色的,确保导入和学习的都是当前最新版本:requests 2.原创 2021-03-13 17:10:03 · 344 阅读 · 0 评论 -
Python爬虫学习笔记 (2) [初级] 初识 requests + bs4 + re
日期:2021.03.12目录本节学习内容学习步骤手打代码本节学习内容1)获取目标网页(第一页)的源代码: 使用requests2)解析代码:使用Beautiful Soup (bs4)3)保存所需信息: 先用最简单的文件类型 txt4)继续爬取余下的网页,并重复以上 2和3步学习步骤1)手打教程中的程序代码,理解每一句,可灵活运用2)进一步学习requests库其他功能,记录3)进一步学习 bs4库其他功能,记录4)使用2) 和3) 中学到的功能改写1) 中的代码~5)总结~~~原创 2021-03-13 12:42:45 · 641 阅读 · 0 评论 -
Python爬虫学习笔记 (1) 初识爬虫 + 学习线路图
为什么打算学习爬虫?对爬虫的理解学习路线为什么打算学习爬虫?二月起开始学习Python, 逐渐了解了Python语言的优势方向,发现不止各大深度学习框架的接口都有TA,在爬虫领域,TA更是绝对的霸主~ 既然学了Python,就试着到处爬一爬吧~~~对爬虫的理解了解下基本的概念,说的 low一点 - 就是到处爬取数据????我的理解,爬虫是使用优雅的计算机语言,从广阔网络空间的纷繁复杂数据中获取我们所需要的。其实,搜索引擎做的也是类似的事情。有效的获取数据,对深度学习以及其他需求也是有帮助原创 2021-03-10 23:01:06 · 525 阅读 · 0 评论