Python爬虫_AliceY_2025的博客-优快云博客

Python爬虫

关注

文章平均质量分 81

Python爬虫

关注数：文章数：15 文章阅读量：7861 文章收藏量：14

作者: AliceY_2025

这个作者很懒，什么都没留下…

展开

专栏收录文章

Python爬虫学习笔记 (15) [中级] 动态网页处理 selenium 3 - Glidedsky爬虫基础2

更新日期: 2021.04.10本节内容：镀金的天空: http://glidedsky.com一个专供爬虫升级打怪的网站~~做了基础 1&2 部分，以下是基础 2 部分~目录1. 需求描述2. 代码3. 关于 selenium 的使用4. selenium 的其他功能 - 先不学啦1. 需求描述爬虫往往不能在一个页面里面获取全部想要的数据，需要访问大量的网页才能够完成任务。目标网站一个有1000个网页，每个页面有有12个数字，拿到每页上的数据，把这些数字求和。答案正确，即可通关。

原创 2021-04-10 22:09:00 · 597 阅读 · 0 评论
Python爬虫学习笔记 (11) [初级] 小练习爬取Eason所有歌曲歌词 & 制作词云图

更新日期: 2021.04.03本节内容：爬虫学了这么久，一直想不到想要目录1. 爬取歌曲信息1. 爬取歌曲信息爬取九库音乐网上 Eason 的歌曲清单，含歌曲名字和歌词。meixiaimport requestsfrom requests.exceptions import RequestExceptionfrom bs4 import BeautifulSoupimport reimport timeimport randomimport xlwings as xw# 获

原创 2021-04-03 21:30:30 · 539 阅读 · 0 评论
Python爬虫学习笔记 (16) [中级] 处理简单的加密字体(&#x) - 获取某眼电影票房信息

更新日期: 2021.04.10本节学习内容：动态网页加载完毕，获得了全部的网页代码，接下来就要解析目标信息了。这个阶段的反扒措施主要有字体加密，JS代码，图片信息等等。今天先看看加密字体中最简单的一种~目录1. 目标信息 - 某眼电影票房信息2. 研究编码规律3. 解码 - 中文3. 解码 - 数字和英文4. 总结1. 目标信息 - 某眼电影票房信息网站页面上显示了票房信息(31.00亿)，代码中显示为&#x开头的一组代码。2. 研究编码规律数字： ‘&#’ 出现在

原创 2021-04-10 15:14:44 · 559 阅读 · 0 评论
Python爬虫学习笔记 (14) [中级] 动态网页处理 selenium 2+ 豆瓣网电影清单 (下拉&点击加载页面)

更新日期: 2021.04.09本节学习内容：上一节练习了获取当当网图书清单，页面上没有判停的标志，使用 selenium不断的下拉滚动条继续加载，拉了 97次，终于到底了~本节操练下使用 selenium 的另一种场景，即页面下方有个按键，比如 “点击下载更多”，不断的下拉滚动条，然后点击这个按键，直到这个按键不再出现了（拉到底了），或者，已经拉到了我预定的次数（获得了足够的信息），不需要继续加载了。目录1. 采集豆瓣网电影清单2. 关于 selenium 的使用1. 采集豆瓣网电影清单代码

原创 2021-04-09 23:50:31 · 421 阅读 · 0 评论
Python爬虫学习笔记 (13) [中级] 动态网页处理 selenium 1+ 当当网图书清单 (下拉滚动条加载页面)

更新日期: 2021.04.05本节学习内容：处理动态网页的利器 selenium~目录1. selenium是什么？为什么比requests慢？1. selenium是什么？为什么比requests慢？selenium是一套web测试系统，包含了测试的录制，编写和运行，以及测试的并行处理。支持多种主流浏览器。selenium被应用在爬虫中，是因为它可以模拟人的操作来驱动浏览器，完成加载动态网页所要求的点击和下拉等动作，以获取网页的完整代码。selenium驱动浏览器操作的过程是可以在网页

原创 2021-04-06 08:12:48 · 406 阅读 · 0 评论
Python爬虫学习笔记 (12) [初级] 阶段总结~

更新日期: 2021.04.04二月开始学习 Python，三月开始学习爬虫，现在四月初了，基本学完了初级爬虫的内容，总结一下~~目录1. 收获2. 问题2.1 代码不规范2.2 信息不规范3. 走在通往中级爬虫的路上3.1 处理网页代码上的问题3.2 数据可视化3.2 其他1. 收获经过一个月的学习，基本可以爬取没有反扒机制的网站了~~学习了获取网页代码的 requests 库，解析代码的 bs4 库和精细解析的 re 库，存为 txt 和 Excel (通过xlwings库) 文档的方法，还尝

原创 2021-04-04 22:00:50 · 187 阅读 · 0 评论
Python爬虫学习笔记 (10) [初级] 正则 re 常用方法总结

更新日期: 2021.03.31本节内容：前面的 re 学习笔记内容源自官网文档，逐一介绍了 re 的的诸多才艺。本节将从 how to 的视角来介绍并总结常用方法清单。目录1. 分析目标信息在文档中出现的规律2. 确定查找工具 - 目标是一个还是多个？每个目标出现一次还是多次？3. 确定需匹配的字符串 - 目标信息有规律，还是 TA 的上下文有规律？4. 为需匹配的字符串设计匹配方法4.1 匹配单个字符串4.2 匹配一定数量的字符串4.3 单词边界确认 & 开头/结尾确认4.4 转义元字

原创 2021-03-31 22:49:09 · 202 阅读 · 1 评论
Python爬虫学习笔记 (8) [初级] 将信息存储为 Excel 文件 - xlwings 库

更新日期: 2021.03.23已经学习的内容：爬取网页：掌握 requests 的常用方法。解析代码：掌握 BeautifulSoup (bs4) 和 re 的常用方法。保存信息：最简单的文件类型 txt。本节学习内容：使用 xlwings 将获取的信息存储为 Excel 文件。目录1. 为什么选择 xlwings ？2. 安装和导入3. 创建/打开文件4. 获取工作表中单元格的值5. 写入数据6. 保存文件，关闭文件和程序7. 其他功能1. 为什么选择 xlwings ？对于 t

原创 2021-03-27 23:03:53 · 606 阅读 · 0 评论
Python爬虫学习笔记 (7) [初级] BeautifulSoup bs4 常用方法总结

更新日期: 2021.03.23已经学习的内容：爬取网页：掌握 requests 的常用方法。解析代码：掌握 BeautifulSoup (bs4) 和 re 的常用方法。保存信息：最简单的文件类型 txt。本节内容：前面的 bs4 学习笔记内容源自官网文档，逐一介绍了它的的诸多才艺。本节内容如下：bs4 解析思路及常用方法。定位目标标签召之即来~获取目标信息探囊取物~目录1. 解析思路及常用方法1.1 观察网页代码的规律1.2 常用方法2. 定位目标标签召之即来~2.

原创 2021-03-23 23:22:27 · 800 阅读 · 0 评论
Python爬虫学习笔记 (6) [初级] re 和各种 bs4 解析器 - 速度测试

更新日期: 2021.03.22已经学习的内容：爬取网页：掌握 requests 的常用方法。解析代码：掌握 Beautiful Soup (bs4) 和 re 的常用方法。保存信息：最简单的文件类型 txt。本节内容：比较 bs4 和 re 解析器的解析速度。目录1. 测试目的2. 测试内容3. 测试文档及目标信息4. 比较两种 re 方法的解析速度每个 re 语句提取两个信息每个 re 语句提取一个信息, 提取两次5. 测试 bs4 在各种依赖下运行的速度1. 测试目的分析两类解

原创 2021-03-22 23:30:20 · 718 阅读 · 0 评论
Python爬虫学习笔记 (5) [初级] 学习 re 正则解析库

更新日期: 2021.03.20已经学习的内容：获取网页：掌握 requests 的常用方法解析代码：掌握 bs4 的常用方法，初步了解 re 的使用保存信息：先用最简单的文件类型 txt本节学习内容：掌握解析库 re 的常用方法目录1. bs4 是什么？能帮我完成什么任务？1. bs4 是什么？能帮我完成什么任务？Beautiful Soup是Python的一个库。...

原创 2021-03-21 15:26:38 · 386 阅读 · 2 评论
Python爬虫学习笔记 (4) [初级] 学习BeautifulSoup bs4 靓汤

日期:2021.03.13目录学习资料来源学习资料来源通过Python官网学习.打开官网找到Beautiful Soup (bs4)，当前最新beautifulsoup4版本是4.9.3 (Released on Oct 3, 2020). 英文版介绍是基于4.9.0，而中文版…不清楚是4.2.0还是4.4.0… 好多内容，先看下中文版，再看看英文版有什么不同吧…...

原创 2021-03-17 23:17:37 · 743 阅读 · 0 评论
Python爬虫学习笔记 (3) [初级] 学习 requests

日期:2021.03.12目录学习资料GET发起请求提交参数获取网页信息获取网页中二进制编码的信息（图片，视频等）处理JSON格式内容 - 暂时不学获得页面的raw内容 - 暂时不学个性化请求头POST - 暂时不学响应状态代码响应头信息Cookies重新定向网址及其历史学习资料在Python官网学习requests打开www.python.org，找到第三方库中的requests，注意屏幕右上方的 “Latest version" 是绿色的，确保导入和学习的都是当前最新版本：requests 2.

原创 2021-03-13 17:10:03 · 414 阅读 · 0 评论
Python爬虫学习笔记 (2) [初级] 初识 requests + bs4 + re

日期：2021.03.12目录本节学习内容学习步骤手打代码本节学习内容1）获取目标网页（第一页）的源代码：使用requests2）解析代码：使用Beautiful Soup (bs4)3）保存所需信息：先用最简单的文件类型 txt4）继续爬取余下的网页，并重复以上 2和3步学习步骤1）手打教程中的程序代码，理解每一句，可灵活运用2）进一步学习requests库其他功能，记录3）进一步学习 bs4库其他功能，记录4）使用2) 和3) 中学到的功能改写1) 中的代码~5）总结~~~

原创 2021-03-13 12:42:45 · 691 阅读 · 0 评论
Python爬虫学习笔记 (1) 初识爬虫 + 学习线路图

为什么打算学习爬虫？对爬虫的理解学习路线为什么打算学习爬虫？二月起开始学习Python, 逐渐了解了Python语言的优势方向，发现不止各大深度学习框架的接口都有TA，在爬虫领域，TA更是绝对的霸主~ 既然学了Python，就试着到处爬一爬吧~~~对爬虫的理解了解下基本的概念，说的 low一点 - 就是到处爬取数据????我的理解，爬虫是使用优雅的计算机语言，从广阔网络空间的纷繁复杂数据中获取我们所需要的。其实，搜索引擎做的也是类似的事情。有效的获取数据，对深度学习以及其他需求也是有帮助

原创 2021-03-10 23:01:06 · 600 阅读 · 0 评论

Python爬虫

作者: AliceY_2025

Python爬虫学习笔记 (15) [中级] 动态网页处理 selenium 3 - Glidedsky爬虫基础2

Python爬虫学习笔记 (11) [初级] 小练习 爬取Eason所有歌曲歌词 & 制作词云图

Python爬虫学习笔记 (16) [中级] 处理简单的加密字体(&#x) - 获取某眼电影票房信息

Python爬虫学习笔记 (14) [中级] 动态网页处理 selenium 2+ 豆瓣网电影清单 (下拉&点击加载页面)

Python爬虫学习笔记 (13) [中级] 动态网页处理 selenium 1+ 当当网图书清单 (下拉滚动条加载页面)

Python爬虫学习笔记 (12) [初级] 阶段总结~

Python爬虫学习笔记 (10) [初级] 正则 re 常用方法总结

Python爬虫学习笔记 (8) [初级] 将信息存储为 Excel 文件 - xlwings 库

Python爬虫学习笔记 (7) [初级] BeautifulSoup bs4 常用方法总结

Python爬虫学习笔记 (6) [初级] re 和各种 bs4 解析器 - 速度测试

Python爬虫学习笔记 (5) [初级] 学习 re 正则解析库

Python爬虫学习笔记 (4) [初级] 学习BeautifulSoup bs4 靓汤

Python爬虫学习笔记 (3) [初级] 学习 requests

Python爬虫学习笔记 (2) [初级] 初识 requests + bs4 + re

Python爬虫学习笔记 (1) 初识爬虫 + 学习线路图

Python爬虫学习笔记 (11) [初级] 小练习爬取Eason所有歌曲歌词 & 制作词云图