- 博客(17)
- 收藏
- 关注
原创 零基础网络爬虫技术(三)
本文介绍了使用Python requests库进行网络爬虫的实战技巧。首先演示了如何通过POST请求实现网站登录,并利用Session保持会话状态,避免重复输入账号密码;接着对比了requests.get和Session.get的区别,强调后者在性能、Cookie管理等方面的优势;最后分享了视频爬取实例,重点讲解了如何解决防盗链问题(通过设置Referer),以及如何获取真实视频地址进行下载。文章提供了完整的代码示例,涵盖了环境变量加载、请求头设置、JSON数据处理等实用技巧。某些特殊的就不进行书写了
2025-06-22 20:54:56
304
原创 零基础网络爬虫技术(二)
**总结**:本文介绍了三种网络爬虫数据解析技术——**Beautiful Soup**(适合新手,易用性强)、**XPath**(精准高效,适合XML/HTML结构化查询)和**正则表达式**(灵活但复杂,适合特定文本匹配)。通过实战示例(虎扑NBA数据、电影天堂、豆瓣Top250)展示了如何用`bs4`提取表格数据并保存为CSV,用`XPath`快速抓取电影名称,以及用`re`匹配豆瓣电影的多项信息(名称、年份、评分等),最后对比了三者的优缺点及适用场景。
2025-06-18 17:27:42
1189
原创 零基础网络爬虫技术(一)
这段代码演示了Python网页爬虫的基础实现:先用`urllib`尝试直接抓取网页(如百度),发现部分网站(如电影天堂)会因反爬机制返回错误;随后改用`requests`库,通过添加`User-Agent`模拟浏览器身份,成功获取网页内容(如搜狗搜索页)或直接调用API接口(如豆瓣电影排行榜JSON数据)。关键步骤包括构造请求头伪装浏览器、发送HTTP请求、解析响应数据(HTML或JSON),最终将结果保存为文件。整个过程体现了爬虫“伪装-请求-解析”的核心逻辑,同时需注意合法合规与反爬策略。
2025-06-17 21:11:14
902
原创 Leetcode基础算法-位运算
位运算(Bit Operation): 在计算机内部, 数是以「二进制(Binary)」的形式存储. 位运算是直接对数的二进制进行操作, 使用位运算可显著提高程序性能.
2024-09-30 00:07:55
772
原创 Leetcode基础算法-贪心算法
贪心算法(Greedy Algorithm)是一种算法策略,它在每个决策步骤中总是选择当前情况下最优的选择,以期望最终得到一个全局最优解。
2024-09-27 20:57:37
2208
原创 Leetcode基础算法-回溯算法
回溯算法(Backtracking)是一种避免不必要搜索的穷举式搜索算法. 它采用试错的思想, 在搜索过程中, 当某一步选择无法满足求解条件时, 退回一步(回溯)重新选择.
2024-09-24 19:22:18
1828
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人