爬虫
文章平均质量分 80
秋水调威士忌
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python网络请求神器:Requests库从入门到精通
Python Requests库是处理HTTP请求的强大工具,本文全面介绍了其使用方法。主要内容包括: 安装与简介:Requests比标准urllib更简洁高效,支持多种HTTP方法和连接池管理 基本请求: GET请求及参数传递 POST请求的表单和JSON数据提交 其他HTTP方法(PUT/DELETE/HEAD等) 高级技巧: 自定义请求头 文件上传(单文件/多文件) 流式上传大文件 响应处理: 文本/二进制/JSON响应解析 状态码检查 异常处理机制 会话管理: Session对象实现Cookie持久原创 2025-07-29 13:29:21 · 902 阅读 · 0 评论 -
XPath从入门到实战:掌握网页数据提取与元素定位的终极指南(附Python代码)
摘要: XPath是用于XML/HTML文档节点定位的查询语言,广泛应用于爬虫和自动化测试。Python通过lxml库支持XPath解析,提供三种文档解析方式(文件/字符串/网络请求),核心语法包括节点定位、属性过滤、文本提取和函数计算。实战案例演示了小说章节爬取,需注意动态属性处理、性能优化(优先ID定位)和浏览器兼容性。相比CSS选择器,XPath支持父节点定位和复杂函数,但需避免浏览器自动生成的冗余路径。最佳实践推荐结合稳定属性和模糊匹配,使用XPath Helper等工具调试。原创 2025-07-29 11:59:43 · 578 阅读 · 0 评论 -
微博话题评论爬虫实战:手把手教你用Python多线程+DrissionPage开源库高效抓取评论
本文介绍了使用Python多线程技术高效爬取微博话题评论数据的方法。通过DrissionPage库实现浏览器模拟和API监听,结合DataRecorder存储数据,仅需30行核心代码即可解决传统爬虫效率低、易被封IP的问题。文章详细讲解了从话题搜索到文章详情页链接获取,再到评论数据监听与采集的完整流程,并展示了如何通过ThreadPoolExecutor实现多线程并发爬取。该方法支持多话题、多文章下的评论自动采集,最终数据将保存为结构化CSV文件。相比传统方案,该技术栈在反爬破解、数据监听和存储性能方面具有原创 2025-06-11 17:01:15 · 1010 阅读 · 0 评论 -
Python的requests库实现微博评论爬取(保姆版+翻页爬取)
本文介绍了如何使用 Python 的 requests 库实现微博评论的爬取,并提供了详细的步骤和代码。其中,主要涉及到获取微博评论的接口 URL 和参数,以及如何构造请求头和发送 GET 请求。此外,还讲解了翻页爬取的方法和实现,以及如何将爬取到的数据保存为 CSV 文件。通过本文的学习,读者可以掌握使用 Python 进行微博评论爬取的基本技能。原创 2025-06-11 15:11:46 · 1589 阅读 · 0 评论
分享