爬虫
文章平均质量分 79
jyfool
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
探索 Wikidata:解锁结构化、可溯源知识的宝藏
介绍比wikipedia维基百科更适合“机器”读取的 wikidata原创 2025-07-31 11:44:51 · 1136 阅读 · 0 评论 -
在信息整编过程中避免信息“流失”
信息整编是个细致活儿,稍不留神就可能让信息“流失”,影响后续使用。记住这六条原则加一条补充建议:保留原始数据、留分不留合、用字符串存数字和日期、只留“干货”、统一大小写、选好分隔符、记录来源,就能让你的数据更可靠、更易用。希望这些经验能帮你在信息整编的路上少踩坑!原创 2025-07-30 10:39:16 · 811 阅读 · 2 评论 -
从 403 和 429 到成功:用 Python 模拟浏览器请求获取 ADS-B Exchange 飞行轨迹数据的挑战
摘要 本文记录了从ADS-B Exchange平台获取飞机轨迹JSON数据的Python实现过程。作者最初遇到403和429错误,通过浏览器开发者工具分析发现,认证依赖adsbx_sid Cookie和特定请求头。主要解决步骤包括:1) 精简Cookie仅保留必要项;2) 模拟浏览器InPrivate会话;3) 添加重试机制处理429错误。最终方案使用requests.Session初始化会话,配置完整请求头,并动态获取最新Cookie值,成功实现了自动化数据抓取。该方法为处理类似网页认证限制提供了参考模板原创 2025-07-02 10:55:41 · 1153 阅读 · 0 评论 -
爬虫Scrapy XPath 取不出数据的问题排查小结
Scrapy爬取网页时XPath失效的常见原因是浏览器渲染的HTML与Scrapy获取的静态HTML存在差异,尤其在动态加载内容的情况下。解决方案包括:1)使用Scrapy-Splash或Selenium处理JS渲染;2)根据实际HTML调整XPath表达式;3)模拟浏览器请求头;4)保存HTML并开启浏览器离线模式验证结构一致性。关键是通过对比静态HTML和渲染后DOM的差异,针对性地修改XPath或启用JS渲染支持。原创 2025-06-12 09:51:35 · 948 阅读 · 0 评论 -
使用谷歌翻译处理Excel文件导致url变化的教训
使用谷歌翻译导致excel的url字段被意外修改原创 2025-05-23 16:47:40 · 296 阅读 · 0 评论 -
主页地址采集不一致问题的分析与项目组内部规范建议
在多人协同项目中,企业主页地址的采集因组员对“主页地址”理解不一致,导致数据出现显著差异,增加了数据清洗成本并影响项目结果准确性。主要问题包括协议不一致、大小写差异、路径差异、子域名差异、末尾斜杠差异、查询参数冗余、本地化或语言版本差异、工具或平台差异、301重定向未统一以及无www的网址。这些问题导致程序在处理URL时无法正确归一化,引发数据重复或分析偏差。为解决这些问题,建议企业内部制定规范,统一使用HTTPS、域名大小写、子域名规则,处理301重定向,明确主页定义,去除末尾斜杠和参数,使用规范化工具,原创 2025-05-19 12:33:57 · 660 阅读 · 0 评论 -
合规批量下载美国上市公司年报数据的一些经验和总结
本文总结了使用Python脚本批量下载和处理美国上市公司SEC报告的技术经验。通过CIK代码查询SEC EDGAR系统,生成特定日期和报告类型的URL,并使用Selenium和Requests库下载报告内容。流程包括数据获取、文件下载、Excel处理和多线程优化,确保高效处理几百条数据。关键技术挑战包括SEC访问限制、动态网页内容和数据完整性,解决方案包括设置合规的User-Agent、使用Selenium模拟浏览器行为以及错误日志记录。最佳实践包括模块化设计、多线程优化和严格遵守SEC合规性。该自动化流程原创 2025-05-18 20:19:20 · 1246 阅读 · 0 评论 -
用python创建epub文件的一些知识点
读取json配置文件,然后把几个xhtml文件合并为epub的python库。配置文件里包含了书名、作者、封面图像路径、各个章节的路径和章节名称。原创 2025-01-12 17:11:45 · 652 阅读 · 0 评论 -
ebooklib中epub的几点使用心得
用ebooklib的epub生成epub电子书时,几个函数应注意的地方以及书脊的概念原创 2024-07-30 13:04:29 · 434 阅读 · 0 评论 -
爬虫抓取微信公众号文章一些收获2024-7
通过微信公众号后台,读取其他公众号的文章列表,并且抓取每一篇文章的静态地址原创 2024-07-25 20:51:27 · 950 阅读 · 1 评论
分享