
网络爬虫
文章平均质量分 92
东风无力百花残_
热爱技术,热爱分享
细聊vx:yydt987
展开
-
基于 Python 的 Bilibili 评论分析与可视化
本项目利用 Python 对 Bilibili (哔哩哔哩)平台上的视频评论数据进行爬取、清洗和分析,并通过可视化展示数据的主要特征。数据爬取:使用 Bilibili 提供的 API 获取指定视频的评论数据。数据清洗:对评论内容进行文本预处理,清除无关信息,并对 IP 地址进行地区解析。数据分析数据可视化:使用pyecharts库生成词云图、柱状图、折线图等多种图表,展示评论的分布与趋势。本文将详细介绍每一步的实现过程,以及如何利用 Python 工具处理和分析海量的网络评论数据。原创 2024-11-14 22:44:00 · 1438 阅读 · 0 评论 -
基于Spider异步爬虫框架+JS动态参数逆向+隧道代理+自定义中间件的猎聘招聘数据爬取
本项目通过 Scrapy 框架结合 JS 逆向技术和自定义中间件,成功地爬取了猎聘招聘平台的数据,并存储在本地 CSV 文件中。重试机制和代理设置保证了爬虫的稳定性和反爬虫防护。该方案适用于类似需要绕过反爬虫机制的招聘网站或其他数据来源。如果你对 Web 爬虫的其他技术和最佳实践感兴趣,欢迎关注本博客。原创 2024-11-14 21:52:42 · 1910 阅读 · 0 评论 -
Python 爬取 TED演讲英文资料视频
通过这篇博客,我们完成了一个完整的 Python 爬虫项目,能够自动化地从 TED 网站上抓取视频和音频流,并通过 FFmpeg 将其合成为本地视频文件。在实际应用中,这种技术不仅可以应用于 TED 视频,还可以扩展到其他提供流媒体服务的网站。需要注意的是,在使用爬虫抓取数据时,应尊重目标网站的版权和使用条款。原创 2024-08-28 22:42:24 · 878 阅读 · 0 评论 -
零基础爬取链家二手房信息并保存到 MongoDB 和 MySQL 可视化分析
requests确保你的本地环境中已安装并启动 MongoDB 和 MySQL 数据库。在这个例子中,MongoDB 使用默认的连接,MySQL 使用默认的连接,用户为root,密码为root,数据库为house。原创 2024-08-28 22:05:25 · 903 阅读 · 0 评论