自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Python爬虫实战:高效爬取QQ音乐榜单数据并存储到Excel

Python 3.8+、Chrome浏览器(用于抓包分析)通过浏览器开发者工具(F12)分析发现,QQ音乐榜单数据通过。:榜单统计周期(格式:YYYY-MM-DD):动态签名(需通过JS生成或抓包固定)动态接口可能随版本更新失效,需定期维护。使用Selenium自动抓取最新签名。添加Referer字段模拟页面跳转。音源下载:需破解vkey加密逻辑。:榜单ID(如4代表热歌榜)使用真实浏览器UA头(可通过。商业用途需获得腾讯官方授权。逆向JS加密算法生成签名。:存储数据到Excel。:解析API返回数据。

2025-03-13 18:59:19 296

原创 Python爬虫实战:快速爬取B站热门视频榜单(含完整代码)

B站每日热门榜单是视频创作者和运营者重点关注的流量风向标。本教程仅用于学习交流,请遵守B站相关规定,合理使用数据!需携带完整的Headers(特别是Referer)榜单每小时更新,可通过定时任务实现持续抓取。建议添加随机延迟(time.sleep)避免高频访问(建议间隔≥5分钟)有疑问欢迎评论区留言讨论~3. 解析JSON数据。

2025-02-17 11:24:27 505

原创 Python爬虫实战:爬取猫眼电影Top100榜单(附完整代码与防封策略)

本文仅供技术学习交流,请严格遵守猫眼电影《用户协议》相关规定。关注博主获取更多爬虫工程化实战指南!Cookie是否失效(手动更新Cookie)网页结构是否更新(使用浏览器开发者工具)IP是否被封锁(测试直接访问):单IP请求频率≤2次/分钟。(影院排片策略分析)(兼顾效率与稳定性):不存储用户隐私数据。

2025-02-14 17:25:53 1147

原创 Python爬虫实战:高效爬取豆瓣电影Top250榜单数据(附完整代码)

本文仅供技术学习交流,请严格遵守豆瓣平台相关规定。关注博主获取更多爬虫工程化实战技巧!:禁止商业用途、传播用户隐私数据。(剧情片占比超60%):单IP请求间隔≥3秒。(9分以上神作占比)增加鼠标移动模拟行为。

2025-02-14 16:01:44 1231

原创 Python爬虫实战:高效爬取百度百科数据并解析(附完整代码)

本文代码仅供学习交流,请勿用于商业用途或高频访问目标网站。百度百科作为全球最大的中文百科全书,包含超过2400万个词条。A:1)检查CSS选择器是否更新 2)查看页面是否跳转验证码 3)确认网络环境正常。A:1)更新User-Agent 2)增加访问间隔 3)检查IP是否被封禁。:高性能解析器(速度比html.parser快30%):高效HTTP请求库(比urllib更简洁)控制请求频率(建议≤3次/秒)构建知识图谱(Neo4j实现):使用付费代理服务轮换IP。验证码系统(高频触发时)

2025-02-14 15:12:06 1661

原创 手把手教你本地部署DeepSeek大模型!从环境搭建到数据训练全流程实战

在AI技术爆炸式发展的今天,企业/开发者对数据隐私和定制化需求日益增长。数据不出内网:医疗/金融等敏感行业刚需垂直领域定制:用自有数据打造专属AI助手算力自由掌控:灵活调配GPU资源,成本可控本文将带你从零完成DeepSeek的本地部署,并通过真实业务数据训练专属模型,全程附代码实操!

2025-02-10 08:40:57 4046

原创 网络爬虫——爬取网易云音乐榜单

此处和之前发的爬取boss招聘信息的主题思路和方法是一致的,可以按此讨论尝试爬取别的网站信息。这是一个爬取网易云音乐榜单的代码。

2024-09-28 10:26:29 778

原创 网络爬虫——爬取boss直聘招聘信息

Selenium 与许多浏览器兼容,例如 Chrome 和 Firefox,允许您选择最适合您的网络抓取项目的浏览器。这种灵活性有助于确保在不同的浏览器环境中获得一致的结果。Selenium 是一个广泛使用的 Python 抓取库,用于抓取动态 Web 内容。它通过单击按钮、填写表格等来模仿人类交互。👎 缺点:Selenium可能很慢。它无法获取状态代码。👍 优点: 它可以抓取动态网页。---------代码-----------这是一个爬取boss直聘招聘信息的代码。

2024-09-27 09:30:21 893

原创 手把手教数据处理(二)——pandas数据处理之分组聚合

手把手教数据处理(二)——pandas数据处理之分组聚合

2023-01-06 17:10:53 590 1

原创 手把手教数据处理(一)——pandas数据处理之统计类函数

手把手教数据处理(一)——pandas数据处理之统计类函数

2023-01-06 13:59:20 1049 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除