python抖音信息采集_初探抖音的数据采集,竟然简单到无脑!

本文介绍了如何通过分析抖音分享到浏览器的网页源代码以及使用抓包工具Fiddler来采集抖音视频信息。虽然直接递增视频ID无法遍历所有视频,但通过抓包发现feed请求可获取多个视频数据。这些数据可用于分析推荐逻辑、用户画像、作者信息及视频曝光量等,但随着抖音可能的反采集措施,此类采集将面临挑战。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近几天抖音有点火,火到新榜大号上周(3.20-3.25)7天发布了5篇关于抖音的报道,今天还专门建了个“微微一抖”的群。

作为一个数据狗,也该从数据层面研究一下这“一抖”了。

通过分享视频网页源代码获取数据

所有互联网能看到的数据都是可以采集的,抖音肯定也不例外。

普通情况下,我们使用爬虫采集网络信息的时候是基于其网站的前端代码,也就是你在任意位置鼠标右键—查看网页源代码看到的那些。

抖音的视频都在APP上,我们没法查看他的源代码。好在抖音可以分享到微信然后使用浏览器打开查看。

我们右键查看页面源代码,是可以看到该视频数据的:

源代码中我们可以很清楚的看到视频名称和作者的信息。

有趣的是,本来其他人不可见的视频播放数据,前端代码中也做了展示。截图中"play_count":138、"aweme_id":"6536834751905402116"、"comment_count":1和"share_count":1分别代表了该视频的播放数、视频ID、评论数和分享数。

查看该分享视频的url构造可以发现非常的简单,仅由www.douyin.com、share、video和6536834751905402116四个部分组成,其中前三部分是固定的,唯一变化的是最后一部分视频ID。按照正常的爬虫逻辑,我们只需要使用脚本不断递增该ID,即可实现遍历所有的视频。

实操发现,简单递增视频ID构造的URL视频并不存在。看来抖音对视频的ID是做了加密处理的。尝试分享了几个视频发现,ID有一定的规律,但数据量较小,无法做到解密。时间有限,我们下次再研究视频ID的递增逻辑。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值