利用Python采集短视频

原创

于 2021-08-28 12:13:47 发布 · 1.4k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

本文介绍如何使用Python爬虫采集短视频。通过分析网页瀑布流加载模式，利用selenium模拟滑动，抓取视频跳转链接，再通过requests请求获取视频源地址，实现视频下载。同时讨论了DY签名加密的处理策略。

前言

大家好，我叫善念，这是我的第三篇技术博文。音乐、小说、这次是视频，估计下次就是图片吧。

文章都是当天现写得，自己也没有去做过。

我们将要采集的网站是网页版的DY数据：目标网址

咱们随便选择一个博主的视频进行采集，我饿了我就找了个美食博主。

分析（x0）

在网页的元素中咱们可以找到当前视频的跳转链接：

而经过我观察了一下我发现每个li标签都包含了一条短视频的信息：

那么这里总共是13个li标签，而咱们的这个博主肯定不止发了13个视频吧？又不是我善念这种货色只有几十个粉丝，所以问题出在哪？

我已经猜到这个是一种瀑布流的模式加载视频了，跟大家解释一下。就是比如说一个网页上面你只能看到十条数据，当你拉动网页下滑条后它会自动加载一些新的数据出来。像瀑布一样数据流出来，原理很简单，就是你拉动下滑条的时候会触发JavaScript脚本生成一些新数据

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

落伍的码农

关注关注

6
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

2 条评论您还未登录，请先登录后发表或查看评论

博客

老年人都看懂了，Python 中的线程和进程精讲，已经收藏

03-02

1324

目录线程和进程一、什么是进程 / 线程1、引论众所周知，CPU是计算机的核心，它承担了所有的计算任务。而操作系统是计算机的管理者，是一个大管家，它负责任务的调度，资源的分配和管理，统领整个计算机硬件。应用程序是具有某种功能的程序，程序运行与操作系统之上2、线程在很早的时候计算机并没有线程这个概念，但是随着时代的发展，只用进程来处理程序出现很多的不足。如当一个进程堵塞时，整个程序会停止在堵塞处，并且如果频繁的切换进程，会浪费系统资源。所以线程出现了线程是能拥有资源和独立运行的

博客

如何让你的Python程序，定时定点地去执行任务？

03-01

2757

apscheduler 的使用我们项目中总是避免不了要使用一些定时任务，比如说最近的项目，用户点击报名考试以后需要在考试日期临近的时候推送小程序消息提醒到客户微信上，翻了翻 fastapi 中的实现，虽然方法和包也不少，但是要不就是太重了（比如需要再开服务，还要依赖 redis，都不好用），虽然也可以使用 time 模块的 time.sleep()机上 fastapi 的后台任务变相实现，但是相对简单的功能还行，复杂点的代码起来就麻烦了，所以还是专人专事找个负责这个额的包吧。找来找去发现 APSch

博客

关于Python的Selenium框架全解，一篇完整的说明书

03-01

3746

目录selenium 基础语法一、环境配置1、安装环境干货主要有：2、配置参数3、常用参数搭配4、分浏览器启动二、基本语法1、元素定位2、控制浏览器操作3、操作元素的方法3.1 点击和输入3.2 提交3.3 其他4、鼠标操作5、键盘操作6、获取断言信息7、等待页面加载完成7.1 显示等待7.2 隐式等待8、页面切换9、框处理9.1 警告框处理9.2 下拉框选择9.2.1 Sele

博客

用Python画一个生日蛋糕并写上生日祝福对象及生日祝福语

02-28

6266

用Python画一个生日蛋糕并写上生日祝福对象及生日祝福语。画一个双层蛋糕并点上蜡烛。代码运行时间较长，请静待惊喜出现，代码运行截图：完整程序代码：干货主要有：① 200 多本 Python 电子书（和经典的书籍）应该有② Python标准库资料（最全中文版）③ 项目源码（四五十个有趣且可靠的练手项目及源码）④ Python基础入门、爬虫、网络开发、大数据分析方面的视频（适合小白学习）⑤ Python学习路线图（告别不入流的学习）Python学习交流Q群1016.

博客

Python入门进阶：68 个 Python 内置函数详解

02-28

1417

内置函数就是Python给你提供的，拿来直接用的函数，比如print.，input等。截止到python版本3.6.2 ，python一共提供了68个内置函数，具体如下abs()dict()help()min()setattr()all()dir()hex()next()slice()any()divmod()...

博客

利用Python监控儿子每天在电脑上面做了些什么

02-21

579

继打游戏、看视频等摸鱼行为被监控后，现在打工人离职倾向也会被监控。有网友爆料称知乎正在低调裁员，视频相关部门几乎要裁掉一半。而在知乎裁员的讨论区，有网友表示企业安装了行为感知系统，该系统可以提前获知员工跳槽念头。而知乎在否认了裁员计划的同时，也声明从未安装使用过网上所说的行为感知系统，今后也不会启用类似软件工具。因为此事，深信服被推上风口浪尖，舆论关注度越来越高。一时间，“打工人太难了”“毫无隐私可言”的讨论层出不穷。今天就带大家领略一下怎么写几行 Python 代码，就能监控电脑。

博客

30段极简Python代码，30秒学一个实用技巧

02-19

527

人生苦短，快学Python！学 Python 怎样才最快，当然是实战各种小项目，只有自己去想与写，才记得住规则。今天给大家分享的是 30 个极简任务，初学者可以尝试着自己实现；本文同样也是 30 段代码，Python 开发者也可以看看是不是有没想到的用法。Python 是机器学习最广泛采用的编程语言，它最重要的优势在于编程的易用性。如果读者对基本的 Python 语法已经有一些了解，那么这篇文章可能会给你一些启发。作者简单概览了 30 段代码，它们都是平常非常实用的技巧，我们只要花几分钟就能

博客

利用Python实现短视频完美伪原创，制作独一无二的视频

02-16

1945

1. 场景大家好，我是J哥。前段时间有人私信我，说自己辛辛苦苦剪辑的短视频，上传到某平台后，由于播放量太大，收到降权的通知，直接导致这个账号废掉了！其实，各大视频平台都有自己的一套鉴别算法，针对视频的二次创作，如果直接搬运，都会面临着一些未知风险本篇将带大家用 Python 对短视频做一些特殊处理，保证视频的原创性和唯一性。2. 实现下面将从 MD5、光线、色彩 3 个方面来进行说明第 1 步，修改视频的 MD5 值MD5 是一种密码散列函数，文件的 MD5

博客

利用Python制作旋转花灯，祝大家元宵节快乐

02-15

1526

1、原材料1.1 花灯纸如下所示，还可以加上自己喜欢的图案、文字等。2.2 Python环境和模块一台安装了Python环境的电脑，Python环境需要安装以下模块。干货主要有：① 200 多本 Python 电子书（和经典的书籍）应该有② Python标准库资料（最全中文版）③ 项目源码（四五十个有趣且可靠的练手项目及源码）④ Python基础入门、爬虫、网络开发、大数据分析方面的视频（适合小白学习）⑤ Python学习路线图（告别不入流的学习）P.

博客

Python实战：导出聊天记录分析你和你的对象聊了什么

02-15

7542

导出QQ聊天记录生成词云看看你和女朋友聊了什么（可惜我没女朋友）导出聊天记录打开消息管理器导出的格式选择txt格式（我这里选择导出的路径是桌面所以在桌面上生成了一个包含聊天记录的.txt文件）干货主要有：① 200 多本 Python 电子书（和经典的书籍）应该有② Python标准库资料（最全中文版）③ 项目源码（四五十个有趣且可靠的练手项目及源码）④ Python基础入门、爬虫、网络开发、大数据分析方面的视频（适合小白学习）⑤ Python学习路线图（告别不入流的

博客

用python实现微信、钉钉等软件多开

02-12

2317

我发现坛友分享的很多都是通过cmd 去start 多个微信虽然能实现多开，但不够灵活，比如我上午登录了一个微信，下午在登录就不太好用了当然也可能是我start的姿势不对。于是我就搜了下单实例原理，自己动手实现了个随用随开的。目前很多软件都限制单实例，大多数软件都是用Mutex来实现的而这个东西咱们可以用handle去干掉它，并且不影响使用。钉钉也是一样的步骤不过Mutex的名字不一样我测试的钉钉的是：”\Sessions\1\BaseNamedObjects\{{239B7D43-86D5

博客

利用Python解决掉谷歌人机验证，全自动识别真的牛啊

02-12

8834

一、接触前感受第一次带我领略yolov5风骚的是这个视频：【亦】警惕AI外挂！我写了一个枪枪爆头的视觉AI，又亲手“杀死”了它。这样一来，我对人工智能打游戏产生了浓厚的兴趣，于是在B站查找人工智能基础，随便一个系列就是几十小时起步。我心想，值得的。但是，看完某个系列的第一条视频我放弃了，我懵逼啊。最后，我们来了解一下人工智能的智能在哪里为了让人工智能迅速成长，科学家们决定送它去打游戏干货主要有：① 200 多本 Python 电子书（和经典的书籍）应该有② Python标准库资料（最全中

博客

Python算法工程师：心中无码便是高清，马赛克“脑补”算法 PULSE

02-11

964

1万恶马赛克万恶的马赛克，是阻碍人类进步的绊脚石。马赛克“脑补”算法 PULSE，助你图片模糊变高清。这是杜克大学近期的一项研究，将模糊人脸秒变高清。PULSE 算法目前只支持人脸的马赛克“去除”，因为训练数据都是人脸。也就是说，“脑补”其它物体马赛克下的内容也是可以的，只要你有数据！我知道，你一定又有了一些大胆的想法！「 Just do it 」 !今天，继续手把手教学。算法原理、环境搭建、效果测试...

博客

伤腰的Python爬虫案例，零基础必备实战教程

02-11

710

目录前言开发环境介绍：爬虫案例数据采集一般步骤:1. 首先第一步，找到对应的链接地址2. 代码发送地址的请求3. 数据解析<解析我们要的数据> html数据, xpath4. 保存数据运行完整代码学习资料前言今天带大家采集一个二次元图片网站, 里面漂亮的小姐姐层出不穷，图片的数据量也是比较大的, 来一睹为快吧! !开发环境介绍：python 3.6pycharmrequestsparselos爬虫案例数据采集一般步骤:找

博客

利用Python使图片完美去除水印，我想试试马赛克的效果∧v∧

02-11

3856

网上下载的 pdf 学习资料有一些会带有水印，非常影响阅读。比如下面的图片就是在 pdf 文件上截取出来的。安装模块PIL：Python Imaging Library 是 python 上非常强大的图像处理标准库，但是只能支持 python 2.7，于是就有志愿者在 PIL 的基础上创建了支持 python 3的 pillow，并加入了一些新的特性。pip install pillowpymupdf 可以用 python 访问扩展名为*.pdf、.xps、.oxps、.epub、

博客

200行Python代码实现B站UP主小助手（显示视频播放数、粉丝数等）

02-10

4555

功能点显示日期时间显示树莓派当前局域网IP 显示当前UP主粉丝数显示B站未读消息显示B站视频总计播放数显示视频总计获赞数显示总计获得充电次数显示直播间人气值显示直播间弹幕将直播间弹幕念出来（TTS）功能是不是还挺丰富的，从写第一行代码到完成也就花了两天不到的时间，这也证明了使用python开发的高效率，下面来说说这些功能开发中我遇到了哪些问题，我又是如何解决的。大家好，我是大帅，一个老程序猿。这是我第一次写Python哟，写得不好请多多指教：P...

博客

5个方便好用的Python自动化脚本

02-10

1899

相比大家都听过自动化生产线、自动化办公等词汇，在没有人工干预的情况下，机器可以自己完成各项任务，这大大提升了工作效率。编程世界里有各种各样的自动化脚本，来完成不同的任务。尤其Python非常适合编写自动化脚本，因为它语法简洁易懂，而且有丰富的第三方工具库。这次我们使用Python来实现几个自动化场景，或许可以用到你的工作中。1、自动化阅读网页新闻这个脚本能够实现从网页中抓取文本，然后自动化语音朗读，当你想听新闻的时候，这是个不错的选择。代码分为两大部分，第一通过爬虫抓取网页文本呢，第

博客

超方便的 Python 自动唤醒窗口截图脚本

02-10

4885

利用Python自带的win32api和win32con、win32gui等模块，我们能执行许多windows下的自动化操作。比如两个窗口的自动点击操作，从软件中的窗口复制文本到txt中，甚至是截图操作。截图的操作用途最为广泛，你可以用它配合定时工具，定时检测某个程序的运行情况；甚至可以根据截图做一些辅助性的决策，比如玩类似于《连连看》的游戏时，对相同类型的方块进行标记，辅助你玩游戏。下面就讲讲如何使用 win32api 实现自动唤醒并截图的操作。1.准备开始之前，你要确保Pyt...

博客

Python制作金钱豹收款码表情包

02-09

1478

源码：import osimport qrcodefrom pyzbar import pyzbarfrom PIL import Image #收款码地址img_adds='C:/Users/73152/Desktop/test/code.jpg'os.path.isfile(img_adds)img = Image.open(img_adds) # 显示图片，测试用img.show() txt_list = pyzbar.decode(img) ...

博客

来自GitHub的Python开源项目，100%可用的12306多功能抢票助手，切勿作为商业用途

01-15

1711

本项目clone来自https://github.com/testerSunshine/12306.git；仅修复一个小bug，然后修改配置文件，抢票可用；重申：本软件只供学习交流使用，勿作为商业用途！python版本3.6 - 3.7.4已有功能自动打码自动登录准点预售和捡漏智能候补邮件通知 server酱通知依赖库验证码目前可以本地识别，需要下载模型，放于项目根目录，全部代码来源于此项目传送门，表示感谢 1. 模型下载链接:h...