python数据采集练习根据指定av号下载bilibili视频（二）【正则表达式】

最新推荐文章于 2025-11-12 09:49:53 发布

原创最新推荐文章于 2025-11-12 09:49:53 发布 · 1.9k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

python练习（1）专栏收录该内容

7 篇文章

订阅专栏

本文介绍如何使用正则表达式从复杂网页源码中精确提取所需信息，包括视频下载链接、标题和大小等内容。通过对比贪婪与非贪婪模式，演示re模块在Python中的应用。

部署运行你感兴趣的模型镜像

如果我们要在一大段文字中找到符合某格式的字符串，最方便的方法莫过于用正则表达式了

正则表达式：https://baike.baidu.com/item/正则表达式/1700215?fr=aladdin

我们需要获取一个网页内的信息，如视频下载链接，视频标题，视频大小等等等，而这些信息往往会以这种形式出现：

<script>window.__playinfo__={...}</script>
"dimension":....
title:.....

它们长度不定，位置不定，但具有一定的格式。我们可以用正则表达式将它们的信息完整的提取出来。

import re

data = re.findall("window.*?;/(fun/)",datas)

re是Python标准库，专门处理正则表达式，其中re.findall()差不多是最常用的一个函数，用来查找在一段数据中符合某模式的字符串片段并返回一个结果列表。

有关Python re 模块的详细教程可以在网上轻易找到，这里不再累述，这里只提一点：贪婪模式与非贪婪模式

re模块默认是贪婪的，即尽可能匹配到符合模式的最长的字符串，但是在网页源码中往往会出现多个类似于 <span>...</span>...<span>...</span>这样的结构，我想让它在出现第一个</span>时就结束匹配。这需要我们开启匹配的非贪婪模式。

假如有一段数据是

data = "test<lt></lt></lt>"

贪婪模式：

>>> re.findall("test.*</lt>",data)
['test<lt></lt></lt>']

非贪婪模式：

>>> re.findall("test.*?</lt>",data)
['test<lt></lt>']

？的作用是匹配前一个表达式0次或一次，或表示非贪婪，这点十分重要。

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。