python爬虫基础(3:数据提取之正则)

本文介绍了Python爬虫中如何利用正则表达式进行数据提取和清洗,特别是在其他解析库无法满足需求时。以豆瓣电影Top250为例,通过正则表达式将电影介绍中的多行内容合并成一行,提高阅读体验。具体实现方法包括使用findall()查找非空白字符并使用join()方法组合成字符串。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

正则几乎可以提取任何数据,但是特别难写,一般其他解析库不能提取的时候才使用正则

正则还可以用于数据清洗,本文案例的正则只用于简单的数据清洗

正则介绍链接:https://cuiqingcai.com/977.html

案例是上一篇(https://blog.youkuaiyun.com/jeeson_z/article/details/81279249)的 豆瓣电影Top250

上次得到的结果:

其中 '电影介绍(intro)' 的内容中包含空格、换行等,使阅读难度增大

为了阅读方便,将用正则使多行显示为一行

使用正则

findall() 方法查找,'\S' 表示提取所有的非空白字符,re.S表示换行提取

# 用正则提取所有的可见字符
    intro = re.findall('\S', intro, re.S)

findall() 返回的是一个列表

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值