【sublime】使用sublime3的查找替换功能获得html页面的所有新闻标题

一、任务

既然想获得新闻标题,哪里的标题最多呢?当然是排行榜啦。我们选取的是网易新闻排行榜。
网易新闻排行榜截图
我们的目标是获得所有的新闻标题。获取方法有哪几种呢?

第一种,我们可以通过爬取页面HTML文档,用bs4库解析后再用正则表达式提取相关内容。
此外,我们还可以使用支持正则表达式的文本编辑器的查找替换功能,将两个标题之间的内容删除,即可获得新闻标题内容。
根据北邮陈光老师的课程,我们还可以使用某些浏览器插件实现类似的功能,更为便捷。但是博主还不知道这是什么插件,所以这里不能做更多的介绍了,如果有小伙伴知道,欢迎评论留言给博主呀!

二、解决

第一种使用简单的爬虫即可,python,R语言都是很方便的工具。这里不做过多介绍。感兴趣的小伙伴欢迎留言给博主。

第二种方法需要具备基本的正则表达式知识。我们经过观察发现应删除内容在和.html">两个内容之间,因此我们就需要使用正则表达式匹配这部分内容。它的表达式是:<\/a>[\S\s]*?\.html">

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值