Python:实现字符串中指定字符之间的字符串删除

本文介绍了一种去除HTML标签并保留有用文本信息的Python实现方法。通过使用字符串替换和分割技术,有效地从带有超链接的HTML标签中提取纯文本。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本人python小白,最近因实验室做项目才对python有了一些更多地了解
前几天要做一个网络爬虫,可是爬出来的东西里面有一堆标签对,像一般的标签对用strip或者replace就可以轻松去掉了,但是有这样的关于超链的标签对真的要让我烦的不行:

<a href="https://www.ncbi.nlm.nih.gov/pubmed/23526973" > Sequencing and comparative analysis of the straw mushroom (Volvariella volvacea)  genome. </a>

显然这里面标签对之间的这一串字符是有用的,但是网址以及标签对是没用的,需要去掉,所以我采用了这样的方法:

data = "<a href="https://www.ncbi.nlm.nih.gov/pubmed/23526973" > Sequencing and comparative analysis of the straw mushroom (Volvariella volvacea)  genome. </a>"
##实际上需要用\转义里面的双引号
data2 = str(data).replace("<a","%")
data3 = str(data2).replace("</a>","")
data4 = str(data3).replace(">","$")
mes1 = data4.find("%")
mes2 = data4.find("$")
hhh1 = data4[:mes1]
hhh2 = data4[mes2+1:]
hhh = hhh1 + hhh2

其实就是使用特殊符号来代替里面的字符串,然后用分割的方法将他们切开,再连接起来,我认为这样比较好。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值