使用BeautifulSoup去除URL标签

本文介绍了一种利用Python中的BeautifulSoup库去除文本中URL标签的方法。通过读取文件内容并解析HTML,提取纯文本信息,最后将处理后的文本写入新文件。此过程展示了如何高效地去除URL等HTML元素。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

使用BeautifulSoup去除URL标签

原始的文本信息如下图:
原始的文本
处理后的文本信息如下图:
处理后的文本

处理代码如下,python 3.5
# encoding = utf-8
from bs4 import BeautifulSoup
import time
import string
t1 = time.time()
f = open('undergraduatePOI.txt','rb')
result = ''
for eachLine in f:
    t = eachLine.strip().decode('utf8')
    soup = BeautifulSoup(t)
    string = soup.get_text()
    print(string)
    result +="\n"+str(string)
f = open('Puser2.txt', "w", encoding='utf-8')
f.write(result)
f.close()
print("\n"+">>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>"+"\n"+"打印完毕")
t2 = time.time()
print("去除URL用时:"+str(t2-t1)+"秒")
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值