解析html


由于有需求对word导出的html进行一些操作处理,把一些指定好格式的文本转变为特定的标签。


但是word转换为html时产生很多垃圾的标签,例如:在word中的文本:@####00:00####第1讲课内容####@

要对产生的html中解析出00:00,和第1讲课内容改为特定的html标签。


在word中@####00:00####第1讲课内容####@是连续的,但是转换成html后,该内容被很多span,font标签嵌套

拆分开来。要解析到该串内容并转为指定的标签在写入文件就比较麻烦了。


解决办法:


使用python,下载BeautifulSoup库,该库主要对HTML、XML等解析操作提供便利。

首先是BeautifulSoup库的安装。

安装BeautifulSoup库时,两条指令:


python setup.py build

python setup.py install


该库对标签遍历、修改属性、修改内容、增加标签、按照格式写入文件等,都很方便。








评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值