由于有需求对word导出的html进行一些操作处理,把一些指定好格式的文本转变为特定的标签。
但是word转换为html时产生很多垃圾的标签,例如:在word中的文本:@####00:00####第1讲课内容####@
要对产生的html中解析出00:00,和第1讲课内容改为特定的html标签。
在word中@####00:00####第1讲课内容####@是连续的,但是转换成html后,该内容被很多span,font标签嵌套
拆分开来。要解析到该串内容并转为指定的标签在写入文件就比较麻烦了。
解决办法:
使用python,下载BeautifulSoup库,该库主要对HTML、XML等解析操作提供便利。
首先是BeautifulSoup库的安装。
安装BeautifulSoup库时,两条指令:
python setup.py build
python setup.py install
该库对标签遍历、修改属性、修改内容、增加标签、按照格式写入文件等,都很方便。