HTML标签过滤(python)
正则表达式基本知识:首先了解一点正则表达式
Html标签过滤是一种对爬虫数据进行初步处理的过程,目的是先把大范围无用的数据进行清洗。
在使用python进行爬虫的时候,一般情况下得到的是html的页面,上面有很多无用的标签信息,以及javascript的代码。
所以我在进行标签过滤的时候采用了正则表达式进行匹配并且替换掉无用的内容。
具体使用效果如下:
这种东西,基本我们需要的内容在大量无用的代码里面的中文部分。
首先,我进行清理的部分是样式标签,主要原因是样式标签里面的