在抓取一些数据的时候,获取到的字符串是这样的:
文章标题2432
文章内容
这种情况如果写正则匹配的话,太浪费时间了。有一个现成的工具可用
那就是w3lib。w3lib 是scrapy的基础插件,用来处理html,相当好用,以下是例子:
from w3lib.html import remove_tags
s = '文章标题2432
文章内容
'
s1 = remove_tags(s)
print(s1)
>>>文章标题2432文章内容
是不是很赞?另外,w3lib还提供了多种高度自由的方法来进行字符串清洗:
doc = '
This is a link: example
1.指定保留需要的标签:
>>> w3lib.html.remove_tags(doc, keep=('div',))
'
This is a link: example
'
2. 指定选择去除的标签:
>>> w3lib.html.remove_tags(doc, which_ones=('a','b'))
'
This is a link: example
3. 注意不能即保留又删除标签;
>>> w3lib.html.remove_tags(doc, which_ones=('a',), keep=('p',))
AssertionError: which_ones a

本文介绍了如何使用w3lib库中的remove_tags函数来去除HTML字符串中的标签,以及w3lib提供的其他字符串清洗功能,如替换标签、实体字符等。同时,分享了两个实用的函数,分别用于从字符串中提取headers字典和cookies字典。
最低0.47元/天 解锁文章
583

被折叠的 条评论
为什么被折叠?



