在用python的re正则处理html时,如果确定写对,但就是没有内容,这种情况可能是因为字符串里的换行符,包括'\n'、'\r'、'\t'和' '。因此,先把换行符处理一下。看到很多使用strip()函数做for循环的,其实python内置的replace就行了
content = content.replace('\r','').replace('\n','').replace('\t','')
如果提示list index out of range ,则需要在正则后面加个[0]
recontent = re.findall('<nav>(.*?)</nav>',content)[0]
本文介绍使用Python正则表达式处理HTML时遇到的问题及解决方法。重点在于如何正确处理字符串中的换行符,避免出现内容丢失的情况。此外,文章还提供了一个简单的示例来展示如何获取特定HTML标签内的内容。
7494

被折叠的 条评论
为什么被折叠?



