from w3lib.html import remove_tags
def go_remove_(value):
# 移除标签
# content = remove_tags(value)
# 移除汉子
# content=re.sub(r'[\u4e00-\u9fa5]{1,}', '', value)
i = re.sub(r'<em>.*$', "", value)
i = re.sub(r'[\u4e00-\u9fa5]+', "", i)
i = re.sub(r'。.$', "", i)
i = re.sub(r'。.*', "", i)
# 移除空格 换行
return re.sub(r'[\t\r\n\s]', '', i)
def go_remove_tag(value):
# 移除标签
content = remove_tags(value)
# 移除空格 换行
return re.sub(r'[\t\r\n\s]', '', content)

本文介绍了一种使用正则表达式和Python库w3lib进行文本清理的方法,包括去除HTML标签、汉字、特定字符以及空白字符。
1258





