文本过滤
result = re.sub(r'[^\u4e00-\u9fa5,。?!,、;:“ ”‘ ’( )《 》〈 〉]', "", content)#只保留中文和标点
result = re.sub(r'[^\u4e00-\u9fa5]', "",content)#只保留中文
result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ ’( )《 》〈 〉]', "", content)#只保留中文和标点和数字
result = re.sub(r'[^\u4e00-\u9fa5,A-Za-z0-9]', "",content)#只保留中文、英文和数字
文本去除两个以上空格
content=re.sub(r'\s{2,}', '', content)
bas4编码变成中文
def bas4_decode(bas