除了上篇所说的,通过设置数据库编码格式和修改连接数据库的方式,如果我们不大需要其中的emoj表情,我们也可以过滤掉文本中的emoj表情。
#3.过滤代码
import re
def emoj_fillter(src_string):
try:
highpoints = re.compile(u'[\U00010000-\U0010ffff]')
except re.error:
highpoints = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')
resovle_value = highpoints.sub(u'', src_string)
return resovle_value
总结:由于emoj表情的区间不止一个,所以过滤并不完全,可自行补充。
emoj代码示例 http://www.oicqzone.com/tool/emoji/