Python2.7
&#数字 转成 utf-8
>>> from HTMLParser import HTMLParser
>>> print HTMLParser().unescape('中国')
中国
不能用if来判断:
HTMLParser().unescape('中国')=="中国"
这里HTMLParser().unescape('中国')不是utf-8,如果要比较可以用
HTMLParser().unescape('中国').encode('utf-8')=="中国"
unicode转成 utf-8
>>> cn = '\u4e2d\u56fd'
>>> print cn.decode('unicode-escape')
中国
>>> print cn.decode('unicode-escape').encode('utf-8')
中国
>>> a = cn.decode('unicode-escape')
>>> a
u'\u4e2d\u56fd'
>>> b = cn.decode('unicode-escape').encode('utf-8')
>>> b
'\xe4\xb8\xad\xe5\x9b\xbd'