经过十几万网页采集测试,有效率99.99%
def pick_charset(html):
"""
从文本中提取 meta charset
:param html:
:return:
"""
charset = None
m = re.compile('<meta .*(http-equiv="?Content-Type"?.*)?charset="?([a-zA-Z0-9_-]+)"?', re.I).search(html)
if m and m.lastindex == 2:
charset = m.group(2).lower()
return charset
注意引入 re,如果有更好的方法欢迎联系 coconets@163.com
本文介绍了一种通过正则表达式从HTML源代码中高效提取字符集声明的方法。该方法经过大量网页测试,准确率达到99.99%。适用于需要解析不同编码网页的应用场景。
7174





