Python中如何进行HTML特殊字符与Unicode代码的转换

在处理HTML内容的时候经常会遇到 1405; 816;、<、> 这样的怪字符,一般称为HTML特殊符号,而后面加一串数值,则是网页中Unicode的表示形式。

HTML特殊符号编码对照表

通过cgi模块中的escape函数可以将常见的特殊符号转换为HTML的表现形式,但要转换回来,cgi模块并没有提供unescape这样的函数。

在网上找到一篇介绍如何进行这种反向转换的文章:Escaping HTML

另外,如果得到的HTML代码中含有 1405; 816;这样的Unicode代码,可以使用unichr函数来进行转换:

ExpandedBlockStart.gif 代码
def  unescape_word(s):
    words 
=  re.findall( " (\d+); " , s)
    
if  words:
        result 
=  unicode(s,  " gb18030 " )
        u 
=  unicode()
        
for  word  in  map(int, words):
            h, l 
=  word  /   0x100 , word  %   0x100
            u 
=  unichr(l  *   0x100   +  h)
            result 
=  result.replace( " %s; "   %  word, u)
        result 
=  result.encode( " gb18030 " )
    
else :
        result 
=  s
    
return  result

 

 

转载于:https://www.cnblogs.com/ddgg/archive/2010/07/27/1786045.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值