htmlparser vs sgmlparser 解析html的单个标签br img

本文通过一个实战案例展示了如何使用Python的HTMLParser来解析HTML文档。测试涵盖了各种HTML元素,包括单标签、属性及数据内容,并对比了其与SGMLParser的表现。

上一次发现了SGMLParser的bug,(见Python sgmlparser bug)于是就想到了利用HTMLParser,于是对其利用同样的HTML代码做了测试:

 

测试代码如下:

 

class postparser(HTMLParser):
    def __init__(self):
        HTMLParser.__init__(self)
        self.pieces=[]
        
    def handle_starttag(self, tag, attrs):
        print "start tag name: " + tag
        for k,v in attrs:
            print "\t"+k+" : "+v
            
    def handle_endtag(self,tag):
        print "end tag name:"+tag
    
    def handle_data(self,data):
        self.pieces.append(data)
    def gethtmltext(self):
        return "".join(self.pieces)
    
    def reset(self):
        HTMLParser.reset(self)
        
def testmyparser(htmldata):
    parser=postparser()
    parser.feed(htmldata)
    print parser.gethtmltext()
    parser.reset()
 
    if __name__=="__main__":
    #htmldata=urllib.urlopen("http://www.sogou.com").read().decode("gbk")
    htmldata="""<html><head>
    <title>Google Page</title>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
    <link rel="stylesheet" href="#" type="text/css">
    </head><body> 
    <table id="tab">
        <tr id="tr1"><td id="tr1td1">tr1 td1</td><td>tr1 td2</td><td>tr1 td3</td></tr>
        <tr id="tr2"><td id="tr2td1">tr2 td1</td><td>tr2 td2</td><td>tr2 td3</td></tr>
    </table>
    <br/>
    <p onmousemove="javascript:alert('>p<');"> this is a paragraph.</p>
    <img src="http://www.baidu.com/img/baidu_logo.gif" id="baidulogo" /><br/>
    <a href="http://baidu.com">baidu</a><br/>
    <b>bold font</b><br/>
    
    <script language="javascript">alert("hello, world ");</script>
    <style>#tab{background-color:#fcdad5;}</style>
    </body></html>
    """
    testmyparser(htmldata)

 

结果输出如下:

 

start tag name: html
start tag name: head
start tag name: title
end tag name:title
start tag name: meta
	http-equiv : Content-Type
	content : text/html; charset=utf-8
start tag name: link
	rel : stylesheet
	href : #
	type : text/css
end tag name:head
start tag name: body
start tag name: table
	id : tab
start tag name: tr
	id : tr1
start tag name: td
	id : tr1td1
end tag name:td
start tag name: td
end tag name:td
start tag name: td
end tag name:td
end tag name:tr
start tag name: tr
	id : tr2
start tag name: td
	id : tr2td1
end tag name:td
start tag name: td
end tag name:td
start tag name: td
end tag name:td
end tag name:tr
end tag name:table
start tag name: br
end tag name:br
start tag name: p
	onmousemove : javascript:alert('>p<');
end tag name:p
start tag name: img
	src : http://www.baidu.com/img/baidu_logo.gif
	id : baidulogo
end tag name:img
start tag name: br
end tag name:br
start tag name: a
	href : http://baidu.com
end tag name:a
start tag name: br
end tag name:br
start tag name: b
end tag name:b
start tag name: br
end tag name:br
start tag name: script
	language : javascript
end tag name:script
start tag name: style
end tag name:style
end tag name:body
end tag name:html

    Google Page
    
    
     
    
        tr1 td1tr1 td2tr1 td3
        tr2 td1tr2 td2tr2 td3
    
    
     this is a paragraph.
    
    baidu
    bold font
    
    alert("hello, world ");
    #tab{background-color:#fcdad5;}
    
    

 

从测试结果来看,比之于SGMLParser,解析的结果还是不错的,克服了不能解析单个标签的bug,而且onmousemove中的><也得到了正确的解析。

 

Matlab基于粒子群优化算法及鲁棒MPPT控制器提高光伏并网的效率内容概要:本文围绕Matlab在电力系统优化与控制领域的应用展开,重点介绍了基于粒子群优化算法(PSO)和鲁棒MPPT控制器提升光伏并网效率的技术方案。通过Matlab代码实现,结合智能优化算法与先进控制策略,对光伏发电系统的最大功率点跟踪进行优化,有效提高了系统在不同光照条件下的能量转换效率和并网稳定性。同时,文档还涵盖了多种电力系统应用场景,如微电网调度、储能配置、鲁棒控制等,展示了Matlab在科研复现与工程仿真中的强大能力。; 适合人群:具备一定电力系统基础知识和Matlab编程能力的高校研究生、科研人员及从事新能源系统开发的工程师;尤其适合关注光伏并网技术、智能优化算法应用与MPPT控制策略研究的专业人士。; 使用场景及目标:①利用粒子群算法优化光伏系统MPPT控制器参数,提升动态响应速度与稳态精度;②研究鲁棒控制策略在光伏并网系统中的抗干扰能力;③复现已发表的高水平论文(如EI、SCI)中的仿真案例,支撑科研项目与学术写作。; 阅读建议:建议结合文中提供的Matlab代码与Simulink模型进行实践操作,重点关注算法实现细节与系统参数设置,同时参考链接中的完整资源下载以获取更多复现实例,加深对优化算法与控制系统设计的理解。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值