python3 提取网页数据

最新推荐文章于 2021-10-10 08:46:28 发布

原创最新推荐文章于 2021-10-10 08:46:28 发布 · 3.5k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #class #div #javascript #html #button

本文介绍了一种使用正则表达式从HTML中提取特定数据的方法。通过简单的实例演示了如何快速定位并抓取所需的文本信息，如单词定义及例句等。

最近一直着魔于怎么提取网页数据，找了好多工具比如BeautifulSoup，html5lib等，功能很强大，觉得太麻烦，自己想试着用正则来提取，因为以前PHP用正则提取过没成功，而且simple_html_dom非常好用，也就没去管了，刚才试了下用正则感觉相当方便，写了几句简单的程序就可以完成一些功能了，有时间完成一个好的专门提取数据，不要什么结构树之类那么复杂的东西

html = '''<html xmlns="http://www.w3.org/1999/xhtml" lang="gbk" xml:lang="gbk"> <head> <title>happy 的查词结果 - Dict.CN 海词在线</title> </head> <body><div style="padding-top:10px;text-align:center;" mce_style="padding-top:10px;text-align:center;"> <a title="海词,在线词典,在线翻译" href="/" mce_href="" target="_blank"><img alt="dict.cn" src="/img/sdict.gif" mce_src="img/sdict.gif"/></a></div> <div style="padding-top:10px;text-align:center;" mce_style="padding-top:10px;text-align:center;"><form name="f" id="f" onsubmit="" action="/compact.php"> <input type="text" accesskey="c" onfocus="this.select()" size="28" onmouseover="this.focus()" name="q" id="q" value=/'happy/' /><input type="submit" value="查询" /><input type="button" onclick="javascript:window.close();" value="关闭" /> </form></div> <div class="exp"> <table><tr> <td valign=/'middle/'> <h1>happy</h1> </td> <td valign=/'middle/'> <span class="pronounce">[/'hæpi]</span> <mce:script language=/'javascript/'></mce:script> <a href="/" mce_href="/"'http://dict.cn/scb/?word=happy/' target=/'_blank/' title=/'添加 happy 到我的生词本/'><img src="/" mce_src="/"'/imgs/jisc.gif/' alt=/'生词本/' /></a></td> </tr></table> <div class="mut_jies"><strong>adj. 快乐的，幸福的</strong></div> <div> <h3>例句与用法:</h3> <ol class="mut_ol"> <li>I wish you a very <span class="mut_lvs">happy</span> future. <mce:script language=/'javascript/' type=/'text/javascript/'></mce:script> <div>我祝你有非常幸福的未来。</div> </li> <li>That wasn/'t a very <span class="mut_lvs">happy</span> choice of words. <mce:script language=/'javascript/' type=/'text/javascript/'></mce:script> <div>那样的措辞并不十分恰当</div> </li> <li>He is in the <span class="mut_lvs">happy</span> position of never having to worry about money. <mce:script language=/'javascript/' type=/'text/javascript/'></mce:script> <div>他真有福气，从来不需要为金钱之事操心。</div> </li> <li>I wish you a <span class="mut_lvs">happy</span> birthday. <mce:script language=/'javascript/' type=/'text/javascript/'></mce:script> <div>祝你生日快乐。</div> </li> <li>That was not a very <span class="mut_lvs">happy</span> remark. <mce:script language=/'javascript/' type=/'text/javascript/'></mce:script> <div>那不是很恰当的话。</div> </li> </ol></div> <div class="jiaru_s"><a href="http://dict.cn/scb/?word=happy/')" mce_href="http://dict.cn/scb/?word=happy/')" target=/'_blank/' title=/'添加 happy 到我的生词本/'><img src="/" mce_src="/"'/imgs/jisc.gif/' alt=/'添加生词/' /></a></div><center><a href="javascript:window.close()" mce_href="javascript:window.close()">[关闭窗口]</a></center> </div> <div id="bottom"> <div class="inner"> <a href="/foot/contact.htm" mce_href="foot/contact.htm">联系我们</a> -<a href="/foot/about.htm" mce_href="foot/about.htm">关于我们</a> -<a href="/foot/privacy.htm" mce_href="foot/privacy.htm">隐私保护</a> -<a href="/foot/feature.htm" mce_href="foot/feature.htm">特色功能</a> -<a href="/foot/help.htm" mce_href="foot/help.htm">工具使用</a> -<a href="/news/9.htm" mce_href="news/9.htm">诚聘英才</a> <div>©2003-2010 <a href="#" mce_href="#">海词词典</a> (Dict.CN) - 自 2003 年 11 月 27 日开始服务</div> </div> </div> </body> </html>''' class ParserHTML(): def __init__(self,value): self.value = value def __getattr__(self, name): print( name ) regx = re.compile(r'<' + name + r'.*?>.*</' + name + r'>') return re.findall(regx, self.value) reg = ParserHTML(html) print( reg.li )

OY，努力，加油！