python爬虫利用正则提取指定网页信息

本文介绍了如何运用Python正则表达式从复杂的HTML代码中提取所需信息,通过实例展示了正则表达式的应用,成功提取出网页中的歌曲名称,并强调了正则学习的挑战与重要性,鼓励读者通过不断练习提升爬虫技能。

今天练习了一下正则表达式,从结构比较复杂的html代码中,提取出想要的信息

html = '''
    <div id="songs-list">
    <h2 class="title">流行金曲</h2>
    <p class = "introduction">经典歌曲列表</p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君"><i class="fa fa-user"></i>但愿人长久</a>
        </li>
    </ul>
</div>    
'''

代码虽然不多,但是里面嵌套关系相对复杂,很具有代表性,所以拿出来与大家分享一下。同时也为自己在爬虫的路上,留下一些笔记,以供日

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值