Python爬虫基础教程(48)Beautiful Soup爬虫解析器之使用bs4过滤器:别当“码农”当“数据整容师”!Beautiful Soup过滤器:从网页乱炖中精准“捞肉”的秘籍

嘿,爬虫爱好者们,有没有过这种经历?你兴冲冲地写了个爬虫,感觉自己是互联网的王者,能窃取,啊不,是“借鉴”全世界的数据。结果运行一看,好家伙,爬下来的东西五花八门,想要的文字藏在密密麻麻的HTML标签里,像一碗内容丰富的“乱炖”,你想吃的“肉”却怎么都夹不起来。

别慌!这不怪你,要怪就怪网页结构太复杂。这时候,你需要的不再是力气大的“搬运工”,而是心思缜密的“数据整容师”。而Beautiful Soup,就是你手术台上的首席专家。今天,我们不聊这位专家有多牛,我们专门聊聊它那双能“精准下刀”的巧手——过滤器(Filters)

一、术前准备:先搞个“实习模特”

任何手术都不能拿真人直接开刀,咱们先准备一个简单的HTML文档当“实习模特”:

html_doc = """
<html>
<head><title>一个充满“料”的测试网页</title></head>
<body>
    <p class="title"><b>欢迎来到我的小吃店</b></p>
    
    <div id="main-menu" class="menu">
        <ul id="fruits">
            <li class="fruit">苹果</li>
            <li class="fruit special">猕猴桃</li>
            <li class="fruit">香蕉</li>
        </ul>
        <ul id="vegetables">
            <li class="vege">胡萝卜</li>
            <li class="vege">西兰花</li>
        </ul>
    </div>
    
    <div class="intro">
        我们是< a href="http://example.com" class="link" id="link1">最好的店</a>,提供
        < a href="http://example.com/organic" class="link special" id="link2">有机食品</a>。
    </div>
</body>
</html>
"""

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser') # 请出我们的专家Beautiful Soup

好了,模特就位。现在,我们要开始学习怎么给它“动刀”了。Beautiful Soup的过滤器,就是你在调用 find()

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

值引力

持续创作,多谢支持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值