[python爬虫学习]1.爬取本地网页

本文介绍了使用Python基础语法和BeautifulSoup库进行网页爬取的方法。通过理解CSS选择器定位网页元素,提取所需信息,如标题和星星数量。重点在于分析网页结构,找出元素的通用CSS地址,实现批量提取数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

python基础语法,自动跳过,虽然看得也是很幸苦。
大体思路就是通过CSS样式的位置来定位到自己想要的信息。
首先介绍BeautifulSoup,这是一款神器,有了它,就可以解析一切网页(至少就我认知水准而言)。而它,则是把一个html解析成一个树状结构(打开网页源代码就能看到一条条层级分明的代码),,每个节点都是Python对象,所有对象可以归纳为4种: Tag , NavigableString , BeautifulSoup , Comment 。
这些具体就不解释了。

如何获取css地址呢?就是单击右键,点击检查,然后在某一个代码处点击Copy selector就可以获取css了。
比如,该网页中的文字标题:
这里写图片描述
它的地址是:body > div:nth-child(2) > div > div.col-md-9 > div:nth-child(2) > div:nth-child(1) > div > div.caption > h4:nth-child(2) > a
但是,这样select(美汤中的一个函数方法)的话,你只能锁定这一个标题,为了能找到所有的标题,我把一些具体信息去掉,得到了:div.caption > h4 > a。
这里最麻烦的是统计星星的数量:
关于星星的代码有两个:

stars=soup.select('div
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值