[python爬虫学习]1.爬取本地网页

最新推荐文章于 2023-10-27 09:30:00 发布

personaaaa

最新推荐文章于 2023-10-27 09:30:00 发布

阅读量920

点赞数

CC 4.0 BY-SA版权

分类专栏：网络爬虫文章标签： python 爬虫

本文链接：https://blog.youkuaiyun.com/grfcj/article/details/78108725

本文介绍了使用Python基础语法和BeautifulSoup库进行网页爬取的方法。通过理解CSS选择器定位网页元素，提取所需信息，如标题和星星数量。重点在于分析网页结构，找出元素的通用CSS地址，实现批量提取数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

python基础语法，自动跳过，虽然看得也是很幸苦。
大体思路就是通过CSS样式的位置来定位到自己想要的信息。
首先介绍BeautifulSoup，这是一款神器，有了它，就可以解析一切网页（至少就我认知水准而言）。而它，则是把一个html解析成一个树状结构（打开网页源代码就能看到一条条层级分明的代码），,每个节点都是Python对象,所有对象可以归纳为4种: Tag , NavigableString , BeautifulSoup , Comment 。
这些具体就不解释了。

如何获取css地址呢？就是单击右键，点击检查，然后在某一个代码处点击Copy selector就可以获取css了。
比如，该网页中的文字标题：
这里写图片描述
它的地址是：body > div:nth-child(2) > div > div.col-md-9 > div:nth-child(2) > div:nth-child(1) > div > div.caption > h4:nth-child(2) > a
但是，这样select（美汤中的一个函数方法）的话，你只能锁定这一个标题，为了能找到所有的标题，我把一些具体信息去掉，得到了：div.caption > h4 > a。
这里最麻烦的是统计星星的数量：
关于星星的代码有两个：