2021-03-25

最新推荐文章于 2025-12-18 08:31:44 发布

原创最新推荐文章于 2025-12-18 08:31:44 发布 · 100 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python

在这里插入图片描述
不得不说，百度教学真的简洁明了。

看了百度的爬青春有你2的参赛人员信息，虽然过去了好久，但爬虫没变，用request，beautifulsoup来爬。在百度自带的ai studio，可以很方便地搞事情。哈哈哈哈哈

在咱们平台也学习了不少大佬的文章。
这个比较幽默一点。

这个爬的链接贼好。

总的来说，就是先选好要爬的网站，引入request，beautiful库，

requests是python实现的简单易用的HTTP库，官网地址：http://cn.python-requests.org/zh_CN/latest/
requests.get(url)可以发送一个http get请求，返回服务器响应内容。

BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库。网址：https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/
BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml。

BeautifulSoup(markup, “html.parser”)或者BeautifulSoup(markup, “lxml”)，推荐使用lxml作为解析器,因为效率更高。

利用他们，先爬回页面数据，对爬取的页面进行解析，然后下载。

还是没学太明白。
感觉要好好学一下这一块，找到了不少学习资料，决定先将这七天搞完，去看看崔大神的python3爬虫
https://cuiqingcai.com/5052.html