准备
豆瓣读书网址是:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=880&type=T

红色箭头标记的就是我们要获取的信息,我们有了目标信息,就能找到页面的源码,我们通过解析源码来获取信息数据,我们如何获取源码呢?这时可引入request来解决,实现代码如下:
import requests
resp = requests.get('https://book.douban.com/top250?start=0')
print(resp.text)
运行程序我们能就能得到HTML信息,问题来了,获取了HTML信息,怎样获取我们想要的目标信息呢?
打开浏览器,按键盘F12,从页面源码找到我们想要的目标信息,如图所示:

可以看到书名信息包含在class='info' h2标签里的a标签。发现目标位置后,我们可以利用BeautifulSoup来获得一个对象,按找标准的缩进显示的html代码:
#python环境中如果没有ba4和lxml,要先安装 pip install bs4 and pip install lxml
from bs4 import Beaut

本文介绍如何使用Python爬虫抓取豆瓣读书网站的数据。通过requests获取网页HTML源码,然后利用lxml解析器提取h2标签内的书名信息。详细介绍了爬取过程及关键代码。
最低0.47元/天 解锁文章
1505

被折叠的 条评论
为什么被折叠?



