《Python网络爬虫从入门到实践第2版》第17章爬虫实践四：畅销书籍

jxgy01

于 2021-07-07 16:35:28 发布

阅读量303

点赞数

分类专栏： Python网络爬虫从入门到实践第2版

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/jxgy01/article/details/118550815

版权

Python网络爬虫从入门到实践第2版专栏收录该内容

18 篇文章 ¥30.00 ¥99.00

订阅专栏

本文介绍了如何使用Python的Selenium和BeautifulSoup库爬取亚马逊中国网站的畅销书籍信息，包括图书销售榜、分类销售榜以及书籍评论，数据存储为CSV文件。首先，通过Selenium获取网页，限制加载图片和JavaScript以提高效率，接着提取图书标题、作者、星级、评论数等数据，最后获取图书评论。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第17章　爬虫实践四：畅销书籍

我们平时去在购买书籍之前，总喜欢看看畅销的书籍有哪些，别人的评价怎么样，再决定是否购买。亚马逊电商网站最早就是从卖书做起的，所以本章选择亚马逊作为案例来获取畅销书榜单的数据，以及相应的评论数据。

本章为爬取亚马逊数据的实践项目，所采用的技术包括：

·使用Selenium爬取网站

·使用BeautifulSoup解析网页

·数据存储至CSV文件

17.1　项目描述

本项目的目标是爬取亚马逊中国网站的书籍信息。首先使用Selenium获取网页的信息，然后使用BeautifulSoup解析网页中的数据，最终将数据存储至CSV文件中。

本项目的数据获取分为三步：

（1）获取亚马逊的总体图书销售榜。

（2）获取亚马逊图书各个分类的销售榜。

（3）进入每本书的网页，获取书籍的评论。

亚马逊中国图书销售榜的地址为https://www.amazon.cn/gp/bestsellers/books/ref=sv_b_3，如图17-1所示。

图17-1　亚马逊图书销售

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。