来啦,老弟

我们已经知道怎么使用
Requests]
进行各种请求骚操作
也知道了对服务器返回的数据如何使用
正则表达式
来过滤我们想要的内容
那么接下来
我们就使用 requests 和 re 来写一个爬虫
作为一个爱看书的你(说的跟真的似的)

怎么能发现好书呢?
所以我们
爬取当当网的前 **500 **本好五星评书籍
怎么样?

ok
接下来就是
学习 python 的正确姿势
请在电脑的陪同下
边看本文边练习
首先我们要对我们的目标网站进行分析
先摸清对方的底
我们才能战无不胜
如果你依然在编程的世界里迷茫,可以加入我们的Python学习扣qun:784758214,看看前辈们是如何学习的。交流经验。从基础的python脚本到web开发、爬虫、django、数据挖掘等,零基础到项目实战的资料都有整理。送给每一位python的小伙伴!分享一些学习的方法和需要注意的小细节,点击加入我们的 python学习者聚集地
打开这个书籍排行榜的地址
http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-1
我们可以看到是这样的一个网页

每一页显示 20 本书
当我们点击下一页的时候
你可以发现地址变了

本文介绍了如何使用Python的requests和re库爬取当当网上的前500本五星好评书籍,包括书籍的排名、书名、图片地址、作者、推荐指数、五星评分次数和价格。通过分析网页结构,利用正则表达式提取关键信息,并将数据保存到文件中。
最低0.47元/天 解锁文章
526

被折叠的 条评论
为什么被折叠?



