爬取当当网的图书信息之工作流程介绍

本文介绍如何从当当网抓取计算机类图书信息,包括获取种子URL、抓取图书详情页及其相关信息如价格、作者等。

前往http://book.dangdang.com/我们可以看到当当网上面的图书种类非常丰富

 

我们是计算机类图书为例子,那么计算机类图书页面的URL  http://book.dangdang.com/01.54.htm?ref=book-01-A是我们的种子URL

当我们进入这个页面可以看到很多计算机类图书,什么都别说了,都抓取下来,然后在进入子品类页面继续抓取信息,我们以程序涉及品类为例

 

进来之后我们可以看到大量的图书,而且在页面上方我们可以看到100页,可不止这么一点还有99页没有显示出来,我们把这些图书的URL全部抓取下来。我们以《C++ primer plus》为例

这个页面有大量的图书信息,包含图书的价格,图书的作者,出版社等信息,这都是我们需要的信息,都可以抽取出来。

总结

  给程序一个图书大类的URL,程序下载这个页面之后发现大量的图书小种类的URL,爬虫去下载小种类图书的信息后,发现页面有很多图书的URL,进入图书的URL可以抓取图书的相关信息

转载于:https://www.cnblogs.com/zuin/p/6105813.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值