四 开始爬取
1.首先分析淘宝排行榜的设置。在这里,商品被分为服饰,数码家电,化妆品,母婴,食品,文体,家具,车|玩具|宠物。而点开每个大类,又可以看到商品被分为很多小类。点开任意小类,往下拉就可以看到该类商品的排行信息,包括销售上升榜,销售热门榜等等。这里我只爬取销售热门榜的内容,所以继续点击销售热门榜的标签。可以看到在这里列出了该类前二十的商品。信息包括:排名,关键词,参考价,成交指数,升降位次。这里,我只爬取前四项内容,另外加上大类的分类id和小类的分类id。大类的id和小类的id可以从淘宝的url中看出:
https://top.taobao.com/index.php?spm=a1z5i.1.2.2.5KF9iq&topId=TR_FS&leafId=50010850
如上,topId=后面的就是大类的分类id,其他的大类id还有TR_SM,TR_HZP,TR_MY,TR_SP,TR_WT,TR_JJ,TR_ZH。小类id就来源自leafId=后面的数字,所以我定义的item.py中如