Python爬虫实战：采集淘宝商品信息并导入EXCEL表格！

最新推荐文章于 2022-06-15 17:11:29 发布

原创

最新推荐文章于 2022-06-15 17:11:29 发布 · 1.8k 阅读

6 ·

CC 4.0 BY-SA版权

本文介绍了如何使用Python的requests库和re正则表达式爬取淘宝商品的名称、价格、产地和销量信息，并通过xlsxwriter库将数据保存到Excel表格。首先解析URL获取商品名，然后分析网页源码提取所需信息，接着定义获取HTML、构造URL和提取信息的函数，最后编写主函数实现爬虫并展示完整代码。

文章目录

前言

一、解析淘宝URL组成
二、查看网页源码并用re库提取信息
1.查看源码2.re库提取信息
三：函数填写
四：主函数填写
五：完整代码

前言

本文简单使用python的requests库及re正则表达式对淘宝的商品信息(商品名称，商品价格，生产地区，以及销售额)进行了爬取，并最后用xlsxwriter库将信息放入Excel表格。最后的效果图如下：

提示：以下是本篇文章正文内容

一、解析淘宝URL组成

1.我们的第一个需求就是要输入商品名字返回对应的信息

所以我们这里随便选一个商品来观察它的URL，这里我们选择的是书包，打开网页，可知他的URL为：

https://s.taobao.com/search?q=%E4%B9%A6%E5%8C%85&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306

可能单单从这个url里我们看不出什么，但是我们可以从图中看出一些端倪

我们发现q后面的参数就是我们要获取的物品的名字

2.我们第二个需求就是根据输入的数字来爬取商品的页码

所以我们来观察一下后面几页URL的组成

由此我们可以得出分页的依据是最后s的值=(44(页数-1))

二、查看网页源码并用re库提取信息

1.查看源码

这里的几个信息都是我们所需要的

2.re库提取信息

a = re.findall(r'"raw_title":"(.*?)"', html) 
   b = re.findall(r'"view_price":"(.*?)"', html) 
   c = re.findall(r'"item_loc":"(.*?)"', html) 
   d = re.findall(r'"view_sales":"(.*?)"', html)

三：函数填写

这里我写了三个函数，第一个函数来获取html网页，代码如下：

def GetHtml(url): 
    r = requests.get(url,headers =headers) 
    r.raise_for_status() 
    r.encoding = r.apparent_encoding 
    return r

第二个用于获取网页的URL代码如下：

def Geturls(q, x): 
    url = "https://s.taobao.com/search?q=" + q + "&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm" \ 
                                     &nbs