Python 抓取好利来甜品信息并下载封面图片

最新推荐文章于 2025-04-11 17:56:41 发布

库库林_沙琪马

最新推荐文章于 2025-04-11 17:56:41 发布

阅读量302

点赞数 2

分类专栏：爬虫文章标签： python 开发语言

本文链接：https://blog.youkuaiyun.com/iku_n/article/details/141094951

版权

爬虫专栏收录该内容

6 篇文章

订阅专栏

文章概述

本文将介绍如何使用 Python 抓取好利来甜品的商品信息，并将这些信息保存到 CSV 文件中，同时还会下载每款甜品的封面图片到指定文件夹。我们将使用 requests 库来进行 HTTP 请求，使用 csv 库来写入 CSV 文件，并使用 os 库来处理文件和目录。

准备工作

在开始之前，请确保安装了以下 Python 库：

requests：用于发送 HTTP 请求。
csv：用于处理 CSV 文件。
os：用于文件和目录操作。

可以通过 pip 安装所需的库：

pip install requests

代码实现

import csv
import json
import os
import requests

# 初始化全局变量
list_url_id = []
id = 1  # 商品ID
type_id = 1  # 甜品类型ID

# 创建封面的目录
# 使用 os.makedirs 而不是 os.mkdir 来避免错误
try:
    os.makedirs('好利来封面', exist_ok=True)
except Exception as e:
    print(f"目录创建失败: {e}")

# 标题头
list_mulu = ['id', '商品名', '甜品价格', '甜品口味', '甜品规格', '保质期', '储蓄方式', '甜品类型id']

# 写入 CSV 文件
with open('好利友.csv', 'w', encoding="gb18030", newline="") as fp:
    csv_writer = csv.writer(fp)
    csv_writer.writerow(list_mulu)

# 定义请求头部
headers = {
    'Server': 'nginx/1.21.4',
    'Date': 'Fri, 09 Jun 2023 03:39:16 GMT',
    'Content-Type': 'text/html',
    'Last-Modified': 'Sat, 03 Jun 2023 08:10:37 GMT',
    'Transfer-Encoding': 'chunked',
    'Connection': 'keep-alive',
    'Vary': 'Accept-Encoding',
    'ETag': 'W/"647af57d-179d"',
    'via': '29f5b82c2e13',
    'Content-Encoding': 'gzip'
}

# 定义获取商品列表的函数
def List_url(i):
    data = {'platform': "pc", 'ver': "20211210", 'type_id': f"{i}", 'data_count': 0, 'word': ""}
    data2 = {'platform': "pc", 'ver': "20211210", 'type_id': f"{i}", 'data_count': 30, 'word': "", 'isNextPage': 'true'}
    
    reps = requests.post('https://api-mini-holiland.1900m.com/PcMallGoods/getGoodsList', data=data)
    reps.encoding = 'utf-8'
    pdaw = json.loads(reps.text)
    
    reps2 = requests.post('https://api-mini-holiland.1900m.com/PcMallGoods/getGoodsList', data=data2)
    reps2.encoding = 'utf-8'
    pdaw2 = json.loads(reps2.text)
    
    list_pdaw = pdaw['data']['list'] + pdaw2['data']['list']
    return list_pdaw

# 定义解析和下载数据的函数
def Analysis_and_download(list_pdaw):
    global id
    global type_id
    
    for pda in list_pdaw:
        if pda['goods_id'] in list_url_id:
            continue
        list_url_id.append(pda['goods_id'])
        
        data2 = {
            'consignee_adcode': 411302001000,
            'goods_id': pda['goods_id'],
            'outlets_id': '3',
            'platform': "pc",
            'ver': "20211210"
        }
        
        reps2 = requests.post('https://api-mini-holiland.1900m.com/MallGoods/detail', data=data2)
        json_reps = json.loads(reps2.text)['data']
        
        name = json_reps['name']
        url_cover = json_reps['cover_url']
        How_to_save = json_reps['storage_mode'] or '暂无'
        Expiration_date = json_reps['expiration_date'] or '暂无'
        flavor_name = json_reps['sku'][0]['flavor_name']
        Price = json_reps['sku'][0]['specification_list'][0]['price']
        Proposal = json_reps['sku'][0]['specification_list'][0].get('proposal', '')
        daxiao = json_reps['sku'][0]['specification_list'][0]['specification_name']
        guige = f'{daxiao}({Proposal})' or '暂无'
        
        # 下载封面
        with open(f'好利来封面/{id}.jpg', 'wb') as fp:
            fp.write(requests.get(url_cover).content)
        
        # 写入 CSV 文件
        with open('好利友.csv', 'a', encoding="gb18030", newline="") as fp:
            csv_writer = csv.writer(fp)
            csv_writer.writerow([id, name, Price, flavor_name, guige, Expiration_date, How_to_save, type_id])
        
        id += 1
        print(f"{name} 数据存储完成!")
    
    type_id += 1

# 主程序
for i in range(3, 13):
    Analysis_and_download(List_url(i))

print("所有数据抓取完成！")