电商数据采集 API 接口：全流程采集与分析指南（附实战代码）

最新推荐文章于 2025-12-11 09:57:00 发布

原创最新推荐文章于 2025-12-11 09:57:00 发布 · 671 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #人工智能 #前端 #python #数据库 #开发语言

电商API接口同时被 3 个专栏收录

58 篇文章

订阅专栏

数据接口

36 篇文章

订阅专栏

API

14 篇文章

订阅专栏

电商数据采集 API 接口是合规、高效获取电商平台数据的核心通道，相比传统爬虫，API 接口具备数据结构化程度高、稳定性强、维护成本低的优势，且能规避大部分反爬与法律风险。本文将从API 选型→接入流程→采集实战→数据分析全链路拆解，结合主流平台 API（京东万象、淘宝开放平台）和第三方聚合 API，提供可落地的技术方案与商业洞察方法。

一、电商数据采集 API 的核心类型与选型

电商数据 API 主要分为三类，需根据业务需求和成本选择，具体对比如下：

API 类型	典型来源	核心优势	适用场景	局限性
平台官方开放 API	京东万象、淘宝开放平台、亚马逊 SP-API	数据权威、合规性最高、字段完整	企业级竞品分析、店铺自运营数据监控	需企业资质、部分接口付费、调用有频率限制
第三方商业聚合 API	阿里云市场、聚合数据、APISpace	接入简单、多平台数据整合、无需资质	中小团队 / 个人调研、多平台比价	数据更新延迟、部分接口费用高、字段有限
自建 API	自研爬虫 + API 封装（FastAPI/Flask）	定制化程度高、适配小众数据源	无公开 API 的垂直类目 / 小众平台采集	需维护爬虫、存在反爬风险、合规成本高

选型建议

优先选官方 API：若有企业资质，京东万象（商品 / 评论数据）、淘宝开放平台（店铺运营数据）是首选，数据可信度和合规性无争议；
中小团队选第三方 API：阿里云市场的 “电商商品比价 API”“评论情感分析 API” 可快速上手，无需搭建复杂系统；
小众数据源选自建 API：针对无公开 API 的垂类平台（如小众跨境电商），可通过爬虫抓取数据后封装为内部 API。

二、电商 API 数据采集核心流程（以京东万象 API 为例）

1. 前期准备：API 接入与授权

步骤 1：注册与申请 API

访问京东万象开放平台，注册企业 / 个人账号；
进入 “API 市场”，选择目标接口（如 “商品详情查询 API”“商品评论 API”）；
申请接口调用权限，获取API Key和Secret（接口认证核心凭证）。

步骤 2：查看接口文档（关键）

以京东 “商品详情查询 API” 为例，需确认以下核心信息：

接口 Endpoint：https://way.jd.com/jisuapi/getGoodsDetail
请求方法：GET
请求参数：appkey（API Key）、skuId（商品 ID）、platform（平台标识，如 jd）
响应格式：JSON（包含商品名称、价格、销量、店铺信息等字段）
调用限制：免费版 QPS=1（每秒 1 次），付费版 QPS=10

2. 实战：Python 调用京东万象 API 采集数据

环境准备

bash

运行

pip install requests pandas pymysql  # 基础依赖

示例 1：采集商品基础信息

python

运行

import requests
import pandas as pd
import json
from datetime import datetime

# 1. API配置
API_KEY = "你的京东万象API Key"  # 替换为实际Key
API_URL = "https://way.jd.com/jisuapi/getGoodsDetail"
TARGET_SKUS = ["100123456789", "100987654321"]  # 目标商品ID列表

def get_product_detail(sku_id):
    """调用API获取单商品详情"""
    params = {
        "appkey": API_KEY,
        "skuId": sku_id,
        "platform": "jd",
        "format": "json"
    }
    try:
        response = requests.get(API_URL, params=params, timeout=10)
        response.raise_for_status()  # 抛出HTTP错误
        result = response.json()
        
        # 解析核心字段（根据API响应格式提取）
        if result["code"] == "10000":
            data = result["result"]["data"]
            return {
                "sku_id": sku_id,
                "product_name": data["name"],
                "price": float(data["price"]),
                "original_price": float(data["originalPrice"]),
                "sales": int(data["salesCount"]),
                "shop_name": data["shopName"],
                "category": data["categoryName"],
                "crawl_time": datetime.now()
            }
        else:
            print(f"API调用失败：{result['msg']}")
            return None
    except Exception as e:
        print(f"请求异常（SKU：{sku_id}）：{e}")
        return None

# 2. 批量采集商品数据
product_list = []
for sku in TARGET_SKUS:
    detail = get_product_detail(sku)
    if detail:
        product_list.append(detail)
        # 控制调用频率（避免触发QPS限制）
        import time
        time.sleep(1)

# 3. 转换为DataFrame，便于后续分析
product_df = pd.DataFrame(product_list)
print("采集的商品数据：")
print(product_df[["sku_id", "product_name", "price", "sales"]])

示例 2：采集商品评论数据（京东评论 API）

python

运行

def get_product_comments(sku_id, page=1, page_size=20):
    """调用API获取商品评论"""
    comment_api_url = "https://way.jd.com/jisuapi/getGoodsComment"
    params = {
        "appkey": API_KEY,
        "skuId": sku_id,
        "platform": "jd",
        "page": page,
        "pagesize": page_size,
        "format": "json"
    }
    try:
        response = requests.get(comment_api_url, params=params, timeout=10)
        result = response.json()
        if result["code"] == "10000":
            comments = result["result"]["data"]["comments"]
            comment_list = []
            for c in comments:
                comment_list.append({
                    "sku_id": sku_id,
                    "comment_id": c["id"],
                    "user_name": c["nickname"],
                    "score": int(c["score"]),
                    "content": c["content"],
                    "comment_time": datetime.strptime(c["time"], "%Y-%m-%d %H:%M:%S"),
                    "crawl_time": datetime.now()
                })
            return comment_list
        else:
            return []
    except Exception as e:
        print(f"评论采集失败（SKU：{sku_id}）：{e}")
        return []

# 批量采集2个商品的前2页评论
comment_list = []
for sku in TARGET_SKUS:
    for page in [1, 2]:
        comments = get_product_comments(sku, page=page)
        comment_list.extend(comments)
        time.sleep(1)

# 转换为DataFrame
comment_df = pd.DataFrame(comment_list)
print(f"\n采集到{len(comment_df)}条评论，示例：")
print(comment_df[["user_name", "score", "content"]].head())

3. 数据存储：结构化入库（MySQL）

API 采集的数据需持久化存储，便于长期分析和监控，以下为 MySQL 存储示例：

python

运行

import pymysql

# 1. 连接数据库（需提前创建数据库ecommerce_api_data）
db = pymysql.connect(
    host="localhost",
    user="root",
    password="你的数据库密码",
    database="ecommerce_api_data",
    charset="utf8mb4"
)
cursor = db.cursor()

# 2. 创建商品表（提前建表）
def create_product_table():
    sql = """
    CREATE TABLE IF NOT EXISTS api_products (
        id INT AUTO_INCREMENT PRIMARY KEY,
        sku_id VARCHAR(20) UNIQUE NOT NULL,
        product_name VARCHAR(255) NOT NULL,
        price DECIMAL(10,2),
        original_price DECIMAL(10,2),
        sales INT,
        shop_name VARCHAR(100),
        category VARCHAR(50),
        crawl_time DATETIME
    )
    """
    cursor.execute(sql)
    db.commit()

# 3. 插入商品数据
create_product_table()
for _, row in product_df.iterrows():
    sql = """
    INSERT INTO api_products (sku_id, product_name, price, original_price, sales, shop_name, category, crawl_time)
    VALUES (%s, %s, %s, %s, %s, %s, %s, %s)
    ON DUPLICATE KEY UPDATE price=%s, sales=%s
    """
    params = (
        row["sku_id"], row["product_name"], row["price"], row["original_price"],
        row["sales"], row["shop_name"], row["category"], row["crawl_time"],
        row["price"], row["sales"]
    )
    cursor.execute(sql, params)
db.commit()
print("商品数据已存入MySQL")

三、基于 API 数据的电商分析实战

API 采集的结构化数据可直接用于多维度商业分析，以下为核心分析场景及代码实现：

1. 商品价格与销量分析（选品 / 定价决策）

python

运行

import matplotlib.pyplot as plt
plt.rcParams["font.sans-serif"] = ["SimHei"]  # 解决中文显示
plt.rcParams["axes.unicode_minus"] = False

# 1. 价格区间分布（判断主流价格带）
product_df["price_range"] = pd.cut(
    product_df["price"],
    bins=[0, 3000, 5000, 8000, float("inf")],
    labels=["0-3000元", "3000-5000元", "5000-8000元", "8000元以上"]
)
price_range_count = product_df["price_range"].value_counts()

# 可视化价格分布
plt.figure(figsize=(8, 6))
price_range_count.plot(kind="pie", autopct="%1.1f%%", colors=["#ff9999", "#66b3ff", "#99ff99", "#ffcc99"])
plt.title("商品价格区间分布")
plt.ylabel("")
plt.show()

# 2. 销量与价格相关性（判断定价对销量的影响）
plt.figure(figsize=(8, 6))
plt.scatter(product_df["price"], product_df["sales"], color="orange", alpha=0.7)
plt.title("商品价格与销量相关性")
plt.xlabel("价格（元）")
plt.ylabel("销量（件）")
plt.grid(alpha=0.3)
plt.show()

# 计算相关系数
corr = product_df["price"].corr(product_df["sales"])
print(f"价格与销量相关系数：{corr:.3f}")  # 负值表示价格越低销量越高（需结合品类判断）

2. 评论情感分析（用户痛点 / 亮点挖掘）

python

运行

# 1. 情感标签化（按评分划分）
comment_df["sentiment"] = comment_df["score"].apply(
    lambda x: "正面" if x >=4 else ("负面" if x <=2 else "中性")
)
sentiment_count = comment_df["sentiment"].value_counts()

# 2. 情感分布可视化
plt.figure(figsize=(8, 6))
sentiment_count.plot(kind="bar", color=["green", "gray", "red"])
plt.title("商品评论情感分布")
plt.xlabel("情感类型")
plt.ylabel("评论数量")
plt.xticks(rotation=0)
plt.grid(axis="y", alpha=0.3)
plt.show()

# 3. 负面评论关键词提取（用户痛点）
import jieba
from collections import Counter

# 读取停用词（需提前准备stopwords.txt）
with open("stopwords.txt", "r", encoding="utf-8") as f:
    stopwords = set(f.read().split())

# 提取负面评论内容
negative_content = comment_df[comment_df["sentiment"] == "负面"]["content"].str.cat(sep=" ")
negative_words = jieba.lcut(negative_content)
# 过滤停用词和无意义词汇
negative_words = [w for w in negative_words if len(w) >1 and w not in stopwords]
top20_negative = Counter(negative_words).most_common(20)

# 可视化负面关键词
words, counts = zip(*top20_negative)
plt.figure(figsize=(12, 6))
plt.bar(words, counts, color="#ff6666")
plt.title("负面评论TOP20关键词（用户痛点）")
plt.xlabel("关键词")
plt.ylabel("出现次数")
plt.xticks(rotation=45)
plt.grid(axis="y", alpha=0.3)
plt.show()

3. 竞品店铺对比分析（多商品维度）

python

运行

# 假设采集了多个店铺的商品，对比店铺的均价和销量
shop_analysis = product_df.groupby("shop_name").agg(
    商品数量=("sku_id", "count"),
    均价=("price", "mean"),
    总销量=("sales", "sum"),
    最高销量=("sales", "max")
).round(2)

print("店铺竞品分析：")
print(shop_analysis)

# 可视化店铺总销量对比
plt.figure(figsize=(10, 6))
shop_analysis["总销量"].plot(kind="bar", color="skyblue")
plt.title("各店铺总销量对比")
plt.xlabel("店铺名称")
plt.ylabel("总销量（件）")
plt.xticks(rotation=45)
plt.grid(axis="y", alpha=0.3)
plt.show()