构建弹性数据管道：利用淘宝商品 API 进行流式数据采集与处理

基于淘宝API的流式数据管道

最新推荐文章于 2025-12-04 20:38:51 发布

原创

最新推荐文章于 2025-12-04 20:38:51 发布 · 558 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#windows #数据库 #linux

在当今数据驱动的商业环境中，实时获取和分析电商平台数据对于企业决策至关重要。本文将详细介绍如何构建一个弹性的数据管道，利用淘宝商品 API 进行流式数据采集与处理，帮助企业快速响应市场变化，获取竞争优势。

数据管道架构设计

一个弹性的数据管道应具备以下几个核心组件构成：

数据采集层：负责从淘宝商品 API 获取数据
数据处理层：对原始数据进行清洗、转换和 enrichment
数据存储层：存储处理后的数据，支持快速查询
监控与告警：确保整个管道的稳定运行

淘宝商品 API 接入准备

在开始之前，需要完成认证获取 API 调用所需的 Api Key 和 Api Secret。淘宝商品相关的主要 API 包括：

商品搜索 API：根据关键词搜索商品
商品详情 API：获取商品详细信息
商品评价 API：获取商品评价数据

流式数据采集实现

以下是使用 Python 实现的流式数据采集组件，采用异步方式提高采集效率，并实现了简单的限流和重试机制：

import asyncio
import aiohttp
import time
import hmac
import hashlib
import base64
import json
from datetime import datetime
from typing import List, Dict, Optional
import logging

# 配置日志
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(name)s - %(levelname)s - %(message)s'
)
logger = logging.getLogger('taobao-collector')

class TaobaoAPIClient:
    """淘宝开放平台API客户端"""
    
    def __init__(self, app_key: str, app_secret: str, timeout: int = 10):
        self.app_key = app_key
        self.app_secret = app_secret
        self.timeout = timeout
        self.base_url = "https://eco.taobao.com/router/rest"
        # 限流控制
        self.rate_limit = 10  # 每秒最多请求数
        self.last_request_time = 0
        self.request_interval = 1.0 / self.rate_limit
        
    def _generate_signature(self, params: Dict[str, str]) -> str:
        """生成API请求签名"""
        sorted_params = sorted(params.items())
        sign_str = self.app_secret + ''.join([f"{k}{v}" for k, v in sorted_params]) + self.app_secret
        return hmac.new(sign_str.encode(), digestmod=hashlib.md5).hexdigest().upper()
    
    async def _request(self, method: str, params: Dict[str, str]) -> Optional[Dict]:
        """发送API请求"""
        # 限流控制
        current_time = time.time()
        elapsed = current_time - self.last_request_time
        if elapsed < self.request_interval:
            await asyncio.sleep(self.request_interval - elapsed)
        
        # 构建公共参数
        common_params = {
            "app_key": self.app_key,
            "format": "json",
            "method": method,
            "timestamp": datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
            "v": "2.0",
            "sign_method": "md5"
        }
        
        # 合并参数
        all_params = {**common_params,** params}
        # 生成签名
        all_params["sign"] = self._generate_signature(all_params)
        
        try:
            async with aiohttp.ClientSession() as session:
                async with session.get(
                    self.base_url, 
                    params=all_params,
                    timeout=self.timeout
                ) as response:
                    self.last_request_time = time.time()
                    if response.status == 200:
                        result = await response.json()
                        # 检查API返回的错误码
                        if "error_response" in result:
                            logger.error(f"API error: {result['error_response']}")
                            return None
                        return result
                    else:
                        logger.error(f"Request failed with status: {response.status}")
                        return None
        except Exception as e:
            logger.error(f"Request error: {str(e)}")
            return None
    
    async def search_products(self, keyword: str, page: int = 1, page_size: int = 40) -> Optional[Dict]:
        """搜索商品"""
        params = {
            "q": keyword,
            "page_no": str(page),
            "page_size": str(page_size)
        }
        return await self._request("taobao.tbk.item.get", params)
    
    async def get_product_details(self, item_id: str) -> Optional[Dict]:
        """获取商品详情"""
        params = {
            "num_iid": item_id
        }
        return await self._request("taobao.tbk.item.info.get", params)


class ProductStreamCollector:
    """商品流式数据采集器"""
    
    def __init__(self, client: TaobaoAPIClient, output_queue: asyncio.Queue):
        self.client = client
        self.output_queue = output_queue
        self.running = False
        
    async def collect_keyword(self, keyword: str, max_pages: int = 5):
        """根据关键词采集商品数据"""
        logger.info(f"开始采集关键词: {keyword}, 最大页数: {max_pages}")
        
        for page in range(1, max_pages + 1):
            if not self.running:
                break
                
            try:

最低0.47元/天解锁文章