超越基础调用：1688 商品 API 高级参数详解与异常数据处理

最新推荐文章于 2025-12-08 15:12:07 发布

原创最新推荐文章于 2025-12-08 15:12:07 发布 · 908 阅读

CC 4.0 BY-SA版权

文章标签：

在电商数据采集与分析领域，1688 平台的商品 API 是获取商品信息的重要途径。基础的 API 调用只能获取有限的商品数据，而掌握高级参数配置和异常处理技巧，能让我们更精准、高效地获取所需信息，同时保证系统的稳定性。本文将深入探讨 1688 商品 API 的高级参数用法，并分享实用的异常数据处理策略。

1688 商品 API 高级参数解析

1688 商品 API 提供了丰富的参数配置，合理使用这些参数可以大幅提升数据获取的效率和质量。以下是一些关键的高级参数：

1. 分页与数量控制参数

page：指定请求的页码
pageSize：设置每页返回的商品数量，最大通常为 100
total：是否返回总条数，有助于分页计算

2. 筛选与过滤参数

priceStart 和 priceEnd：设置价格区间筛选
salesCountStart 和 salesCountEnd：按销量范围筛选
sortType：排序方式，如按价格、销量、上架时间等
tags：按商品标签筛选，如 "一件代发"、"7 天无理由" 等

3. 字段控制参数

fields：指定需要返回的字段，减少不必要的数据传输
includeAttrs：是否包含商品属性信息
includeSku：是否包含 SKU 详细信息

4. 高级搜索参数

q：搜索关键词，支持空格分隔的多关键词
categoryId：按类目 ID 筛选
province：按省份筛选
sellerLevel：按卖家等级筛选

高级参数使用示例

下面是一个使用高级参数调用 1688 商品 API 的示例代码，展示了如何组合使用上述参数获取精准的商品数据：

import requests
import time
import json
from datetime import datetime
import logging

# 配置日志
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s',
    handlers=[
        logging.FileHandler("1688_api.log"),
        logging.StreamHandler()
    ]
)

class AlibabaAPI:
    def __init__(self, app_key, app_secret):
        self.app_key = app_key
        self.app_secret = app_secret
        self.base_url = "https://api.1688.com/router/json"
        self.session = requests.Session()
        # 设置请求超时
        self.timeout = 10
        # 控制请求频率，避免触发限流
        self.request_interval = 1.5
        
    def _generate_sign(self, params):
        """生成API签名，实际实现需参考1688开放平台文档"""
        # 此处仅为示例，实际签名算法需按照1688要求实现
        sorted_params = sorted(params.items(), key=lambda x: x[0])
        sign_str = self.app_secret
        for k, v in sorted_params:
            sign_str += f"{k}{v}"
        sign_str += self.app_secret
        # 实际应使用MD5或其他算法计算签名
        import hashlib
        return hashlib.md5(sign_str.encode()).hexdigest().upper()
    
    def get_products(self, keywords, **kwargs):
        """
        获取商品列表，支持多种高级参数筛选
        
        参数:
            keywords: 搜索关键词
            **kwargs: 其他高级参数，如:
                page: 页码
                pageSize: 每页数量
                priceStart: 最低价格
                priceEnd: 最高价格
                sortType: 排序方式
                fields: 需要返回的字段
                ...
        """
        try:
            # 基础参数
            params = {
                "method": "alibaba.icbu.product.search",
                "app_key": self.app_key,
                "timestamp": datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
                "format": "json",
                "v": "2.0",
                "q": keywords
            }
            
            # 添加高级参数
            params.update(kwargs)
            
            # 生成签名
            params["sign"] = self._generate_sign(params)
            
            # 记录请求参数
            logging.info(f"请求参数: {json.dumps(params, ensure_ascii=False)}")
            
            # 发送请求
            response = self.session.get(
                self.base_url,
                params=params,
                timeout=self.timeout
            )
            
            # 控制请求频率
            time.sleep(self.request_interval)
            
            # 检查响应状态
            if response.status_code != 200:
                logging.error(f"请求失败，状态码: {response.status_code}")
                return None
            
            # 解析响应
            result = response.json()
            
            # 检查API返回的错误码
            if "error_response" in result:
                error = result["error_response"]
                logging.error(f"API错误: {error.get('msg', '未知错误')}, 错误码: {error.get('code')}")
                return None
                
            logging.info(f"成功获取商品数据，数量: {len(result.get('products', []))}")
            return result
            
        except requests.exceptions.Timeout:
            logging.error("请求超时")
            return None
        except requests.exceptions.ConnectionError:
            logging.error("网络连接错误")
            return None
        except Exception as e:
            logging.error(f"获取商品数据时发生异常: {str(e)}", exc_info=True)
            return None

# 使用示例
if __name__ == "__main__":
    # 替换为实际的app_key和app_secret
    APP_KEY = "your_app_key"
    APP_SECRET = "your_app_secret"
    
    api = AlibabaAPI(APP_KEY, APP_SECRET)
    
    # 高级参数配置
    advanced_params = {
        "page": 1,
        "pageSize": 50,
        "priceStart": 10,
        "priceEnd": 100,
        "sortType": "price_asc",  # 按价格升序
        "salesCountStart": 100,   # 销量大于100
        "province": "浙江",       # 只看浙江卖家
        "fields": "id,title,price,saleCount,imageUrl,sellerInfo"  # 只返回需要的字段
    }
    
    # 调用API
    products = api.get_products("女装",** advanced_params)
    
    if products:
        # 处理商品数据
        print(f"获取到 {len(products.get('products', []))} 条商品数据")
        # 可以在这里添加数据清洗和存储的逻辑

异常数据处理策略

在调用 1688 商品 API 的过程中，可能会遇到各种异常情况，包括网络问题、API 限制、数据格式异常等。以下是一些实用的异常处理策略：

1. 网络异常处理

实现超时重试机制，处理临时网络波动
对不同的网络错误（如连接超时、连接拒绝）进行分类处理
实现指数退避重试策略，避免无效的频繁重试

2. API 限制与错误处理

严格遵守 API 的调用频率限制，设置合理的请求间隔
对 API 返回的错误码进行解析，根据错误类型采取不同措施：
- 权限错误：检查 API 密钥和权限配置
- 参数错误：验证请求参数的合法性
- 限流错误：暂停请求并稍后重试
- 服务器错误：记录错误并在适当时候重试

3. 数据异常处理

对返回的商品数据进行格式验证，过滤不符合预期的数据
处理缺失字段，设置合理的默认值
检测并处理异常值，如价格为负数、销量异常大等情况

4. 数据清洗示例

import re
import logging
from datetime import datetime

class ProductDataCleaner:
    """商品数据清洗器，处理可能的异常数据"""
    
    def __init__(self):
        # 价格范围验证配置
        self.price_ranges = {
            "min": 0.01,
            "max": 100000  # 根据实际业务场景调整
        }
        
        # 日志配置
        self.logger = logging.getLogger("data_cleaner")
        
    def clean_product(self, product):
        """清洗单个商品数据"""
        if not product:
            self.logger.warning("空商品数据")
            return None
            
        try:
            cleaned = {}
            
            # 处理ID
            cleaned["id"] = self._clean_id(product.get("id"))
            
            # 处理标题
            cleaned["title"] = self._clean_title(product.get("title", ""))
            
            # 处理价格
            price_info = self._clean_price(
                product.get("price", ""),
                product.get("priceUnit", "")
            )
            cleaned.update(price_info)
            
            # 处理销量
            cleaned["sale_count"] = self._clean_sales_count(product.get("saleCount", 0))
            
            # 处理图片URL
            cleaned["image_url"] = self._clean_image_url(product.get("imageUrl", ""))
            
            # 处理卖家信息
            cleaned["seller"] = self._clean_seller_info(product.get("sellerInfo", {}))
            
            # 记录清洗时间
            cleaned["cleaned_at"] = datetime.now().isoformat()
            
            return cleaned
            
        except Exception as e:
            self.logger.error(f"清洗商品数据时出错: {str(e)}", exc_info=True)
            return None
    
    def _clean_id(self, product_id):
        """清洗商品ID"""
        if not product_id:
            self.logger.warning("商品ID为空")
            return None
            
        # 确保ID是字符串格式
        return str(product_id).strip()
    
    def _clean_title(self, title):
        """清洗商品标题，去除多余字符"""
        if not title:
            return ""
            
        # 去除多余空格和特殊字符
        cleaned = re.sub(r'\s+', ' ', title).strip()
        # 去除HTML标签
        cleaned = re.sub(r'<[^>]+>', '', cleaned)
        return cleaned
    
    def _clean_price(self, price, unit):
        """清洗价格数据，处理异常值"""
        result = {
            "price": None,
            "price_unit": unit.strip() if unit else "",
            "price_valid": False
        }
        
        try:
            # 尝试将价格转换为浮点数
            price_val = float(price)
            
            # 检查价格是否在合理范围内
            if self.price_ranges["min"] <= price_val <= self.price_ranges["max"]:
                result["price"] = round(price_val, 2)
                result["price_valid"] = True
            else:
                self.logger.warning(f"价格超出合理范围: {price_val}")
                
        except (ValueError, TypeError):
            self.logger.warning(f"无效的价格格式: {price}")
            
        return result
    
    def _clean_sales_count(self, sales_count):
        """清洗销量数据"""
        try:
            # 尝试转换为整数
            count = int(sales_count)
            # 销量不能为负数
            return max(0, count)
        except (ValueError, TypeError):
            self.logger.warning(f"无效的销量格式: {sales_count}")
            return 0
    
    def _clean_image_url(self, url):
        """清洗图片URL"""
        if not url:
            return ""
            
        url_str = str(url).strip()
        # 检查是否是有效的URL格式
        if re.match(r'^https?://', url_str):
            return url_str
        else:
            self.logger.warning(f"无效的图片URL: {url_str}")
            return ""
    
    def _clean_seller_info(self, seller_info):
        """清洗卖家信息"""
        if not isinstance(seller_info, dict):
            return {}
            
        cleaned_seller = {
            "id": str(seller_info.get("userId", "")).strip(),
            "name": str(seller_info.get("companyName", "")).strip(),
            "level": str(seller_info.get("level", "")).strip(),
            "province": str(seller_info.get("province", "")).strip(),
            "has_shop": bool(seller_info.get("hasShop", False))
        }
        
        return cleaned_seller

# 使用示例
if __name__ == "__main__":
    # 配置日志
    logging.basicConfig(level=logging.INFO)
    
    # 创建清洗器实例
    cleaner = ProductDataCleaner()
    
    # 模拟一个可能存在异常的商品数据
    raw_product = {
        "id": " 123456 ",
        "title": "   <strong>优质女装</strong> 夏季新款   ",
        "price": "99.9",
        "priceUnit": "元",
        "saleCount": "256",
        "imageUrl": "https://example.com/image.jpg",
        "sellerInfo": {
            "userId": "789",
            "companyName": "时尚服饰有限公司",
            "level": "3A",
            "province": "浙江",
            "hasShop": True
        }
    }
    
    # 清洗数据
    cleaned_product = cleaner.clean_product(raw_product)
    
    print("清洗前的数据:")
    print(raw_product)
    print("\n清洗后的数据:")
    print(cleaned_product)