用Python采集电商平台商品数据进行可视化分析

本文介绍了如何使用Python进行电商平台商品数据的采集,通过分析数据包找出商品ID的规律,并展示了发送HTTP请求、解析数据、保存CSV文件的步骤。还涉及了防止反爬策略和数据可视化的基本概念。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

嗨喽~大家好呀,这里是魔王呐 ❤ ~!

环境使用:

  • python 3.8 解释器

  • pycharm 编辑器

模块使用:

第三方模块 需要安装

  • requests —> 发送 HTTP请求

内置模块 不需要安装

  • csv —> 数据处理中经常会用到的一种文件格式

第三方模块安装:

win + R 输入cmd 输入安装命令 pip install 模块名 (如果你觉得安装速度比较慢, 你可以切换国内镜像源)

python资料、源码、教程\福利皆: 点击此处跳转文末名片获取

基本流程思路:

一. 数据来源分析

  1. 明确需求

    • 明确采集网站以及数据

      数据: 商品信息

  2. 抓包分析 --> 通过浏览器自带工具: 开发者工具

    • 打开开发者工具: F12 / 右键点击检查选择network

    • 刷新网页: 让网页数据重新加载一遍

    • 搜索关键字: 搜索数据在哪里

      找到数据包: 50条商品数据信息

      整页数据内容: 120条 --> 分成三个数据包

      1. 前50条数据 --> 前50个商品ID

      2. 中50条数据 --> 中50个商品ID

      3. 后20条数据 --> 后20个商品ID

      已知: 数据分为三组 --> 对比三组数据包请求参数变化规律

      请求参数变化规律: 商品ID

      分析找一下 是否存在一个数据包, 包含所有商品ID

    如果想要获取商品信息 --> 先获取所有商品ID --> ID存在数据包

二. 代码实现步骤: 发送请求 -> 获取数据 -> 解析数据 -> 保存数据

第一次请求 --> 获取商品ID

  1. 发送请求, 模拟浏览器对于url地址发送请求

    请求链接: 商品ID数据

  2. 获取数据, 获取服务器返回响应数据

    开发者工具: response

  3. 解析数据, 提取我们想要的数据内容

    商品ID

第二次请求 --> 获取商品信息

  1. 发送请求, 模拟浏览器对于url地址发送请求

    请求链接: 商品信息数据包

  2. 获取数据, 获取服务器返回响应数据

    开发者工具: response

  3. 解析数据, 提取我们想要的数据内容

    商品信息

  4. 保存数据, 把信息保存本地文件 csv表格

  5. 多页数据采集

代码展示

获取数据
# 导入数据请求模块
import requests
# 导入格式化输出模块
from pprint import pprint
# 导入csv
import csv

# 模拟浏览器 -> 请求头 headers <字典>
headers = {
   
    # 防盗链 告诉服务器请求链接地址从哪里跳转过来
    'Referer': '*****/',
    # 用户代理, 表示浏览器基本身份信息
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)'
}
# 请求链接
# 源码、解答、教程、安装包等资料加V:qian97378免费领
url = 'https://m*****/vips-mobile/rest/shopping/pc/search/product/rank'
# 请求参数 <字典>
data = {
   
    # 回调函数
    # 'callback': 'getMerchandiseIds',
    'app_name': 'shop_pc',
    'app_version': '4.0',
    'warehouse': 'VIP_HZ',
    'fdc_area_id': '104103101',
    'client': 'pc',
    'mobile_platform': '1',
    'province_id': '104103',
    'api_key': '70f71280d5d547b2a7bb370a529aeea1',
    'user_id': '',
    'mars_cid': '1689245318776_e2b4a7b51f99b3dd6a4e6d356e364148',
    'wap_consumer': 'a',
    'standby_id': 'nature',
    'keyword': '泳衣',
    'lv3CatIds': '',
    'lv2CatIds': '',
    'lv1CatIds': '',
    'brandStoreSns': '',
    'props': '',
    'priceMin': '',
    
### 使用Python编写网络爬虫从电子商务平台提取数据 为了有效地从电子商务平台提取数据,可以采用多种技术和库组合的方式。以下是具体的方法: #### 选择合适的工具 对于动态加载内容较多的页面,推荐使用Pyppeteer这样的无头浏览器自动化工具来进行操作[^1]。而针对静态网页,则可以选择更轻量级的选择如Requests和BeautifulSoup组合来完成抓取工作[^2]。 #### 安装依赖包 无论选用哪种方式,在开始之前都需要安装必要的Python库。如果计划使用Pyppeteer的话,可以通过pip命令轻松安装它以及其他辅助性的库: ```bash pip install pyppeteer requests beautifulsoup4 pandas ``` #### 初始化Pyppeteer并访问目标网址 下面是一个简单的例子展示如何初始化Pyppeteer,并打开指定的目标URL: ```python from pyppeteer import launch async def main(): browser = await launch() page = await browser.newPage() await page.goto('https://example.com') content = await page.content() # 获取整个HTML文档的内容 await browser.close() import asyncio asyncio.get_event_loop().run_until_complete(main()) ``` #### 解析HTML内容 一旦获得了HTML源码之后就可以利用BeautifulSoup解析其中感兴趣的部分了。比如要查找所有的产品链接或者价格标签等信息: ```python from bs4 import BeautifulSoup def parse_html(html_content): soup = BeautifulSoup(html_content, 'html.parser') products = [] for item in soup.find_all('div', class_='product-item'): title = item.find('h2').text.strip() price = float(item.select_one('.price').text.replace('$','')) product_info = { "title": title, "price": price } products.append(product_info) return products ``` #### 存储收集到的数据 最后一步就是把获取来的有用信息保存下来以便后续处理或分析。这里以CSV文件为例说明怎样快速存入硬盘中去: ```python import csv data_to_save = [{'name': 'Product A', 'cost': 9.99}, {'name': 'Product B', 'cost': 19.8}] with open('products.csv', mode='w') as file: writer = csv.DictWriter(file, fieldnames=['name', 'cost']) writer.writeheader() writer.writerows(data_to_save) ``` 以上便是基于Python编写的简单版电商网站数据采集脚本的大致流程介绍。当然实际项目可能会更加复杂一些,涉及到登录验证、反爬机制应对等问题,这需要根据具体情况灵活调整方案[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值