用Python3 + bs4 + request + mysql 抓取并存储新发地菜价数据

本文链接：https://blog.youkuaiyun.com/bigpopxuxin/article/details/104815059

使用Python3结合BeautifulSoup和requests库抓取新发地官网的农产品价格数据，根据URL动态参数进行数据获取。过滤并整理数据后，将信息存储到MySQL数据库中，设定起始时间只抓取特定日期后的数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

为了让大家去菜市场砍价的时候，心里更有底，我写了一个小程序，抓取新发地官网公布的农副产品价格，并存入数据库，仅供研究。

简单说一下思路吧：

从新发地官网找到数据展示的规律，发现不同的类别和页数，是通过两个接口参数控制的，因此将URL模板设计成动态的，带有两个动态参数。
例行获取页面的bs4实体，通过div标签和class属性，找到要获取的数据列表。
把数据过滤好，存入列表。第一行固定是标题，后面是数据。
把数据存入数据库。建表过程这里就省略了。
因为考虑到网站的数据量很庞大，我们也没有必要抓取全部，因此考虑增加一个起始时间，只抓取这个时间以后的数据。
Round one, fight！

from bs4 import BeautifulSoup
import requests
import pymysql

HEADER = {
   
   
    "User-Agent": "Mozilla/5.0 (Linux; Android 9; DUK-AL20) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.119 Mobile Safari/537.36",
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
    "Accept-Encoding": "gzip, deflate",
    "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8,zh-TW;q=0.7",
}

# URL模板，需要动态调整的主要是类别和页数两个字段
BASE_URL = 'http://www.xinfadi.com.cn/marketanalysis/{}/list/{}.shtml'

START_DATE = '2020-03-10'  # 起始时间，包括当前时间

CATAGORY = [{
   
   'name': '', 'id': '1'},  # 蔬菜
            {
   
   'name': '', 'id':