Python多进程爬虫实战：高效抓取网易云课堂课程数据并存储到MySQL

最新推荐文章于 2025-12-20 09:26:15 发布

原创

最新推荐文章于 2025-12-20 09:26:15 发布 · 549 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #mysql #tcp/ip #数据库

Python多进程爬虫实战：高效抓取网易云课堂课程数据并存储到MySQL

在当今大数据时代，网络爬虫已成为获取互联网信息的重要手段。今天，我将分享一个实用的Python多进程爬虫项目，它能高效地从网易云课堂抓取Python相关课程数据，并使用连接池技术将数据存储到MySQL数据库中。

项目概述

这个爬虫项目主要实现以下功能：

多进程并发抓取，大幅提升爬取效率
自动翻页获取全部课程数据
数据去重，避免重复存储
结构化存储到MySQL数据库

核心技术栈

import requests
import time
import pymysql
from multiprocessing import Pool

我们使用了以下关键库：

requests：发送HTTP请求
pymysql：连接MySQL数据库
multiprocessing.Pool：实现多进程并发

代码详解

1. 数据库连接配置

conn = pymysql.connect(host='localhost',
                port=3306,
                user='root',
                passwd='root',
                db='spider',
                charset='utf8')
cur = conn.cursor()

扩展建议：在实际项目中，建议将数据库配置提取到外部配置文件或环境变量中，提高安全性和可维护性。

2. 核心爬取函数

def get_json(index):
    url = "https://study.163.com/p/search/studycourse.json"
    payload = {
   
   
        "activityId": 0,
        "keyword": "python",
        "orderType": 5,
        "pageIndex": index,
        "pageSize": 50,
        "priceType": -1,
        "qualityType": 0,
        "relativeOffset": 0,
        "searchTimeType": -1,
    }
    
    headers = {
   
   
        "accept": "application/json",
        "host": "study.163.com",
        "content-type": "application/json",
        "origin": "https://study.163.com",
        "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36"
    }
    
    try:
        response = requests.post(url,json=payload,headers=headers)
        content_json = response.json()
        if content_json and content_json["code"] == 0</