MySQL系列（5）：mysqld之网络IO模型

最新推荐文章于 2025-09-02 15:48:00 发布

原创

最新推荐文章于 2025-09-02 15:48:00 发布 · 1.3k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#mysql #网络

本文深入剖析MySQL的连接监听和处理流程，涵盖select/poll模型、TCP与Unix域套接字的应用，以及连接事件的处理机制。通过源码分析，揭示MySQL如何高效管理网络IO，确保稳定的服务响应。

引言

前面几节介绍了mysqld的初始化，接下来介绍连接的监听和处理。重点掌握TCP、Unix域套接字和poll模型，进一步可自行了解epoll模型。本文重在代码脉络的梳理和知识点的提取，相关技术细节可自行加餐。

知识点

select/poll模型；TCP；Unix域套接字

源码分析

网络IO模型

从Mysqld_socket_listener::listen_for_connection_event()可以看出，MySQL网络IO采用了select/poll模型，如下：

#ifdef HAVE_POLL
  int retval= poll(&m_poll_info.m_fds[0], m_socket_map.size(), -1);
#else
  m_select_info.m_read_fds= m_select_info.m_client_fds;
  int retval= select((int) m_select_info.m_max_used_connection,
                     &m_select_info.m_read_fds, 0, 0, 0);
#endif

poll模型主要解决了select的最大文件描述符限制，但不具备移植性，在Linux上有实现，Windows没有。MySQL在Linux上默认用的是poll，而Windows上则是select。

初始化网络

if (network_init())
    unireg_abort(MYSQLD_ABORT_EXIT);

network_init()里重点关注下面语句：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

CanvaChen

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

跨越知识盲区：解读MySQL InnoDB线程模型

墨夶的博客

12-03

612

InnoDB 使用多线程架构来处理各种任务，确保高效的并发控制和数据管理。主线程（Master Thread）IO 线程（I/O Threads）Purge 线程（Purge Thread）Change Buffer 线程（Change Buffer Thread）Page Cleaner 线程（Page Cleaner Thread）Redo Log Writer 线程（Redo Log Writer Thread）接下来，我们逐一解析这些线程的作用和特点。

揭秘MySQL InnoDB线程模型：10大核心线程详解

java专栏

12-06

1775

每个线程都有其特定的任务，协同工作以保持数据库的高效运行。通过以上步骤，你应该已经掌握了MySQL InnoDB线程模型的核心概念和实现细节，并且了解了它们之间的主要区别和适用场景。无论是简单的任务还是复杂的任务，都可以通过合理的步骤和适当的异常处理来实现。不过，需要注意的是，虽然InnoDB线程模型非常强大，但它也有一些局限性。因此，在选择存储引擎时，你需要根据具体的需求来进行权衡。

参与评论您还未登录，请先登录后发表或查看评论

极光connection io error_从MySQL源码看其网络IO模型

weixin_34768234的博客

01-24

183

前言MySQL是当今最流行的开源数据库，阅读其源码是一件大有裨益的事情(虽然其代码感觉比较凌乱)。而笔者阅读一个Server源码的习惯就是先从其网络IO模型看起。于是，便有了本篇博客。MySQL启动Socket监听看源码，首先就需要找到其入口点，mysqld的入口点为mysqld_main,跳过了各种配置文件的加载之后，我们来到了network_init初始化网络环节,如下图所示:下面是其调用栈...

五种网络I/O模型详解

m0_38062470的博客

09-29

1816

Table of Contents 网络IO模型介绍阻塞式IO （blocking IO）无阻塞式IO （nonblocking IO） IO多路复用（IO multiplexing）异步IO （asynchronous IO）网络IO模型介绍常见的IO模型有以下5种： 1. 阻塞式IO （blocking IO） 2.无阻塞式IO （nonblocking IO） 3.IO多路复用（IO multiplexing） 4. 信号驱动（signal drive..

io模型，mysql

aihuangzhi8131的博客

07-18

296

多路复用IO(IO multiplexing) 多路复用就是调用select来统一管理多个连接强调： 1. 如果处理的连接数不是很高的话，使用select/epoll的web server不一定比使用multi-threading + blocking IO的web server性能更好，可能延迟还更大。select/epol...

mysql 网络io_MySQL 网络IO模型实现原理

weixin_35804557的博客

01-19

429

从MySQL源码看其网络IO模型前言MySQL是当今最流行的开源数据库，阅读其源码是一件大有裨益的事情(虽然其代码感觉比较凌乱)。而笔者阅读一个Server源码的习惯就是先从其网络IO模型看起。于是，便有了本篇博客。MySQL启动Socket监听看源码，首先就需要找到其入口点，mysqld的入口点为mysqld_main,跳过了各种配置文件的加载之后，我们来到了network_init初始化网络环...

从MySQL源码看其网络IO模型

chenpoxian8496的博客

06-26

691

从MySQL源码看其网络IO模型前言 MySQL是当今最流行的开源数据库，阅读其源码是一件大有裨益的事情(虽然其代码感觉比较凌乱)。而笔者阅读一个Server源码的习惯就是先从其网络IO模型看起。于是，便有了本篇博客。 MySQL启动Socket监听看源码，首先就需要找到其入口点，mysq...

MySQL之可扩展性理论与实战：从定律模型到架构设计

wj_rdk的博客

04-29

1360

在数据爆炸式增长的今天，MySQL数据库的可扩展性成为系统架构设计的核心命题。本文旨在与技术爱好者共同探讨可扩展性的理论基础、模型框架及实战策略，通过解析文档中的核心概念，结合通俗案例与图表总结，帮助读者理解如何让MySQL在资源增加时实现高效能扩展。文中将融入Java代码示例，兼顾理论深度与工程实践，助力构建弹性数据库架构。

MySQL性能诊断与调优之：`MySQL`的`Metrics Exporter`：其在`Prometheus`中的指标采集。

热门推荐

qq_44969643的博客

06-03

2万+

一、IO操作二、IO成本三、IO分类四、Mysql网络层IO（网络IO）五、Mysql存储IO（磁盘IO）在计算机系统中I/O就是输入（Input）和输出(Output)的意思，针对不同的操作对象，可以划分为磁盘I/O模型，网络I/O模型，内存映射I/O, Direct I/O、数据库I/O等，只要具有输入输出类型的交互系统都可以认为是I/O系统，也可以说I/O是整个操作系统数据交换与人机交互的通道，这个概念与选用的开发语言没有关系，是一个通用的概念。返回顶部目录寻址时间（网络IO没有这一步）磁头

mysql 网络io_MySQL的各种网络IO超时的用法和实现

weixin_35490309的博客

01-19

206

客户端CAPI在CAPI中调用mysql_options()来设置mysql_init()所创建的连接对象的属性，使用这三个选项可以设置连接超时和读写超时，单位都是秒。读写超时达到后CAPI的查询发送和结果获取函数会返回超时错误。MYSQL_OPT_CONNECT_TIMEOUTMYSQL_OPT_READ_TIMEOUTMYSQL_OPT_WRITE_TIMEOUT也可以使用配置文件来设...

[计算机知识] TCP/IP网络模型、MySQL的结构

m0_55100398的博客

04-04

571

应用层的数据可能会太大，就需要进行拆分，由于数据大小不能超过MSS。IP协议，涉及到网络号和主机号，通常是通过子网掩码进行与运算得到。路由是进行寻址的，找到目标地址的子网（这以后才会进行主机号判断）提供链路级别的传输服务，在以太网、wifi底层网络进行数据包发送。连接、查询缓存、解析器、预处理器、优化器、执行器。与客户端进行连接，连接过程也需要三次握手进行，基于TCP连接。涉及到储存引擎的选择，存储引擎的物理结构。此层设计端口，端口对应应用标记，识别是哪个应用的。TCP提供稳定、面向连接的网络传输协议。

MySQL增量使用py导入json导致io过高

08-06

<think>我们面对的问题是：使用Python增量导入JSON数据到MySQL时I/O过高，如何优化？分析：I/O过高通常是因为频繁的磁盘读写或网络传输（数据库连接）。优化方向可能包括： 1. 批量处理（减少事务提交次数） 2. 使用更高效的数据写入方式（如LOAD DATA INFILE） 3. 调整数据库配置 4. 优化Python代码（如使用高效库，减少内存占用） 5. 考虑使用中间缓存或队列参考引用中提到的DataX工具，它支持增量同步，且其设计就是为了高效数据传输。但用户希望用Python实现，因此我们可以借鉴其思想。具体优化建议： 1. **批量插入（Bulk Insert）**：避免逐条插入，改为批量插入。例如，每1000条数据插入一次。使用executemany()或使用SQL语句一次插入多行。 2. **使用事务（Transaction）**：将多个插入操作放在一个事务中提交，减少事务提交次数。 3. **使用LOAD DATA INFILE（如果可行）**：将JSON数据先转换为CSV格式，然后使用MySQL的LOAD DATA INFILE命令，该命令比逐条插入快很多。 4. **使用高效JSON解析库**：如使用`ujson`代替`json`，提高解析速度。 5. **调整数据库配置**：临时增大`innodb_buffer_pool_size`，增加`innodb_log_file_size`，以提高写入性能。在导入期间关闭索引（在导入前删除索引，导入后重建），但要注意这期间查询会变慢。 6. **使用多线程/异步IO**：将读取和写入操作分离，使用生产者-消费者模型，通过队列缓冲，避免I/O等待。 7. **考虑使用存储引擎**：如果数据不需要事务支持，可以使用MyISAM引擎（但注意MyISAM不支持事务，且表级锁）。 8. **使用连接池**：减少数据库连接创建和销毁的开销。 9. **监控和定位瓶颈**：使用工具（如iostat, vmstat）监控磁盘I/O，确定是读还是写的问题，或者使用MySQL的慢查询日志。 10. **使用更高效的Python数据库驱动**：如使用`mysql-connector-python`的`buffered`模式，或者使用`pymysql`的`cursor.executemany`。 11. **增量导入的优化**：对于增量导入，确保只导入新数据，并且使用索引来快速定位（比如使用时间戳字段）。同时，避免在导入过程中频繁更新索引。 12. **使用缓存**：如果数据源是文件，可以先将文件内容读入内存（如果内存足够），然后进行批量处理。 13. **避免重复解析**：如果同一个JSON数据需要多次使用，解析一次后存储在变量中，避免重复解析。 14. **使用生成器（Generator）**：处理大文件时，使用生成器逐块读取和处理，避免一次性加载整个文件到内存。 15. **使用异步库**：如使用`asyncio`和异步MySQL驱动（如`aiomysql`）来并发处理。 16. **调整文件读取方式**：使用大块读取（如设置较大的缓冲区）来减少磁盘I/O次数。 17. **使用压缩传输**：如果网络是瓶颈，可以考虑使用压缩传输（如MySQL连接参数设置压缩）。 18. **使用管道或命名管道**：将JSON数据通过管道传输给Python程序，避免磁盘读写（如果数据来自另一个进程）。 19. **使用专业ETL工具**：如果优化后仍不满足，考虑使用专业ETL工具（如DataX，用户引用中提到的），但用户要求使用Python。 20. **分库分表**：如果数据量极大，考虑分库分表策略，分散I/O压力。由于用户是增量导入JSON数据，我们假设数据是不断产生的（如日志），因此优化重点在批量处理和减少数据库交互。示例代码结构（批量插入）： - 读取JSON数据（按行或按块） - 将多条记录组合成一个批量插入语句 - 使用事务提交注意：批量插入时，注意SQL语句的长度限制（max_allowed_packet），避免超过限制。示例代码： ```python import json import mysql.connector # 数据库配置 db_config = { 'user': 'username', 'password': 'password', 'host': 'localhost', 'database': 'database_name' } # 批量大小 BATCH_SIZE = 1000 # 连接数据库 conn = mysql.connector.connect(**db_config) cursor = conn.cursor() # 假设JSON文件每行一个JSON对象 with open('data.json', 'r') as f: batch = [] for i, line in enumerate(f): record = json.loads(line) # 将记录转换为元组，假设表有id, name, age三个字段 data_tuple = (record['id'], record['name'], record['age']) batch.append(data_tuple) # 达到批量大小时插入 if len(batch) >= BATCH_SIZE: try: # 开始事务（默认autocommit=False，所以每次execute后需要commit） cursor.executemany("INSERT INTO table_name (id, name, age) VALUES (%s, %s, %s)", batch) conn.commit() # 提交事务 batch = [] # 清空batch except Exception as e: conn.rollback() print(f"Error: {e}") break # 处理剩余数据 if batch: try: cursor.executemany("INSERT INTO table_name (id, name, age) VALUES (%s, %s, %s)", batch) conn.commit() except Exception as e: conn.rollback() print(f"Error: {e}") cursor.close() conn.close() ``` 注意事项： - 使用executemany时，MySQL连接参数`max_allowed_packet`需要足够大，否则可能出错。可以通过设置`max_allowed_packet`参数（在MySQL配置文件中）或在连接字符串中添加`max_allowed_packet`参数。 - 如果使用事务，注意事务不能太大（避免锁表时间过长），所以批量大小要权衡。如果数据量非常大，可以考虑使用多线程/多进程处理，但要注意线程安全。可以将文件分割，然后多个进程同时处理不同的部分，并插入数据库（需要确保插入的数据不冲突）。另外，如果JSON数据中包含日期时间等类型，需要转换为MySQL支持的格式。如果使用LOAD DATA INFILE，步骤： 1. 将JSON转换为CSV（注意字段分隔符和转义符） 2. 使用LOAD DATA INFILE命令加载示例： ```sql LOAD DATA INFILE '/path/to/data.csv' INTO TABLE table_name FIELDS TERMINATED BY ',' ENCLOSED BY '"' LINES TERMINATED BY '\n'; ``` 在Python中，可以使用`subprocess`调用mysql命令行执行，或者使用`cursor.execute()`执行该命令（需要MySQL用户有FILE权限）。总结：批量处理和使用事务是优化Python写入MySQL的常用方法，同时注意调整数据库配置和优化代码结构。如果用户有更具体的场景，可以进一步优化。 §§相关问题§§ 1. 如何监控MySQL的I/O性能？ 2. 除了批量插入，还有哪些方法可以优化Python与MySQL的交互性能？ 3. 在Python中如何安全地使用多线程进行数据导入？</think>### MySQL增量导入JSON数据I/O过高优化方案针对Python增量导入JSON数据导致的I/O过高问题，以下是系统化的优化方案： #### 1. **批量写入优化**（核心方案） ```python # 原始单条插入（高I/O） cursor.execute("INSERT INTO table VALUES (%s, %s)", (data1, data2)) # 优化方案：批量提交（降低90% I/O） batch_size = 1000 # 根据内存调整 batch_values = [] for record in json_data: batch_values.append((record['id'], record['data'])) if len(batch_values) >= batch_size: cursor.executemany("INSERT INTO table VALUES (%s, %s)", batch_values) conn.commit() batch_values = [] if batch_values: # 处理剩余数据 cursor.executemany("INSERT INTO table VALUES (%s, %s)", batch_values) conn.commit() ``` #### 2. **LOAD DATA INFILE高速导入** ```python # 将JSON转换为CSV临时文件 with open('temp.csv', 'w') as f: for record in json_data: f.write(f"{record['id']},{record['data']}\n") # 执行高速加载（比INSERT快20-100倍） cursor.execute(""" LOAD DATA INFILE 'temp.csv' INTO TABLE target_table FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' """) ``` > **注意**：需要MySQL的`FILE`权限和`secure_file_priv`配置[^1] #### 3. **连接与事务优化** ```python # 禁用自动提交（减少事务开销） conn.autocommit = False # 使用连接池（避免频繁重建连接） from mysql.connector import pooling pool = pooling.MySQLConnectionPool( pool_name="mypool", pool_size=5, host="localhost", user="user", password="pass", database="db" ) ``` #### 4. **内存与磁盘优化** - **JSON流式处理**： ```python import ijson # 流式解析大JSON文件 with open('large.json', 'rb') as f: for record in ijson.items(f, 'item'): process_record(record) # 增量处理 ``` - **禁用索引**（大数据量时）： ```sql ALTER TABLE target_table DISABLE KEYS; -- 导入前 -- 执行数据导入 ALTER TABLE target_table ENABLE KEYS; -- 导入后 ``` #### 5. **增量同步优化** ```python # 基于时间戳的增量过滤 last_import_time = get_last_import_time() # 从状态表获取 new_data = [r for r in json_data if r['update_time'] > last_import_time] ``` #### 6. **架构级优化** - **消息队列缓冲**： ```mermaid graph LR JSON源 -->|写入| Kafka/RabbitMQ -->|消费| Python导入程序 --> MySQL ``` - **分布式处理**： ```python # 使用Dask并行处理 import dask.bag as db bag = db.read_text('large.json').map(json.loads) bag.map(process_record).compute(num_workers=8) ``` #### 配置调优建议 1. MySQL服务端： ```ini [mysqld] innodb_buffer_pool_size = 80%物理内存 innodb_flush_log_at_trx_commit = 2 # 牺牲部分持久性换性能 bulk_insert_buffer_size = 256M ``` 2. Python连接参数： ```python conn = mysql.connector.connect( ..., use_pure=True, # 使用纯Python解析器 pool_size=10 # 连接池大小 ) ``` > **典型效果**：通过批量处理+LOAD DATA组合，可将10万条数据的导入时间从10分钟缩短至8-15秒[^2]。