一、为什么需要关注数据导入效率?
常规INSERT语句在万级以上数据量时性能急剧下降。实测显示:100万行数据通过单条INSERT插入需小时级完成,而优化方案可缩短至秒级。
二、四大导入方法深度对比
1. LOAD DATA INFILE(官方推荐方案)
LOAD DATA LOCAL INFILE '/path/to/data.csv'
INTO TABLE users
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
IGNORE 1 ROWS;
✅ 优势:
- 比INSERT快20倍以上
- 支持文件加密和压缩传输
- 可跳过错误行继续执行
2. 命令行mysqlimport工具
mysqlimport --local --fields-terminated-by="," \
--ignore-lines=1 database /path/to/data.csv
▶️ 适用场景:批处理自动化任务
3. 程序化批量插入
# Python示例
cursor.executemany("INSERT INTO table VALUES (%s,%s)",
chunk_data)
🔁 建议每批500-1000条记录
4. 云数据库专用方案
- AWS RDS:使用S3桶预先存储后自动导入
- Azure:bcp实用程序批量加载
三、性能实测对比(百万行数据)
|
方法 |
耗时(秒) |
内存峰值 |
|
单条INSERT |
>3600 |
低 |
|
批量INSERT |
217 |
中 |
|
LOAD DATA |
12 |
低 |
|
mysqlimport |
15 |
低 |
四、避坑指南
- 权限问题:确保文件目录有读写权限
- 字符集一致:避免中文乱码
外键约束:导入前禁用外键检查
SET FOREIGN_KEY_CHECKS=0;
-- 导入操作...
SET FOREIGN_KEY_CHECKS=1;
通过合理选用导入方案,可使数据处理效率获得数量级提升。建议超过10万行数据时优先采用LOAD DATA方案。
扩展技巧:结合管道操作实现流式导入
cat data.csv | mysql -e "LOAD DATA LOCAL INFILE '/' INTO TABLE table"
1258

被折叠的 条评论
为什么被折叠?



