MATLAB如何使用 readtable 优化百万级别CSV文件的读取速度

原创

已于 2025-03-24 17:20:02 修改 · 700 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #matlab

于 2025-03-23 23:06:06 首次发布

前言

用于处理位于指定目录下的多个CSV文件，通过读取数据、处理日期列、转换分类数据、合并结果以及删除重复行，最终将处理后的数据保存为MAT文件。使用 readtable 读取数据，以提高读取效率，并通过向量化操作和逻辑索引提高代码效率。
方法适用情况速度解析能力
readmatrix 纯数值数据 🚀 快 ❌ 不支持文本
readcell 混合数据（文本+数值+日期） 🐢 慢 ✅ 保留原始数据
readtable 混合数据，返回表格数据 ⚖️ 适中 ✅ 强大

二、代码

% ✅ 设置主目录路径，指向包含CSV文件的文件夹
mainFolder = '\CSV\'; 

% ✅ 获取主目录下的所有CSV文件
csvFiles = dir(fullfile(mainFolder, '*.csv'));

% ✅ 初始化一个空数组，用于存储所有CSV文件的处理结果
allData = [];

% ✅ 遍历所有CSV文件
for i = 1:length(csvFiles)
    % 获取当前CSV文件的完整路径
    csvFilePath = fullfile(mainFolder, csvFiles(i).name);
    
    % ✅ 使用 readtable 读取CSV文件，'PreserveVariableNames' 保留变量名
    T = readtable(csvFilePath, 'PreserveVariableNames', true);
    
    % ✅ 确保数据非空，并且列数足够（至少14列）
    if isempty(T) || size