大型文件数据读取并持久化到数据库

原创

已于 2024-03-06 17:45:35 修改 · 592 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#数据库 #java

于 2024-03-06 17:05:14 首次发布

产品经理今天给了一个上亿数据的文本文件给我，让我把导入到mysql数据库。
文本的内容很简单，只有一个字段，但有1亿行。
在这里插入图片描述
我拿到文件后最开始直接用navicat工具直接导入，但发现效率极慢，跑了一分多钟，才导进去10W+数据进去，算下来要跑完至少需要20多个小时，时间不允许。
看来只能自己写代码来提升效率了。
常规的做法肯定是把文件内容按行读取出来，然后每N条拆分一批，再插入到数据库中。但这个文件太大，一次性全部读取到内存中，对机器有点压力。所以只能按批来读取，一边读一边写，已经持久化的数据就及时释放掉，避免一直占用内存。哎！LinkedBlockingQueue 就很适合干这个事。

import cn.hutool.core.collection.CollUtil;
import cn.hutool.core.collection.LineIter;
import cn.hutool.core.io.FileUtil;
import com.yc.kfpt.oversea.dao.entity.SourceCode;
import com.yc.kfpt.oversea.dao.repository.SourceCodeRepository;
import lombok.RequiredArgsConstructor;
import lombok.extern.slf4j.Slf4j;
import org.springframework.scheduling.annotation.Async;
import org.springframework.stereotype.Service;

import java.io.BufferedReader;
import java.nio.charset.Charset;
import java.util.ArrayList;
import java.util.