封装流解决大excel分片上传cos
BufferedMultipleOutputStream 解决分布读取流
背景
在toB的业务开发中,excel的生成与上传、下载是不可避免的。
- excel的生成一般是poi或者进行封装的
- 查询的数据分页查询
- 然后写入sheetwook中
- 拿个outputStream(输出到内存)进行输出,然后转换成inputStream,
- cos上传
在数据量小的时候没有问题,但是一旦数据量超过一万,oom不可避免的来了,提供服务的机器性能不加,但是不会再给提高配置,所以如果安全高效、节省空间的进行文件的下载是个问题。
一 方案一,失败
- 分页查询数据、分批写入到poi的sheetwook中,这个不难
- 第一次猜想使用分批写入流,分次flush到流中,如果流的大小超过了1m(cos要求分片上传的每片最小为1m),则上传;然后在进行读取数据,写入sheetwook,继续刷入流;直到数据查完。
问题:hutool在分批刷入(flush)流的时候报错了,流已经关闭,查看源码,poi在flush的时候关闭了流,各种方法都不管用了。为了解决问题还使用了sxss,但是也是有问题。这里不再写入源码,因为都是错误的。
二 使用sxss+stream分片,不推荐
- 接上边的步骤,将数据分页查询出来写入sheetwook;这个使用使用sxss使用的硬盘临时文件的方式,占用内存较小(这种方式对excel有些不友好,但是纯导出不影响)。
- 直接一次性刷入outputstream
- 然后将流分成若干个均等大小的流
- 没生成一个流去分片上传一次,这样就解决了分片上传的问题。
问题:这个方案,解决了分片的问题,解决了outputStream转inputstream的流过大的问题;但是缺憾是ouputStream流必须一个整流,这个流可能会很大。
InitiateMultipartUploadResult initiateMultipartUploadResult = tencentCOSService.initiateMultipartUpload(key);
logger.info("{}完成分片上传c操作{}",key,"initiateMultipartUpload");
List<PartETag> partETagList = Lists.newArrayList();
int partNumber = 1;
while (i <= (l / _M)) {
ByteArrayInputStream byteArrayInputStream = new ByteArrayInputStream(bytes, i * _M, _M);
UploadPartResult uploadPartResult = tencentCOSService.uploadPart(key, initiateMultipartUploadResult.getUploadId(), partNumber, bis.available(), byteArrayInputStream);
partETagList.add(uplo