Easypoi+Redis解决Excel数据集重复处理

最新推荐文章于 2022-03-11 13:51:17 发布

原创最新推荐文章于 2022-03-11 13:51:17 发布 · 1.1k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#java #redis #excel

后端专栏收录该内容

5 篇文章

订阅专栏

本文介绍了一种使用Redis处理导入数据中重复项的方法，通过将数据存入Redis的Set集合来判断并标记重复数据，从而避免重复数据的多次导入。

之前写了一篇关于重复数据的处理，请先参考上篇关于重复数据的处理，文章：https://mp.youkuaiyun.com/editor/html/108664938 ，但是这种处理只能用数据库的存量数据来匹配导入的数据是否是重复的，并不能解决数据集本身重复的问题。

意思就是，导入的excel数据本来重复了，如果数据库没有和这两条数据一样的数据，那么这两条数据都会导入成功！但我们原意是只想导入重复的第一条，第二条错误(重复)数据输出到excel表格，提供给用户，如下重复数据(数据库没有以下两条数据，因此不做处理两条都是导入成功的！)

这两条数据本身重复，而excel解析这两条数据进入校验类IExcelVerifyHandler校验，是一条条进去的。你也可以在进入校验类后写个for循环遍历处理，但是这样做用户不知道哪条数据是重复的，不能有很好的用户体验

因此，需要把每一条导入的数据记录下来，加上数据库的数据，共同来匹配。这里我想到了引入第三方中间件Redis来记忆数据，选择Set集合作为存储结构。

逻辑是这样的，流程图如下：

这样每次导进来的数据先去Set集合查一遍，看是否存在，在做具体的处理，代码如下：

 //引入第三方中间件来存储导入的铺位号做校验！
        if (JedisUtils.hasKey(RedisKeyEnum.PMS_ADMIN_BUNK_CODE_KEY.getKey())) {
            Boolean aBoolean = JedisUtils.isMember(RedisKeyEnum.PMS_ADMIN_BUNK_CODE_KEY.getKey(),bunkCode);
            if (aBoolean) {
                joiner.add("该行xxx重复!");
            }else {
                JedisUtils.sadd(RedisKeyEnum.PMS_ADMIN_BUNK_CODE_KEY.getKey(),bunkCode);
                JedisUtils.expire(RedisKeyEnum.PMS_ADMIN_BUNK_CODE_KEY.getKey(),RedisKeyEnum.PMS_ADMIN_BUNK_CODE_KEY.getExpireTime());
                if (collect.contains(bunkCode)) {
                    joiner.add("该行xxx重复!");
                }
            }
        } else {
            JedisUtils.sadd(RedisKeyEnum.PMS_ADMIN_BUNK_CODE_KEY.getKey(),collect.toArray());
            JedisUtils.expire(RedisKeyEnum.PMS_ADMIN_BUNK_CODE_KEY.getKey(),RedisKeyEnum.PMS_ADMIN_BUNK_CODE_KEY.getExpireTime());
            if (collect.contains(bunkCode)){
                joiner.add("该行xxx重复!");
            }else {
                JedisUtils.sadd(RedisKeyEnum.PMS_ADMIN_BUNK_CODE_KEY.getKey(),bunkCode);
                JedisUtils.expire(RedisKeyEnum.PMS_ADMIN_BUNK_CODE_KEY.getKey(),RedisKeyEnum.PMS_ADMIN_BUNK_CODE_KEY.getExpireTime());
            }
        }

把错误的信息加入到joiner，如果joiner不为空，就会返回excel文件给用户

        if (joiner.length() != 0) {
            return new ExcelVerifyHandlerResult(false, joiner.toString());
        }

这样就能做到重复数据的处理

6 条评论

写代码的奥德飚 2021.01.30
[face]monkey2:002.png[/face]有啥问题呀，没考虑那么多
- doublek24回复写代码的奥德飚 2022.04.12
  你这个set的key使用什么存的啊。他说你有问题是因为如果多人同时导入的话，redis 中的数据覆盖。所以会有问题。所以我认为导入的时候应该用一个批次id来区分一下，然后在redis中存的key加上这个批次id。就不会有问题了
- 写代码的奥德飚回复韩_师兄 2021.02.01
  我目前是用redis的set集合处理的，楼下大佬说我写的还有问题，但我用的话没发生什么问题
- 韩_师兄回复写代码的奥德飚 2021.02.01
  博主,你好,请问easypoi,对两行的同一列,做重复校验如何处理啊?(数据量不大)如第一行的id为1,第二行的id也为1,怎么去辨别?