PowerBI案例之数字序列压缩

在数据处理和分析领域,数据压缩技术对于提升存储效率和计算性能至关重要,本篇文章将介绍如何在PowerBI中实现数字序列压缩。

问题描述

现有一串递增的数字序列字符串,为了方便观察规律,需要将其中的连续部分进行压缩,请自行建模完成计算。

具体问题如下图所示:

本案例的初始数据如下:

数字序列
1,2,3,5,6,7,9,10,11
2,4,6,8,9,10
11,12,13,20,21,22
0,1,6,8,9,10

若需其它辅助表等,可自行创建并建模。

解题要点

由于数字序列是以字符串形式存储的,因此在查找连续数字部分之前,需要先提取出所有的数字。

提取数字的方法主要有两种:

1、使用FIND函数找出所有分隔符的位置,形成区间,然后再使用MID函数来提取。

2、将分隔符替换成"|",将其转变成PATH系列函数能识别的层级结构路径,然后借助PATH系列函数来提取。

另外,提取出所有数字后,关于连续数字的查找可以参考下表的逻辑:

数字序号分组 (数字-序号)
110
220
330
642
752
862
1073
1385
1495

解决方案

首先,数据模型如下图所示:

然后,创建如下度量值,这里提供两种方法:

数字序列压缩1 = 
VAR CurText = MAX('表'[数字序列])
VAR SplitPositions = 
    UNION(
        SELECTCOLUMNS({0},"Position",[Value]),
        DISTINCT(
            FILTER(
                SELECTCOLUMNS(GENERATESERIES(1,LEN(CurText)),"Position",FIND(",",CurText,[Value],BLANK())),
                [Position]<>BLANK()
            )
        ),
        {LEN(CurText)+1}
    )
VAR SplitPosition_AddIndex = ADDCOLUMNS(SplitPositions,"Index",RANKX(SplitPositions,[Position],,1))
VAR NumList = 
    SELECTCOLUMNS(
        GENERATESERIES(1,COUNTROWS(SplitPositions)-1),
        "Num",
            VAR Start_ = SUMMARIZE(FILTER(SplitPosition_AddIndex,[Index]=[Value]),[Position])+1
            VAR End_ = SUMMARIZE(FILTER(SplitPosition_AddIndex,[Index]=[Value]+1),[Position])
            RETURN
            MID(CurText,Start_,End_-Start_)*1
    )
VAR NumList_Group = ADDCOLUMNS(NumList,"Group",[Num]-RANKX(NumList,[Num],,1))
VAR Result = 
    CONCATENATEX(
        GROUPBY(NumList_Group,[Group],"Min",MINX(CURRENTGROUP(),[Num]),"Max",MAXX(CURRENTGROUP(),[Num])),
        IF([Min]=[Max],[Max],[Min]&"-"&[Max]),
        " , ",
        [Min]
    )
RETURN
Result
数字序列压缩2 = 
VAR CurText = MAX('表'[数字序列])
VAR PathText = SUBSTITUTE(CurText,",","|")
VAR NumList = 
    SELECTCOLUMNS(
        GENERATESERIES(1,PATHLENGTH(PathText)),
        "Num",PATHITEM(PathText,[Value])*1
    )
VAR NumList_Group = ADDCOLUMNS(NumList,"Group",[Num]-RANKX(NumList,[Num],,1))
VAR Result = 
    CONCATENATEX(
        GROUPBY(NumList_Group,[Group],"Min",MINX(CURRENTGROUP(),[Num]),"Max",MAXX(CURRENTGROUP(),[Num])),
        IF([Min]=[Max],[Max],[Min]&"-"&[Max]),
        " , ",
        [Min]
    )
RETURN
Result

然后创建一个矩阵,并将数字序列字段作为行标签,再将上面的度量值放入矩阵的值字段即可,结果如下图所示:

总结

以上方法仅供参考,若有更优雅的解决方案,欢迎留言讨论,或者加入我们的技术交流群,一起享受这种思维碰撞的快乐吧!

PBI/DAX技术交流群(QQ):344353627

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

PowerBI | 夕枫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值