数据准备最佳实践指南
一、潜在问题表的处理
当发现潜在有问题的表后,可采取以下操作:
1. 消除不必要的列 :去除对分析无用的列,减少数据冗余。
2. 过滤数据以减少行数 :通过设置过滤条件,筛选出符合要求的数据,降低数据量。
3. 考虑改变表的粒度 :可通过聚合数值来改变某些表的粒度。
4. 正确处理数据类型 :这一点至关重要,后续会详细介绍相关最佳实践。
二、Power Query中的大小写敏感性
Power Query是区分大小写的,这不仅体现在语法上,字符串数据类型在不同大小写情况下也不相等。例如:
- C54FF8C6 - 4E51 - E711 - 80D4 - 00155D38270C
- c54ff8c6 - 4e51 - e711 - 80d4 - 00155d38270c
在Power Query中,这两个值不相等。如果在合并表时使用不同大小写的键列,或者在数据模型中创建关系时使用不同大小写的键列,都会得到错误的结果。解决方法是使用 Text.Upper() 或 Text.Lower() 函数,使两个键列保持相同的大小写。
三、查询折叠及其对数据刷新的影响
数据建模者需要格外关注查询折叠。查询折叠不仅会影响数据刷新的性能,还会影响数据刷新期间的资源利用率。对于增量数据刷新和DirectQuery或Dual存储模式的模型来说,查
超级会员免费看
订阅专栏 解锁全文
9万+

被折叠的 条评论
为什么被折叠?



