参考
参考:https://edu.fanruan.com/video/525
数据编辑
前言
前期数据处理的不太恰当会导致后续分析可视化的困难。
分析的第一步来先数据编辑。
数据编辑的常见顺序:1.调整并简化数据结构。
2.多表合并。
3.新增指标。针对具体场景这个顺序不是固定的。
场景案例考试成绩分析场景
你是一名小学年级主任,因为疫情关系,期末考试线上进行;但正当你想分析成绩数据的时候,发现数据质量并不如意。。。
请通过数据编辑,并完成以下分析:
•分析各班的三总成绩+综合素质成绩(体育+美术+社会实践)
•计算各班的优良等第情况(90分以上为优秀,70-90为良好,60-70为及格,其余为不及格)
•分析同学们的平均作答时间。
•分析同学们的考试时间分布。
1.调整并简化数据结构
1.1 调整数据结构
拆分行列
拆分成行时,需要进行以下设置
选择字段:需要拆分的字段
拆分方式:按分隔符号拆分,
例如空格、分号
拆分行列
拆分成列时,需要进行以下设置
选择字段:需要拆分的字段
拆分方式:
按分隔符号拆分,例如空
格、分号;额外可以选择按字符数来
拆分
需要选择拆分的结果(前n列/第n列)
行列互转
行转列
转换行字段:新的表头
新列的值为:填充进列里的内容
1.2简化数据——字段设置
字段设置
• 修改字段类型-文本、数值、时间
• 重命名字段
• 调整字段顺序
• 隐藏字段
删除重复行
删除重复行
• 去重逻辑:依据去重字段,保留最前面的一行
去除空值
去除空值
1、“大海里的一滴水”,放着不管,问题不大
2、“害群之马不可留”,通过过滤,删除含null的数据
3、“灵活分析要保留”,有业务含义时,打上标签,方便分析时过滤
总结
调整数据结构:
1、把数据处理成你要分析的维度和指标
相关功能:拆分行列、行列转换、字段设置
重复行:
1、系统的一些问题带来的两条完全一样的数据,直接去重
2、有业务含义的,需要有选择的去重,先排序再删除重复行。
清理null值:
1、“大海里的一滴水”,放着不管,问题不大
2、“害群之马不可留”,通过过滤,删除含null的数据
3、“灵活分析要保留”,有业务含义时,打上标签,方便分析时过滤
2.多表合并
2.1多表合并-上下合并
上下合并
上下合并
• 表格上下扩展时使用
• 匹配两表直接的字段即可
其他表添加列
其他表添加列
• 类似于Excel中的 vlookup、sumif
• 设置需要添加进来的字段,添加过程中可以进行计算。
• 再设置匹配依据。
2.2什么是匹配依据?
匹配依据/合并依据
• 决定了数据在合并到另一张表时匹配到哪里的关键字段。
• 根据场景可能需要多选。
2.3多表合并-左右合并
左右合并
左右合并
• 即sql中的join
• 有左合并,右合并,并集合并,交集合并四种。
接下来的例子中所有合并依据均为姓名字段!
左合并
右合并
并集合并
交集合并
常见问题:笛卡尔积
多表合并——总结
1、表格上下扩展,分析指标不变,就用上下合并
2、表格左右扩展,分析指标变多,先考虑其他表添加列。
初学者记忆建议:
•其他表添加列=vlookup、sumif(一般合并聚合指标)
•左右合并=left join、right join…(一般合并明细指标)
3.新增分析指标
3.1新增分析指标
常用按钮位置
一、在数据编辑中添加(禁止使用聚合函数)
二、在组件中添加计算字段
新增公式列
和excel写公式类似。也是我们最常用的新增字段方法。
新增汇总列
类似分组汇总;excel的数据透视。
但不会破坏原有的表结构
新增赋值列
类似写if条件
条件标签列
嵌套if条件时,用条件标签列可以更快配置好。
时间差
• 快速计算两个时间字段的间隔
• 可以选择单位
获取时间
• 提取时间字段中的具体时间
• 可以选择单位
• 输出的字段类型为数值
注:仅仅是需要得到一个分组的时间粒度,例如按月份统计销售额这样的情况,直接在组件中改变时间字段粒度即可。
新增分析指标——总结
1、要写公式的:添加公式列
2、要算汇总值的:添加汇总列
3、要写多重if嵌套的,直接用:条件标签列
4、涉及时间字段处理的:时间差、获取时间
4.实操环节
原始数据以及数据分析设计
数据编辑
导入数据 ,首先简化数据结构
拆分行列
简化数据结构-拆分行列
每个科目都变为一行了
这时还需要把语文和100分开,继续拆分行列
拆分后,设置成绩字段为数值
隐藏掉考核结果和一些中间过程
修改新生成的列的名字
行列互转
行列互转
去重
点击列的三角可以看到列的统计信息
选择李明,确定,会生成一个过滤操作
可以看到李明交了两次试卷,为了去重,保留最后一次交卷的成绩,我们就需要做一个排序,排序前先对过滤李明的这个动作做一个取消应用的动作,避免只对李明进行排序
单击排序,单击添加排序列,添加姓名列和交卷时间,交卷时间选择降序
排序后,进行去重,选择更多–删除重复行–选择去重字段
处理空值
过滤–添加条件–添加姓名字段–非空 完成过滤掉姓名字段为空值的数据
针对成绩为空的
条件标签列–名称为缺考标记–条件为或–具体条件为语文/数学/英语成绩为空
上下合并
这时我们会发现2班3班也需要同样的处理,可以在操作的前面,点击加号,完成合并操作
选择对应的表
然后出现如下合并页面
提交时间和交卷时间是一样的,可以把提交时间拖动到交卷时间一起合并
小提示:这样操作丢失了原有数据的指标来源班级,可以在合并前,新加班级列,然后再合并
左右合并
把学生信息表也合并过来
通过左右合并
其它表添加列
查看综合素质成绩
其它表添加列–选择综合素质表–选择字段为成绩–匹配信息选择名字
单击确定,然后修改成绩为综合素质成绩
把李明的过滤操作拖动下下面
查看李明的成绩信息,
李明的综合素质成绩为84,对比下综合素质成绩表中的数据
数据分析
新建公式列
新增公式列–设置列名为三总成绩–设置公式规则
生成如下
新建标签列
优秀标签设置
良好标签设置
及格标签设置
其它标签设置为不及格
添加一个有缺考标签
平均作答时间
时间差–输入列名–时间差为交卷时间减去开卷时间–单位选择分
开考时间
获取时间-指定列名-选择字段为开考时间-获取时间为小时
数据校验小技巧
创建分组–命名为调整并简化数据结构
1、数据校验莫忘记
2、表头过滤组合技
3、历史步骤小技巧玩起来:取消应用,拖动调整位置
4、分组表聚合了再看看