目录
【第二十一章:Sentosa_DSML社区版-图表分析】
图表分析类算子将数据以图表的方式展现出来,让数据更具有直观性,方便用户观察,查找数据之间的规律。图标分析类算子属于算子流中的终端算子。
21.1 散点图
1.算子介绍
散点图算子(ScattergramNode)是将数据以散点图的方式展示,方便查看数据的分布,能通过直观醒目的图形方式反映变量间关系的变化形态,以便决定用何种数学表达方式来模拟变量之间的关系。
2.算子类型
图表分析算子
3.算子属性说明
属性 |
页面显示名称 |
选项 |
类型 |
默认值 |
约束规则 |
属性说明 |
text |
标题 |
必填 |
String |
散点图 |
设置散点图的标题 |
|
subtext |
子标题 |
必填 |
String |
散点图 |
设置散点图的子标题 |
|
line |
数据提取行数 |
必填 |
Integer |
200 |
(0,5000) |
设置提取数据行数 |
fraction |
抽样因子 |
必填 |
Double |
0.5 |
(0,1]之间的数字 |
设置提取数据抽样因子 |
xname |
X轴列名 |
必填 |
String |
无 |
设置X轴列 |
|
yname |
Y轴列名 |
必填 |
String |
无 |
设置Y轴列 |
|
groupby |
分组列名 |
可选 |
String |
无 |
当前数据集里面测量类型为Categorical离散类型的列 |
设置分组列名 |
4.算子使用介绍
(1)算子初始化
参考公共功能算子初始化操作。
(2)算子属性设置
X轴,Y轴支持任意字段;分组为可选项,必须为离散类型字段。各轴的列名及分组列名通过下拉列表进行选择
通过下拉列表选择轴列名
无分组的属性设置及运行结果如图所示
无分组属性设置
无分组散点图运行结果
有分组的属性设置及运行结果如图所示
有分组属性设置
有分组散点图运行结果
(3)算子的运行
通过数据源算子读取数据,后续可以接任意个数据处理算子,然后接一个散点图算子。
21.2 柱状图
1.算子介绍
柱状图算子(BarNode)是将数据转化成柱状图的方式展示,柱状图利用柱子的高度,反映数据的差异。肉眼对高度差异很敏感,辨识效果非常好。柱状图的局限在于只适用中小规模的数据集。
2.算子类型
图表分析算子
3.算子属性说明
属性 |
页面显示名称 |
选项 |
类型 |
默认值 |
约束规则 |
属性说明 |
text |
标题 |
必填 |
String |
柱状图 |
设置柱状图标题 |
|
subtext |
子标题 |
必填 |
String |
柱状图 |
设置柱状图子标题 |
|
column |
统计列名 |
必填 |
List<String> |
无 |
可多选(非日期型) |
要计算统计值的列 |
group_by |
维度列名 |
可选 |
String |
无 |
当前数据集里面测量类型为离散类型的列 |
设置分组列名 |
aggregate |
统计方法 |
必填 |
String |
count |
单选: sum,avg,count,max,min,stddev,variance(当统计列名中有离散类型时,统计方法只能选count) |
指定统计方法 |
4.算子使用介绍
(1)算子初始化
参考公共功能算子初始化操作
(2)算子属性设置
统计列名为必填项支持非日期型字段;分组为可选项,必须为离散类型字段。统计列名及分组列名通过下拉列表进行选择。当统计列中有离散类型时,统计方法只能为count
“统计列名”中有离散列“统计方法”只能选“count”
有分组列时的运行结果如图所示
有分组列时的运行结果
当统计列名为连续数值类型时,统计方法的选项如图所示
统计列名中无离散列时的统计方法
其运行结果如图所示
统计方法为sum时的运行结果
(3)算子的运行
通过数据源算子读取数据,后续可以接任意个数据处理算子,然后接一个柱状图算子。
21.3 折线图
1.算子介绍
折线图算子(LineNode)是将数据以折线图的方式展示,折线统计图不仅可以表示数量的多少,而且可以反映同一事物在不同时间里的发展变化的情况。
2.算子类型
图表分析算子
3.算子属性说明
属性 |
页面显示名称 |
选项 |
类型 |
默认值 |
约束规则 |
属性说明 |
text |
标题 |
必填 |
String |
折线图 |
设置折线图的标题 |
|
line |
数据提取行数 |
必填 |
Integer |
200 |
(0,5000) |
设置提取数据行数 |
fraction |
抽样因子 |
必填 |
Double |
0.5 |
(0,1]之间的数字 |
设置提取数据抽样因子 |
xColumn |
X列名 |
必填 |
String |
auto |
单选 |
设置X轴列 |
column |
Y列名(多选) |
必填 |
String |
无 |
可多选 数值类型列 |
设置Y轴列 |
4.算子使用介绍
(1)算子初始化
参考公共功能算子初始化操作
(2)算子属性设置
折线图的X轴列名和Y轴列名都是必填项,当不选择X轴列名时为默认项auto
折线图算子属性配置
X列名单选默认为auto,可以为连续性或离散型。Y轴列名为多选,只能为数值型列,Y轴列名配置如下图所示
Y轴列名配置
其运行结果如下图所示
X轴为auto时的运行结果
X轴列名可为数据中的离散列,其设置及运行结果如图所示
X列名为离散列
X轴列名为离散列时的运行结果
(3)算子的运行
通过数据源算子读取数据,后续可以接任意个数据处理算子,然后接一个折线图算子。
21.4 饼状图
1.算子介绍
饼状图算子(PieNode)是将数据以饼状图的方式展示,使用饼状图可以查看部分占用总体的比例。
2.算子类型
图表分析算子
3.算子属性说明
属性 |
页面显示名称 |
选项 |
类型 |
默认值 |
约束规则 |
属性说明 |
text |
标题 |
必填 |
String |
饼状图 |
设置饼状图的标题 |
|
subtext |
子标题 |
必填 |
String |
饼状图 |
设置饼状图的子标题 |
|
column |
统计列名 |
必填 |
List<String> |
无 |
单选 |
要计算统计值的列 |
groupby |
分组列名 |
必填 |
String |
无 |
当前数据集里面测量类型为Categorical离散类型的列 |
设置分组列名 |
aggregate |
统计方法 |
必填 |
String |
count |
当统计列名为数值型数据列时,统计方法可以是max, min, avg, sum, count ,stddev,variance,当统计列名为离散型和日期型数据列时统计方法只能为count和distinct_count |
指定统计方法 |
4.算子使用介绍
(1)算子初始化
参考公共功能算子初始化操作。
(2)算子属性设置
饼状图的统计列名为必填项且只能有一列,分组列为必选项,必须为离散类型字段。统计列名及分组列名通过下拉列表进行选择。当统计列为连续型时,统计方法可以是max, min, avg, sum, count ,stddev,variance,当统计列名为离散型和日期型数据列时统计方法只能为count和distinct_count。
饼状图用以显示统计列中各分组的占比情况。统计列为离散列时的属性设置如下图所示。
统计列为离散列时的属性设置
当统计列为数值类型时,属性设置如下图所示。
统计列为连续型时的属性设置
属性配置的运行结果如图所示
饼状图运行结果
当点击图例“Japan”后图形中隐去Japan信息,点击后再次出现,隐藏效果如图所示。
点击图例后图形显示效果
(3)算子的运行
通过数据源算子读取数据,后续可以接任意个数据处理算子,然后接一个饼状图算子。
21.5 直方图
1.算子介绍
直方图算子(HistogramNode)算子是将数据以直方图的形式展示,显示数据的分布情况,并可以在图中显示数据的正态分布曲线。
2.算子类型
图表分析算子
3.算子属性说明
属性 |
前端显示名称 |
选项 |
类型 |
默认值 |
约束规则 |
注释 |
text |
标题 |
必填 |
String |
直方图 |
/ |
标题 |
subtext |
子标题 |
必填 |
String |
直方图 |
/ |
子标题 |
name |
统计列名 |
必选 |
String |
无 |
单选 必须是inputDataModel中数值型列 |
统计列名 |
class_type |
分组方式 |
必选单选 |
String |
number |
length(组距), number(组数) |
分组方式 |
length |
组距 |
当分组方式为组距时必填 |
Double |
1 |
当分组方式为组距时必填,大于0 |
组距 |
number |
组数 |
当分组方式为组数时必填 |
Integer |
20 |
大于等于1 |
组数 |
group |
分组列名 |
可选单选 |
String |
无 |
离散列 |
分组列 |
distribution |
显示正态分布 |
必选 |
Boolean |
false |
true(是),false(否) |
是否显示正态分布 |
4.算子使用介绍
(1)算子初始化
参考公共功能算子初始化操作
(2)算子属性设置
直方图的统计列必须为数值型,分组方式可选组距或组数,用于统计各范围数据的分布情况。分组列为离散型,可选,可以显示另一数据维度的信息。直方图算子属性设置如下图所示。
直方图算子属性设置
其运行结果如图所示
直方图算子运行结果
(3)算子的运行
通过数据源算子读取数据,后续可以接任意个数据处理算子,然后接一个直方图算子。