1、对于clementine中的节点功能,自己仅仅只用了"初级功能"。所谓初级功能,就是知道这个节点有什么作用?比如导出节点,可以导出一个新的字段。如果数据宽表中有3个月总的收入,那么可以导出3个月的均值=3个月总的费用/3。填充节点,可以填充宽表中的为空、为null值为0等等。这些数据处理方面的能力仅仅停留在很浅显的层面,往往在实际工作中遇到的问题,这些初级数据处理能力会导致无法解决问题,或者处理问题很繁杂。
2、由于工作中数据处理的需要,需要对于很多字段进行数据标准化操作。刚开始很头疼,需要一个字段一个字段进行处理,浪费时间而且往往容易出错。然后自己开始抱怨clementine数据处理能力太差了。但随着对于clementine中的函数方面的功能的进一步了解,这才发现其实clementine的数据处理能力还是不错的。只是有些功能自己不会而已。
3、对多个字段进行标准化操作,先选择模式为多个,然后选择你要标准化的字段,然后写入如下代码,就可以进行标准化操作了,@FIELD代表了各个字段的值 @GLOBAL_MEAN(@FIELD)代表各个字段的平均值,@GLOBAL_SDEV(@FIELD)代表各个字段的标准差,从而衍生出各个字段的标准差。标准化的字段名称为各字段名称后面加上_导出1。记得用设置全局量节点生成各个字段全局平均值和全局标准差,不然会报错。

图1:各字段进行标准化

图2:各字段衍生出全局平均值、标准差
原文:http://blog.sina.com.cn/s/blog_6838e0b401012juy.html
***************************************************************************************************************

,set globals节点在output文件夹。