关于Spark的Dateset的操作
1.拼接字符串
当你需要进行字符串和列的值进行拼接组成新的列时:
functions.concat(functions.lit("id="), user.col("id"),
functions.lit("name="), user.col("name")).as("student"))
代码解析:functions.concat 是拼接方法,functions.lit(“id=”) 需要拼接的字符串,
goods.col(“id”) user是一个Dateset< Row > ,id是user的一列的列明,以此类推,
as(“student”))是组合后的字符串作为值的名称。
2.创建UDF匿名内部类并使用
当你需要对一列或者多列值进行组合操作并且需要返回值时
UDF2 hashKey = new UDF2<String, String, String>() {
public String call(final String arguments, final String arguments2) throws Exception {
String spliceString = arguments + arguments2;
return DigestUtils.md5Hex(spliceString);
}
};
spark.udf().register("hashKey", hashKey, DataTypes.StringType);
代码解析:UDF2 是代表有两个参数的接口,虽然后面有三个String我们一般只会输入其中两个,由于需要创建实例,必须实现它的抽象,call,在方法中可以对传入参数做处理并进行返回,DigestUtils.md5Hex(spliceString),我这里是对拼接的字符串做了MD5加密,spark.udf().register(“hashKey”, hashKey, DataTypes.StringType),使用这种UDF的方法必须要注册,否则无法使用。
functions方法中数组字段与对象字段
当你的某个字段的内容是数组或者对象,或者相互组合的情况
functions.struct(user.col(id),user.col(name));
functions.array(user.col(id),user.col(name));
functions.struct(functions.array(user.col(id),user.col(name)),
functions.array(user.col(id),user.col(name)));
functions.array(functions.struct(user.col(id),user.col(name)),
functions.struct(user.col(id),user.col(name)));
代码解析:
functions.struct(user.col(id),user.col(name));显示结果:{ }
functions.array(user.col(id),user.col(name));显示结果:[ ]
functions.struct(functions.array(user.col(id),user.col(name)),
functions.array(user.col(id),user.col(name)));
显示结果:{[ ],[ ]}
functions.array(functions.struct(user.col(id),user.col(name)),
functions.struct(user.col(id),user.col(name)));
显示结果:[{ },{ }]
参考Spark KPI:http://spark.apachecn.org/#/