1.1. DataFrame常用操作
1.1.1. DSL风格语法
//查看DataFrame中的内容
personDF.show
//查看DataFrame部分列中的内容
personDF.select(personDF.col(“name”)).show
personDF.select(col(“name”),col(“age”)).show
personDF.select(“name”).show
//打印DataFrame的Schema信息
personDF.printSchema
//查询所有的name和age,并将age+1
personDF.select(col(“id”),col(“name”), col(“age”) + 1).show
personDF.select(personDF(“id”),personDF(“name”), personDF(“age”) + 1).show

//过滤age大于等于18的
personDF.filter(col(“age”)>= 18).show

//按年龄进行分组并统计相同年龄的人数
personDF.groupBy(“age”).count().show()

1.1.2. SQL风格语法
如果想使用SQL风格的语法,需要将DataFrame注册成表
personDF.registerTempTable(“t_person”)
//查询年龄最大的前两名
sqlContext.sql(“select* from t_person order by age desc limit 2”).show

//显示表的Schema信息
sqlContext.sql(“desct_person”).show
本文详细介绍了使用DataFrame进行数据操作的方法,包括DSL风格和SQL风格的查询、筛选、分组统计等核心功能,为初学者和进阶用户提供实用的操作技巧。
2791

被折叠的 条评论
为什么被折叠?



