spark RDD[Row] 字段太多优化处理

max_hello

已于 2023-01-11 16:29:12 修改

阅读量1.3k

点赞数

CC 4.0 BY-SA版权

分类专栏： spark hive 文章标签： spark 大数据分布式

于 2019-12-13 10:21:29 首次发布

本文链接：https://blog.youkuaiyun.com/max_hello/article/details/103522064

spark 同时被 2 个专栏收录

5 篇文章

订阅专栏

hive

4 篇文章

订阅专栏

本文详细介绍了如何在Spark中使用Scala进行DataFrame的操作，包括如何从现有的Row对象创建新的DataFrame，通过添加字段到mutable.Buffer并更新schema来实现DataFrame的扩展。这对于理解和实践大数据处理中的数据结构调整具有重要意义。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

val buffer: mutable.Buffer[Object] = Row.unapplySeq(row).get.map(_.asInstanceOf[Object]).toBuffer
          buffer.append(要加的字段) 
          val schema: StructType = row.schema.add("aaa", StringType).add("bbb", StringType).add("ccc", StringType)
          val new_row = new GenericRowWithSchema(buffer.toArray, schema)

关注博主即可阅读全文