- 博客(2)
- 资源 (1)
- 收藏
- 关注
原创 在RDD、DataFrame和DataSet之间怎么选?
先来介绍一下spark中的RDD、DataFrame和DataSet:RDD(弹性分布式数据集)数据元素的不可变的分布式集合,在集群中的节点之间进行分区,可以与提供转换和操作的低水平的API并行操作。DataFrame是一个不可变的分布式数据集合。与RDD不同,数据被组织成命名列,就像关系数据库中的表,为了使大数据集处理变得更加容易,DataFrame允许开发人员将结构强加于分布式数据集合...
2018-02-27 16:44:30
1511
原创 Hive中UDF和UDAF使用说明及示例
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:a)文件格式:Text File,Sequence Fileb)内存中的数据格式:Java Integer/Str...
2018-02-28 11:54:34
3864
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅