
hive
文章平均质量分 65
ZhanYunQI
这个作者很懒,什么都没留下…
展开
-
sparkSql(hive) 复合数据类型的使用
在Hive中可以使用复合数据类型,有三种常用的类型:Array 数组,Map 字典,Struct结构。在sparkSql中RDD可以转换成非常灵活的DataFrame,但是如果需要将数据结构完整的存储为Hive表,那么在RDD到DataFrame转换中需要遵守一些规则。在Hive中创建复合数据类型的语法:create table plan(clientid string原创 2017-01-09 22:48:09 · 3068 阅读 · 0 评论 -
spark 报错收集
最近做spark sql开发碰到了许多问题,下面对报错信息做下记录1, StructType can not accept object in type 将RDD创建成DataFrame的时候,报上述错误,修正方式如下:将RDD中的行转换成Row类型就可以了2,1, RDD转换成DataFrame的时候,报错:TypeError Integer typ原创 2017-01-11 19:54:08 · 1904 阅读 · 0 评论 -
parquet 原理
最近偶然的因素,突然觉得这个格式很神奇,找了很多文章细读了一遍,特整理如下. 第一篇文章里面讲的很通俗,易懂.但是对于之前没有背景的,细节地方不好理解,因为里面的实例比较简单和真实案例差别比较大.深入分析Parquet列式存储格式http://www.infoq.com/cn/articles/in-depth-analysis-of-parquet-column-转载 2017-03-26 09:10:54 · 2166 阅读 · 0 评论