
spark-sql
哈哈-bazinga
蓦然回首,那人竟在灯火阑珊处!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark-sql小错
在本地跑各种顺畅:到集群上就不行了,各种报错:解决:将中的provided去掉,然后编译打包在集群上再次跑。又报错:将配上,编译打包在集群上再次跑接着报错:真是完蛋了!然后想起来我们测试集群有两个版本的spark(有hive和没hive的)查看环境变量配置的是没hive的:使用有hive的spark再次提交,发现还是哪些错(啊啊)突然看到:意味着我就是用有hive的spark版本他还是会用你的环境...原创 2018-05-03 14:24:57 · 389 阅读 · 0 评论 -
hive parquet table 配置压缩
最近用hivecontext 向hive parquet表中插入数据,发现了一个问题:总量700M的数据在parquet表中竟然有600M。百度,发现了这个:https://blog.youkuaiyun.com/xiao_jun_0820/article/details/76893331再看看自己的建表语句,确实没有指定压缩。指定一下:得到结果:gzip、文本形式的、snappy、默认parquet 的大小...原创 2018-05-03 18:44:45 · 1252 阅读 · 0 评论