Spark Hive
吉阿
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive
HiveHive 中包含以下数据模型:表(Table),外部表(External Table),分区(Partition),桶(Bucket)。每一个 Table 在 Hive 中都有一个相应的目录存储数据。例如,一个表 pvs,它在 HDFS 中的路径为:/wh/pvs,其中,wh 是在 hive-site.xml 中由 hive.metastore.warehouse.dir指定的数据仓库的目录转载 2016-11-17 22:37:15 · 806 阅读 · 0 评论 -
Hive--HiveQL与SQL区别
链接1.hive内联支持什么格式?2.分号字符注意什么问题?3.hive中empty是否为null?4.hive是否支持插入现有表或则分区中?5.hive是否支持INSERT INTO 表 values()?1、Hive不支持等值连接 •SQL中对两表内联可以写成:•select * from dual a,dual b where a.key = b.转载 2016-11-15 08:53:53 · 21724 阅读 · 1 评论 -
Hive on Spark 与Spark SQL比较
Hive on Spark 与Spark SQL比较背景Hive on Spark是由Cloudera发起,由Intel、MapR等公司共同参与的开源项目,其目的是把Spark作为Hive的一个计算引擎,将Hive的查询作为Spark的任务提交到Spark集群上进行计算。通过该项目,可以提高Hive查询的性能,同时为已经部署了Hive或者Spark的用户提供了更加灵活的选择,从而进一步提高Hive和转载 2016-11-17 22:29:15 · 7118 阅读 · 1 评论 -
Spark连接MongoDB
jdk1.8安装jdk解压到/opt/java目录,然后在~/.bashrc中加入下面几行:export JAVA_HOME=/opt/java/jdk1.8.0_101export JRE_HOME=${JAVA_HOME}/jreexport CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexport PATH=/usr/local/sbin:/u原创 2016-10-12 19:21:12 · 11053 阅读 · 2 评论 -
Spark 连接Hive分布式环境搭建
创建用户 adduser username chmod u+w /etc/sudoers vim /etc/sudoers chmod u-w /etc/sudoers源码编译mysql 5.5 (安装多个版本的MySQL)安装cmake下载地址:http://www.cmake.org/[plain] view转载 2016-12-02 16:54:42 · 1597 阅读 · 0 评论 -
spark性能优化:数据倾斜调优
原文链接调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象 1、绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个转载 2016-11-23 21:15:11 · 487 阅读 · 0 评论 -
Spark算子:RDD行动Action操作(4)–countByKey、foreach、foreachPartition、sortBy
点击打开链接countByKeydef countByKey(): Map[K, Long]countByKey用于统计RDD[K,V]中每个K的数量。[plain] view plain copy print?scala> var rdd1 = sc.makeRDD(Array(("A",0),("A",2),("B转载 2016-11-23 21:17:20 · 415 阅读 · 0 评论
分享