
Hive
文章平均质量分 74
富兰克林008
支撑系统运维。
展开
-
Hive Metastore实践总结
Hive Metastore实践总结装上了CDH5,配置了Hive角色实例,然后建表了。那么元数据库里面有啥东西,大概是什么?3中模式,CDH5我安装用Remote模式:Configuring the Hive Metastore http://www.cloudera.com/content/www/en-us/documentation/archive/cdh/4-原创 2015-12-16 13:10:41 · 2852 阅读 · 0 评论 -
sqoop工具在hive和mysql之间互相导数据
参考:Sqoop中文手册1、列出mysql数据库:sqoop list-databases --connect jdbc:mysql://192.168.100.13:3306 --username hive --password hive[root@master sqoop]# sqoop list-databases --connect jdbc:mysql://192原创 2015-12-18 09:23:01 · 1871 阅读 · 0 评论 -
crontab shell调用spark-sql,实现周期性动态SQL批量自动执行
对于熟悉Scala开发的人来说,对于spark-sql的使用,直接jar包中写入代码处理就能轻松实现动态语句的执行。但是对于我,不打算学习Scala和Java语言,但是又想定时执行时间推延的周期、定时任务,该肿么办?spark-sql CLI几个参数,完全满足我等非专业人员。CLI options: -d,--define Variable subsit原创 2015-12-18 13:11:39 · 6629 阅读 · 1 评论 -
Impala,Hive,SparkSQL数据清洗后对后续查询的影响比较
Impala,Hive,SparkSQL数据清洗后对手续查询的影响比较SparkSQL和Impala执行的时间会比较快,Hive明显慢很多,但是这里比较不是执行单次查询效率,而是三种方式清洗后数据产生结果小文件对后续使用的影响。首先准备好2000万表记录,作为外部表建好。然后把出生日期星座划分,结果生成表格存放。三种方式存放3个不同表格。####################原创 2015-12-20 15:44:25 · 6091 阅读 · 0 评论