
hive
文章平均质量分 92
fansy1990
这个作者很懒,什么都没留下…
展开
-
Hive实践(hive0.12)
版本:cdh5.0.0+hadoop2.3.0+hive0.12一、原始数据:1. 本地数据[root@node33 data]# lltotal 12936-rw-r--r--. 1 root root 13245467 May 1 17:08 hbase-data.csv[root@node33 data]# head -n 3 hbase-data.csv 1,1.52101,13原创 2014-05-06 13:11:59 · 2312 阅读 · 0 评论 -
hive1.2.1源码导入eclipse
软件版本:hive1.2.1 ,eclipse4.5,maven3.2 ,JDK1.7软件准备:hive:环境准备:(1). 安装好的hadoop集群(伪分布式亦可);(2) linux 下maven环境;(这里需要说下,maven编译hive,在windows下是不通的,因为里面需要bash的支持,所以直接使用linux编译hive就好)0. 编译前,建议把maven的local_reposit原创 2015-10-22 22:44:15 · 15637 阅读 · 0 评论 -
Oozie4.2.0配置安装实战
软件版本:Oozie4.2.0,Hadoop2.6.0,Spark1.4.1,Hive0.14,Pig0.15.0,Maven3.2,JDK1.7,zookeeper3.4.6,HBase1.1.2,MySQL5.6集群部署:node1~4.centos.com node1~4 192.168.0.31~34 1G*4 内存 1核*4 虚拟机node1:N原创 2016-01-23 23:44:39 · 7878 阅读 · 9 评论 -
Spark读写Hive
环境:CDH5.8,Spark:1.6.0;Hadoop:2.6.0,Intellij IDEA14 ,jdk1.8,sdk:2.10.6 ,maven:3.3.3;工程下载地址:1. Spark读取HiveSpark读取Hive,使用的是HiveContext,第一步使用sc生成一个HiveContext,然后其他操作就是在HiveContext里面操作了;比如使用HiveContext的tab原创 2016-11-29 22:42:00 · 13692 阅读 · 0 评论 -
Spark读写Hive添加PMML支持
软件版本:CDH:5.8.0;Hadoop:2.6.0 ; Spark:1.6.0; Hive:1.1.0;JDK:1.7 ; SDK:2.10.6(Scala)目标:在Spark加载PMML文件处理数据(参考:http://blog.youkuaiyun.com/fansy1990/article/details/53293024)及Spark读写Hive(http://blog.youkuaiyun.com/fans原创 2016-12-03 15:49:45 · 3910 阅读 · 0 评论 -
Spark SQL filter not contains
软件环境:CDH5.8.0;问题:在使用Spark SQL 读取Hive进行操作的时候,需要使用不包含,如下:(在Spark SQL中有contains,like,rlike函数)在Hive中有表id_url ,内容如下:+------------+-----------------------------------+--+| id_url.id | id_url.ur原创 2017-05-23 21:21:47 · 9777 阅读 · 0 评论 -
Hive性能调优
软件环境:Hive1.2.1 /Hadoop2.6.4 ;直接使用Hive Cli模式运行;1. 设置执行引擎set hive.execution.engine=mr;set hive.execution.engine=spark;如果设置执行引擎为mr,那么就会调用Hadoop的maprecude来运行需要执行job的程序;如果设置执行引擎为spark,那么就会调用spark来执行任务。有条件原创 2017-07-01 17:51:20 · 19013 阅读 · 1 评论