
hadoop
文章平均质量分 68
脚踏宝马
这个作者很懒,什么都没留下…
展开
-
hive数据操纵
1、Loading Data into Managed Tables 加载数据本地数据: LOAD DATA LOCAL INPATH '${env:HOME}/california-employees' //一般是目录 OVERWRITE INTO TABLE employees PARTITION (country = 'US', state = 'CA');原创 2013-09-12 17:51:31 · 989 阅读 · 0 评论 -
Hadoop分布式集群IP配置和VBox linux虚拟机网卡配置
Hadoop分布式集群IP配置和VBox linux虚拟机网卡配置目录一、VBox linux虚拟机网卡配置二、单机伪分布式配置三、多台节点的集群配置四、windows通过VBox连接linux虚拟机一、VBox linux虚拟机网卡配置 在VBox的设置中,选择“网络”单选项,勾选“启用网络连接”,然后选原创 2013-08-21 12:07:44 · 2937 阅读 · 0 评论 -
hive 数据查询
一、SELECT ... FROM ...子句hive> SELECT name, salary FROM employees;hive> SELECT e.name, e.salary FROM employees e;第一种方式是我们普遍使用的,第二种方式使用了别名,这在JOIN查询时非常必要 1.1 查询数组结果,subordinates 数组类型原创 2013-09-12 17:53:03 · 2537 阅读 · 0 评论 -
MapReduce 中的两表 join 几种方案简介
1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自File转载 2014-04-03 12:12:23 · 1059 阅读 · 0 评论 -
hive压缩
hive采用压缩进行性能优化原创 2014-08-15 19:04:06 · 3992 阅读 · 0 评论 -
hive安装部署
hive安装部署,部署环境,操作步骤原创 2014-11-13 20:30:08 · 2859 阅读 · 0 评论 -
hadoop 1.x集群搭建及搭建过程遇到的问题总结
hadoop集群搭建Hadoop集群搭建Master机的ip地址假定为192.168.1.1 slaves1的假定为192.168.1.2 slaves2的假定为192.168.1.3 各台机器的用户同为redmap, hadoop 根目录为: /hadoop(即直接在filesystem里装得hadoop)(1) 192.168.1.1 redmap-master 作原创 2013-07-22 11:15:31 · 2339 阅读 · 0 评论 -
hadoop 2.x 环境搭建
一. 安装JDK,配置环境JAVA环境变量#Javaexport JAVA_HOME=/home/jyl/jdk1.6/jdk1.6.0_37export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexport PATH=$JAVA_HOME/bin:$PATH二. 安装ssh原创 2013-11-01 14:34:08 · 1264 阅读 · 0 评论 -
hive 性能 调优、优化
1、explain _query与 explain extended _query用于查看hive对hql的解析,包括执行阶段、执行任务和任务属性explain select name from testexplain extended select name from test...2、limit在使用客户端查询hive数据时,经常会用到limit限制输出数据数目,很多原创 2014-01-10 17:26:22 · 2841 阅读 · 0 评论