- 博客(21)
- 资源 (5)
- 收藏
- 关注
转载 Presto查询原理分析
看到一篇比较好的文章,转载下,方便查看版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.youkuaiyun.com/zxh19800626/article/details/84670929...
2019-08-19 14:59:09
628
转载 RDD:基于内存的集群计算容错抽象
QQ交流群:335671559,欢迎交流这篇文章翻译的很好,关于RDD的内容讲解的很详细,值得一看!该论文来自Berkeley实验室,英文标题为:Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing。下面的翻译,我是基于科学网翻译基础上进行优化
2015-01-09 15:43:38
1645
原创 hive由fs.hdfs.impl.disable.cache参数引起的重写分区数据的异常
hive设置fs.hdfs.impl.disable.cache=true时,使用insert overwrite命令更改分区数据时会出现把分区的路径修改掉异常,根据源码排查了下出现该问题的原因!
2015-01-08 11:06:38
11275
原创 hive元数据库配置、metadata
介绍hive默认元数据Derby(嵌入模式),修改hive的元数据库,使用mysql。配置mysql的几种不同机制
2014-11-13 20:34:15
15983
原创 hive 处理小文件,减少map数
hive 处理小文件,减少map数1、hive.merge.mapfiles,True时会合并map输出。2、hive.merge.mapredfiles,True时会合并reduce输出。3、hive.merge.size.per.task,合并操作后的单个文件大小。4、hive.merge.size.smallfiles.avgsize,当输出文件平均大小小于设定值时,启动合并操作。这一设定只有当hive.merg
2014-04-04 13:39:09
4618
转载 MapReduce 中的两表 join 几种方案简介
1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自File
2014-04-03 12:12:23
1059
原创 java poi操作excel
一、需要引入的包二、创建HSSFWorkbook对象 HSSFWorkbook对象就是用来对excel文件进行操作。 InputStream ins = new FileInputStream(srcPath); HSSFWorkbook wkbook = new HSSFWorkbook(ins);//从输入流创建对象三、获得shee
2014-02-27 10:24:26
1030
转载 java Integer.valueOf()方法
Integer.valueOf()方法实现如下: public static Integer valueOf(int i) { assert IntegerCache.high >= 127; if (i >= IntegerCache.low && i <= IntegerCache.high) return Intege
2014-02-11 13:13:49
2096
原创 hive 重装之后配置mysql出现错误 解决办法
出现的问题:FAILED: Error in metadata: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClientFAILED: Execution Error, return code 1 from org.apache.hado
2014-02-08 14:42:12
1872
原创 hive 性能 调优、优化
1、explain _query与 explain extended _query用于查看hive对hql的解析,包括执行阶段、执行任务和任务属性explain select name from testexplain extended select name from test...2、limit在使用客户端查询hive数据时,经常会用到limit限制输出数据数目,很多
2014-01-10 17:26:22
2841
原创 hadoop 2.x 环境搭建
一. 安装JDK,配置环境JAVA环境变量#Javaexport JAVA_HOME=/home/jyl/jdk1.6/jdk1.6.0_37export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexport PATH=$JAVA_HOME/bin:$PATH二. 安装ssh
2013-11-01 14:34:08
1264
原创 hive view 视图
视图可以保存查询语句,可以像对待表一样对待视图,它只是一个逻辑上的结构,目前hive还不支持实例化的视图7.1 视图降低复杂度原始语句FROM (SELECT * FROM people JOIN cartON (cart.people_id=people.id) WHERE firstname='john') a SELECT a.lastname WHERE
2013-09-17 10:25:09
2850
原创 hive 数据查询
一、SELECT ... FROM ...子句hive> SELECT name, salary FROM employees;hive> SELECT e.name, e.salary FROM employees e;第一种方式是我们普遍使用的,第二种方式使用了别名,这在JOIN查询时非常必要 1.1 查询数组结果,subordinates 数组类型
2013-09-12 17:53:03
2537
原创 hive数据操纵
1、Loading Data into Managed Tables 加载数据本地数据: LOAD DATA LOCAL INPATH '${env:HOME}/california-employees' //一般是目录 OVERWRITE INTO TABLE employees PARTITION (country = 'US', state = 'CA');
2013-09-12 17:51:31
989
原创 Hadoop分布式集群IP配置和VBox linux虚拟机网卡配置
Hadoop分布式集群IP配置和VBox linux虚拟机网卡配置目录一、VBox linux虚拟机网卡配置二、单机伪分布式配置三、多台节点的集群配置四、windows通过VBox连接linux虚拟机一、VBox linux虚拟机网卡配置 在VBox的设置中,选择“网络”单选项,勾选“启用网络连接”,然后选
2013-08-21 12:07:44
2937
原创 hadoop 1.x集群搭建及搭建过程遇到的问题总结
hadoop集群搭建Hadoop集群搭建Master机的ip地址假定为192.168.1.1 slaves1的假定为192.168.1.2 slaves2的假定为192.168.1.3 各台机器的用户同为redmap, hadoop 根目录为: /hadoop(即直接在filesystem里装得hadoop)(1) 192.168.1.1 redmap-master 作
2013-07-22 11:15:31
2332
Hadoop分布式集群IP配置和VBox linux虚拟机网卡配置
2013-07-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人