脚踏宝马-优快云博客

转载 RDD：基于内存的集群计算容错抽象

QQ交流群：335671559,欢迎交流这篇文章翻译的很好，关于RDD的内容讲解的很详细，值得一看！该论文来自Berkeley实验室，英文标题为：Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing。下面的翻译，我是基于科学网翻译基础上进行优化

2015-01-09 15:43:38 1681

原创 hive由fs.hdfs.impl.disable.cache参数引起的重写分区数据的异常

hive设置fs.hdfs.impl.disable.cache=true时,使用insert overwrite命令更改分区数据时会出现把分区的路径修改掉异常，根据源码排查了下出现该问题的原因！

2015-01-08 11:06:38 11429

原创 hive 空值、NULL判断

hive空值、NULL判断以及存储

2014-12-11 19:34:15 63868 1

原创 hive元数据库配置、metadata

介绍hive默认元数据Derby（嵌入模式），修改hive的元数据库，使用mysql。配置mysql的几种不同机制

2014-11-13 20:34:15 16070

原创 hive安装部署

hive安装部署，部署环境，操作步骤

2014-11-13 20:30:08 2899

hive 处理小文件，减少map数1、hive.merge.mapfiles，True时会合并map输出。2、hive.merge.mapredfiles，True时会合并reduce输出。3、hive.merge.size.per.task，合并操作后的单个文件大小。4、hive.merge.size.smallfiles.avgsize，当输出文件平均大小小于设定值时，启动合并操作。这一设定只有当hive.merg

2014-04-04 13:39:09 4674

原创 hive 查看、修改表属性

hive 查看、修改表属性

2014-04-04 13:30:01 3414

转载 MapReduce 中的两表 join 几种方案简介

1. 概述在传统数据库（如：MYSQL）中，JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作，同样常见且耗时，由于Hadoop的独特设计思想，当进行JOIN操作时，有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法，然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自File

2014-04-03 12:12:23 1087

原创 java poi操作excel

一、需要引入的包二、创建HSSFWorkbook对象 HSSFWorkbook对象就是用来对excel文件进行操作。 InputStream ins = new FileInputStream(srcPath); HSSFWorkbook wkbook = new HSSFWorkbook(ins);//从输入流创建对象三、获得shee

2014-02-27 10:24:26 1074

转载 java Integer.valueOf()方法

Integer.valueOf()方法实现如下： public static Integer valueOf(int i) { assert IntegerCache.high >= 127; if (i >= IntegerCache.low && i <= IntegerCache.high) return Intege

2014-02-11 13:13:49 2122

原创 hive 重装之后配置mysql出现错误解决办法

出现的问题：FAILED: Error in metadata: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClientFAILED: Execution Error, return code 1 from org.apache.hado

2014-02-08 14:42:12 1910

原创 hive 性能调优、优化

1、explain _query与 explain extended _query用于查看hive对hql的解析，包括执行阶段、执行任务和任务属性explain select name from testexplain extended select name from test...2、limit在使用客户端查询hive数据时，经常会用到limit限制输出数据数目，很多

2014-01-10 17:26:22 2893

原创 hadoop 2.x 环境搭建

一．安装JDK,配置环境JAVA环境变量#Javaexport JAVA_HOME=/home/jyl/jdk1.6/jdk1.6.0_37export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexport PATH=$JAVA_HOME/bin:$PATH二．安装ssh

2013-11-01 14:34:08 1288

原创 hive view 视图

视图可以保存查询语句，可以像对待表一样对待视图，它只是一个逻辑上的结构，目前hive还不支持实例化的视图7.1 视图降低复杂度原始语句FROM (SELECT * FROM people JOIN cartON (cart.people_id=people.id) WHERE firstname='john') a SELECT a.lastname WHERE

2013-09-17 10:25:09 2887

原创 hive 数据查询

一、SELECT ... FROM ...子句hive> SELECT name, salary FROM employees;hive> SELECT e.name, e.salary FROM employees e;第一种方式是我们普遍使用的，第二种方式使用了别名，这在JOIN查询时非常必要 1.1 查询数组结果，subordinates 数组类型

2013-09-12 17:53:03 2588

原创 hive数据操纵

1、Loading Data into Managed Tables 加载数据本地数据： LOAD DATA LOCAL INPATH '${env:HOME}/california-employees' //一般是目录 OVERWRITE INTO TABLE employees PARTITION (country = 'US', state = 'CA');

2013-09-12 17:51:31 1010

原创 Hadoop分布式集群IP配置和VBox linux虚拟机网卡配置

Hadoop分布式集群IP配置和VBox linux虚拟机网卡配置目录一、VBox linux虚拟机网卡配置二、单机伪分布式配置三、多台节点的集群配置四、windows通过VBox连接linux虚拟机一、VBox linux虚拟机网卡配置　　　在VBox的设置中，选择“网络”单选项，勾选“启用网络连接”，然后选

2013-08-21 12:07:44 2977

原创 hadoop 1.x集群搭建及搭建过程遇到的问题总结

hadoop集群搭建Hadoop集群搭建Master机的ip地址假定为192.168.1.1 slaves1的假定为192.168.1.2 slaves2的假定为192.168.1.3 各台机器的用户同为redmap， hadoop 根目录为： /hadoop(即直接在filesystem里装得hadoop)(1) 192.168.1.1 redmap-master 作

2013-07-22 11:15:31 2399

控笔训练12张-控笔训练.pdf

控笔训练专业版笔画训练

2021-09-02

书法控笔训练-包含40页.zip

控笔训练专业版笔画训练40页

2021-09-02

Hadoop分布式集群IP配置和VBox linux虚拟机网卡配置

Hadoop分布式集群搭建过程中IP配置，包括单机伪分布式和多台机器集群搭建。同时包括VBox linux虚拟机网卡配置

2013-07-22

poi操作excel的相应jar包

jar包，用于poi操作excel。把压缩包中的jar包全部引入到代码当中

2014-02-27

深入java虚拟机（原书第2版）

本书是深入学习java虚拟机的经典书籍，希望给大家带来用处

2014-02-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

jyl1798的专栏

转载 Presto查询原理分析