lpxuan151009-优快云博客

转载 hadoop生态系统

【转】近些年来Hadoop生态系统发展迅猛，它本身包含的软件越来越多，同时带动了周边系统的繁荣发展。尤其是在分布式计算这一领域，系统繁多纷杂，时不时冒出一个系统，号称自己比MapReduce或者Hive高效几十倍，几百倍。有一些无知的人，总是跟着瞎起哄，说Impala将取代Hive，Spark将取代Hadoop MapReduce等。本文则从问题域触发，解释说明Hadoop中每个系统独特的作用

2013-12-19 19:52:24 2775

原创 HIVE-UDF之MD5密钥算法实现

2012-11-28 20:17:03 5232

转载 Hadoop MapReduce:详解Shuffle过程

http://langyu.iteye.com/blog/992916讲的很详细

2012-09-18 15:20:19 1529

原创 Hive优化（5）之选择合适的map数

Hive是基于Hadoop分布式框架下的数据仓库解决方案，可以方便地对数据进行清洗、转化和加载。Hive处理海量数据是数据仓库的基本需求，而如何通过hive充分利用Hadoop集群的分布式并行功能就至关重要。如果不能充分利用分布式并行处理，那么处理大数据量就会变得低效。而一张数据表需要多少个map来处理和一个map处理多少数据记录，都会影响到海量数据处理的效率。

2012-09-14 20:31:50 1254

原创 hive cli

Hive Cli = hive启动 = *$ hive –f script.q *$ hive -e 'SELECT *FROM dummy‘ *$ hive -S -e 'SELECT* FROM dummy‘ *$ hive -hiveconfhive.root.logger=DEBUG,console = set = *hive>SET hive.

2012-09-14 20:11:42 1982

原创 hive优化（4）之mapjoin和union all避免数据倾斜

发生数据倾斜时，通常的现象是：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。数据倾斜一般是由于代码中的join或group by或distinct的key分布不均导致的，大量经验表明数据倾斜的原因是人为的建表疏忽

2012-09-14 20:08:45 7893

原创 Hive优化（3）之随机数避免数据倾斜

发生数据倾斜时，通常的现象是：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。数据倾斜一般是由于代码中的join或group by或distinct的key分布不均导致的，大量经验表明数据倾斜的原因是人为的建表疏忽或业务可以规

2012-09-14 20:06:10 9708

转载在Oracle中利用SQL_TRACE跟踪SQL的执行

源自http://blog.youkuaiyun.com/kkdelta/article/details/7980061当你在执行一条SQL语句非常慢的时候,你是不是想问Oracle怎么执行这条语句的呢?Oracle提供的SQL_TRACE工具可以让你知道你执行的SQL究竟做了什么.执行的过程会被输出到trace文件中.下面用例子来跟踪一个SQL语句的执行情况:SQL> create

2012-09-14 19:58:38 2348

原创 Hadoop计算文件大小

//Hadoop计算文件大小:public static void main(String[] args) throws IOException{ String tablePath= pathPrefix + args[0].toLowerCase().trim(); Path p = new Path(tablePath); JobConf co

2012-09-07 20:32:53 2777

原创 hive中间接实现不等值连接

由于hive中不支持不等值连接，给应用带来不便。create tablelpx_test_a as select id,class from (select 1 as id, 2 asclass from dual union allselect 2 as id, 3 asclass from dualunion allselect 3 as id, 4 asc

2012-09-07 20:30:13 12649 2

原创 Hive优化（2）之系统评估reduce数为1的MR Job优化

名词解释：云霄飞车：hive本身对MR Job的 reduce数估算不合理，导致reduce分配过少，任务运行很慢，云霄飞车项目主要对hive本身reduce数的估算进行优化。map_input_bytes：map输入文件大小，单位：bytesmap_output_bytes：map输出文件大小，单位：bytes 优化背景：云霄飞车一期存在如下问题：只能优化reduce

2012-09-07 20:27:44 9069

原创 hive优化（1）之mapjoin

hive> create table lpx_mapjoin as > SELECT '2012-04-17' as stat_date > ,b.admin_member_id > ,a.category_level2_id > ,b.keywords > ,sum(shownum) as sum_

2012-09-07 20:23:22 6927 1

原创 hive源码解析（2）之编译前序

Antlr(ANother Tool for LanguageRecognition)ü 一种语言识别工具 ü Antlr提供了一种语言工具框架 ü 定义标示符，关键字（词法分析） ü 定义表达式(语法分析)ü 可以将文本转换成抽象语法树（AST)ü 树的解析（树分析器）（1）词法分析器Lexerü 词法分析

2012-09-07 20:19:22 3059

原创 hive源码解析（1）之hive执行过程

1.入口 /bin/cli.sh 调用CliDriver类进行初始化过程 Ø 处理 -e， -f，-h等信息，如果是-h，打印提示信息，并退出 Ø 读取hive的配置文件，设置HiveConfØ 创建一个控制台，进入交互模式2.在交互方式下，读取每一个输命令行，直到’;’为止，然后提交给processLine(cmd)方法处理，该方法将输入的流以;分割

2012-09-07 20:15:08 13925 2

原创 Hadoop如何计算map数和reduce数

Hadoop在运行一个mapreduce job之前，需要估算这个job的maptask数和reducetask数。首先分析一下job的maptask数，当一个job提交时，jobclient首先分析job被拆分的split数量，然后吧job.split文件放置在HDFS中，一个job的MapTask数量就等于split的个数。job.split中包含split的个数由FileInputFor

2012-09-03 14:25:20 10985

原创 hive-udf

--指数化处理热度*(π-1.8)，然后四舍五入后分段分段规则:【段),>50&段),>100&段),>1000&段),>5000（1000/段）】向上取段结果在50以下的，每1为一个段结果在50-100之间的，每10为一个段，结果在100和1000之间的，每30为一个段结果在1000和5000之间，每100为一个段结果在5000以上，每1000为一个段

2012-07-05 20:26:38 1664

原创 2012来了

2011去了，2012来了，找准方向，前进。

2012-01-20 17:10:28 619

转载在职场中获得认可12个妙招

每个在职场打拼的人都希望自己的工作能为自己赢得在同事中的认同。老板的肯定以及公司中位置的上升。想一想，你在这里工作还图什么别的呢? 为了达到这一步，我们总是会接下难以完成的工作或自己根本不愿意做的工作，然后挑战疯狂的截止时间，让自己被工作压到透不过气。当然，这些行为可以

2011-10-05 10:53:05 753

原创简单抽样和复杂抽样

简单抽样。从下列选项中选择抽样方法：a)从第一条记录开始连续抽取。选择此选项将使用连续数据抽样。例如，如果最大样本大小设置为 10000，则前 10000 条记录会被选中。b) n 中取 1。选择此选项会按照这样的方式抽样数据：每隔 n 个记录传递或丢弃一次。例如

2011-08-22 14:16:49 3618

原创常见统计量

最小值. 数值变量的最小值。最大值. 数值变量的最大值。总数. 所有具有缺失值的测量值的总和或合计。范围.数值变量的最大值与最小值的差值就是用最大值减最小值后得出的值。平均值. 集中趋势的测量。算术平均值，等于总和除以观测值数。均值标准误

2011-08-22 14:13:32 3682 1

原创数据标准化

数据的标准化（normalization）是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。　　其中最典型的就是数据的归一化处理，即将数据统一映射到[

2011-08-18 11:59:58 3681

原创 hive用户自定义函数

hive用户自定义函数

2011-08-02 17:01:03 2962

原创 hive sql order by 与sort by

hive sql order by 与sort by

2011-08-02 15:23:05 9499

原创 hive cli

hive cli

2011-08-02 14:25:39 1127

原创 hive sql分区表

hive sql分区表介绍

2011-08-02 13:28:26 5047

转载产品设计之二：优化你的产品细节

产品设计之二：优化你的产品细节

2011-08-01 13:28:11 913

转载产品设计的原则之一：精简你的产品

产品设计的原则之一：精简你的产品

2011-08-01 13:27:12 952

原创 hive sql执行计划

hive sql执行计划

2011-07-29 17:23:48 13349

原创 java servlet实例

java servlet实例

2011-07-22 16:46:09 17031

原创 java bean实例

java bean实例

2011-07-22 16:45:52 1187

原创 ibatis入门

ibatis入门

2011-07-22 16:33:27 879

原创 hive安装配置

hive安装配置

2011-07-12 14:52:09 3174

原创 eclipse运行hadoop wordcount example

eclipse运行hadoop wordcount example

2011-07-11 12:22:29 9730

原创 windows下安装配置hadoop

windows下安装配置hadoop

2011-07-11 10:09:03 6836

原创 hadoop wordcount运行实例

hadoop wordcount运行实例

2011-07-07 14:41:29 1456

原创 oracle模糊查询:分区局部全文索引方式（四）

DATABASE:dwtest(210开发库)--按根级行业ID和大洲进行混合分区DROP TABLE iquery.lpx_kw_tmp02_bak2;CREATE TABLE iquery.lpx_kw_tmp02_bak2( KEYWORDS VARCHAR2(256) ,REGIN_

2011-06-30 16:08:00 1662

原创 oracle模糊查询:全文索引方式（三）

--test:DATABASE:dwtest(210开发库)SQL> desc iquery.lpx_kw_tmp02Name Type Nullable Default Comments ------------------ ------------- -------- ------- -------- KEYWORDS

2011-06-28 18:09:00 3698

原创 oracle模糊查询（二）

通过混合分区方式较少模糊匹配的数据集，已达到提升性能的目的。 --混合分区方式DATABASE:dwtest(210开发库)--词搜索底层表SQL> desc iquery.lpx_kw_tmp02Name Type Nullable Default Comments ------------------ -------

2011-06-28 16:09:00 2122

原创 oracle模糊查询（一）

546@iquery@ALIDW>desciquery.lpx_kw_tmp00 Name Null? Type -------------------------

2011-06-28 16:03:00 1003

原创 Java实现字符串数组组合

/** * date: 2011-6-27 * author:pengxuan.lipx * remark:combine the adj keywords for lmsj */import java.lang.StringBuffer;public class CombineKeywords{ public static void main(String[] arg

2011-06-27 16:34:00 3143

biee技术手册,biee初探,biee学习

招聘网站系统

MyPhotos

空空如也