
海量数据技术
jiunizhuai
这个作者很懒,什么都没留下…
展开
-
Apache Pig的一些基础概念及用法总结4(转)
(26)错误“ERROR org.apache.pig.tools.grunt.Grunt – ERROR 2042: Error in new logical plan. Try -Dpig.usenewlogicalplan=false.”的可能原因①Pig的bug,详见此链接;②其他原因。我遇到并解决了一例。具体的代码不便在此陈列,但是基本可以说是由于自己写的Pig代码对复杂数据结构转载 2011-12-14 17:09:35 · 3332 阅读 · 1 评论 -
Apache Pig的一些基础概念及用法总结(转)
Apache pig是用来处理大规模数据的高级查询语言,配合Hadoop使用,可以在处理海量数据时达到事半功倍的效果,比使用Java,C++等语言编写大规模数据处理程序的难度要小N倍,实现同样的效果的代码量也小N倍。Twitter就大量使用pig来处理海量数据——有兴趣的,可以看Twitter工程师写的这个PPT。但是,刚接触pig时,可能会觉得里面的某些概念以及程序实现方法与想像中的很不一样转载 2011-12-14 17:05:07 · 2037 阅读 · 1 评论 -
Apache Pig的一些基础概念及用法总结2(转)
(7)在多维度组合下,如何计算某个维度组合里的不重复记录的条数以数据文件 c.txt 为例:1234567[root@localhost pig]$cat c.txta 1 2 3 4.2 9.8 100a 3 0 5 3.5 2.1 200b 7 9 9 - - 300a 7 9 9 2.6 6.2 30转载 2011-12-14 17:06:32 · 1822 阅读 · 1 评论 -
Apache Pig的一些基础概念及用法总结3(转)
(18)LOAD数据时,如何一次LOAD多个目录下的数据例如,我要LOAD两个HDFS目录下的数据:/abc/2010 和 /abc/2011,则我们可以这样写LOAD语句:1A = LOAD'/abc/201{0,1}';(19)怎样自己写一个UDF中的加载函数(load function)①加载函数(loa转载 2011-12-14 17:08:39 · 2282 阅读 · 0 评论 -
Hadoop MapReduce 学习笔记(二) 序言和准备2
然后是两个测试子类,主要区别在于生成不同的测试数据.我想有一个又浅入深的过程,比如我们一开始接触的MapReduce是WordCount,统计单个单词的个数.这里单词只是一列,相对数据库来说单词表只有一个单词字段.而实际中可能会有多列数据.如用户表:ID INT,USER_NAME VARCHAR(32),AGE INT.所以我引入了两个子类,从简单到复杂. 1.类似上面的单词表测转载 2011-12-31 09:35:12 · 529 阅读 · 0 评论 -
Hadoop MapReduce 学习笔记(一) 序言和准备
终于踏入了Hadoop的世界,先学习了Sqoop,然后MapReduce.这里结合MapReduce实现类似SQL的各种功能.如:max,min,order by,inner/left/right join group by等.但这里只是我的一个学习的过程,还有很多不足和错误.但我会步步深入不断改进,希望也能帮助到大家.同时今后也会不断跟进,比如读PIG/Hive的源码,看他们如何组织,如何写Ma转载 2011-12-31 09:33:17 · 455 阅读 · 0 评论