
hadoop
文章平均质量分 66
cristim33
这个作者很懒,什么都没留下…
展开
-
关于《hadoop权威指南中文版(第二版)》的错误和看法
据说这本书第二版比第一版翻译的好点,虽然本人英语水平还不错,但还是想能快速的读一遍,所以花了60几块买了本。当我看到第六十多页,发现第二个错误的时候,我就不淡定了。。。P65 最后一行:distributedfilesystem 想客户端返回一个。。。,应该是“向客户端返回一个。。。”,这个错误我忍了,毕竟有点基础的人都能看出错误。P66倒数第5行:首先关闭管线,确认把队列中的任何数原创 2012-03-05 14:28:26 · 1366 阅读 · 2 评论 -
用一个MapReduce job实现去重,多目录输出功能
总结之前工作中遇到的一个问题。背景:运维用scribe从apache服务器推送过来的日志有重复记录,所以这边的ETL处理要去重,还有个需求是要按业务类型多目录输出,方便挂分区,后面的使用。这两个需求单独处理都没有问题,但要在一个mapreduce里完成,需要一点技巧。1、map输入数据,经过一系列处理,输出时: if(ttype.equals("other"))原创 2014-07-10 13:40:03 · 1517 阅读 · 0 评论 -
hadoop生态系统搭建(hadoop hive hbase zookeeper oozie sqoop)
详细过程参见官方文档,这里只介绍常见的一些问题:1、首先是版本的选择,一般选择cloudera 的cdh版,注意相互之间的兼容性,否则出现莫名其妙的问题都不知道怎么解决。2、配置ssh无密码访问时要注意,.ssh目录的权限问题,跟各个开发包一样,各节点必须一致,否则会出现启动hadoop时让手动输密码。3、在配置conf下文件时要注意,某些属性的值必须是hadoop原创 2012-03-02 14:16:47 · 1932 阅读 · 0 评论 -
MapReduce Design Patterns(chapter 3 (part 1))(五)
Chapter 3. Filtering Patterns本章的模式有一个共同点:不会改变原来的记录。这种模式是找到一个数据的子集,或者更小,例如取前十条,或者很大,例如结果去重。这种过滤器模式跟前面章节的不同是,从更小的粒度认识数据,例如特殊用户生成的记录,或文本中用得最多的前10个动词。简单的说,过滤器允许你更清楚的看清数据,像在显微镜下一样。也可以认为是搜索的一种形式。如果你对找出所有有翻译 2013-01-04 18:00:33 · 2283 阅读 · 2 评论 -
MapReduce Design Patterns(chapter 7 (part 2))(十四)
External Source InputPattern Description这种模式不从hdfs加载数据,而是从hadoop以外系统,例如RDB或web service加载。Intent想要从非MapReduce框架的系统并行加载数据。Motivation使用MapReduce分析数据通常的做法是把数据先存储到存储平台上,例如hdfs,然后分析。用这中模式,你可以使用M翻译 2013-01-22 09:04:42 · 1321 阅读 · 0 评论 -
MapReduce Design Patterns(chapter 7 (part 1))(十三)
CHAPTER 7.Input and Output Patterns本章关注一个最经常忽略的问题,来改进MapReduce的value:自定义输入和输出。我们并不会总使用Mapreduce本身的方式加载或存储数据。有时,可以跳过在hdfs存储数据这项耗时的阶段,仅存储一些数据,不是全部的,或直接在MapReduce结束后输送给后面的处理。有时,基本的Hadoop规范,文件块和输入分割不能翻译 2013-01-16 16:52:54 · 1578 阅读 · 0 评论 -
MapReduce Design Patterns(chapter 6 (part 2))(十二)
Chain Folding这是对job 链的一种优化。基本上是一种大体规则:每条记录都会提交给多个mapper,或者给reducer然后给mapper。这种综合处理方法会节省很多读文件和传输数据的时间。多个job的结构通常这样处理是可行的,因为map阶段是完全无共享的:看起来每条记录是单独的,数据的组织或是否分组是没有关系的。当创建大的MapReduce链时,合并这个链使多个map阶段合并会带翻译 2013-01-14 20:59:56 · 1296 阅读 · 0 评论 -
MapReduce Design Patterns(chapter 6 (part 1))(十一)
Chapter 6. Metapatterns这种模式不是解决某个问题的,而是处理模式的关系的。可以理解为“模式的模式”。首先讨论的是job链,把几个模式联合起来解决复杂的,有多个阶段要处理的问题。第二个是job合并,用相同的MapReduce job执行多个分析的优化,达到一箭多雕的目的。Job chaining理解job链接和对job链接的操作计划非常重要。很多人发现用单独一个翻译 2013-01-11 11:09:05 · 1597 阅读 · 0 评论 -
MapReduce Design Patterns(chapter 5 (part 2))(十)
Replicated JoinPattern Description复制join是一种特殊的join,用于一个大数据和许多小数据集map端执行的情况。Intent这种模式能够消除reduce阶段的shuffle。Motivation复制join非常有用,除了一个大数据集外,对其它要join的数据集有严格的大小限制。除了这个大数据集外,其它数据在map任务的setup阶段都要翻译 2013-01-10 11:58:35 · 1616 阅读 · 0 评论 -
MapReduce Design Patterns(chapter 5 (part 1))(九)
Chapter 5. Join Patterns把数据保存成一个巨大的数据集不是很常见。例如,用户信息数据频繁更新,所以要保存到关系数据库中。于此同时,web日志以恒定的数据流量增加,直接写到HDFS。这些日志的日常分析过的数据保存在hdfs的某个地方,财务数据存储在加密的仓库中。还有很多例子。。。(原文are stored someone where in HDFS貌似应改为 are翻译 2013-01-09 13:36:03 · 1866 阅读 · 1 评论 -
MapReduce Design Patterns(chapter 4 (part 2))(八)
BinningPattern Description分箱模式,跟前面的类似,分类记录且不考虑记录的顺序。Intent归档数据集中的每条记录到一个或多个类别。Motivation分箱和分区很相似,可以用来解决相同的问题。不同点是如何用MapReduce框架建立箱或分区。有些情况下,一种比另一种好用。分箱是在map阶段分割数据而不是在partitioner阶段。主要的优势是翻译 2013-01-08 14:42:23 · 1719 阅读 · 0 评论 -
MapReduce Design Patterns(chapter 1)(一)
翻译的是这本书:Chapter 1.Design Patterns and MapReduceMapReduce 是一种运行于成百上千台机器上的处理数据的框架,目前被google,Hadoop等多家公司或社区广泛使用。这种计算框架是非常强大,但它没有提供一个处理所谓“big data”的通用,普遍的情形,所以它能很好的解决一些问题,在处理某些问题上也存在挑战。这本书教给你在什么问题翻译 2012-12-27 15:21:12 · 4644 阅读 · 3 评论 -
MapReduce Design Patterns(chapter 4 (part 1))(七)
Chapter 4. Data Organization Patterns与前面章节的过滤器相比,本章是关于数据重组。个别记录的价值通常靠分区,分片,排序成倍增加。特别是在分布式系统中,因为这能提高性能。 在很多组织结构方面,Hadoop和其它MapReduce使用案例仅仅是大数据分析平台上一片数据的处理。数据通常被转换成跟其它系统有良好接口的形式,同样,数据也可能从原来状态转成一种新翻译 2013-01-07 12:29:09 · 2524 阅读 · 0 评论 -
MapReduce Design Patterns(chapter 3 (part 2))(六)
Top TenPattern DescriptionTop ten模式跟前面的有很大的不同,跟输入数据大小无关,最终得到的记录数量是确定的。而在通用filtering中,输出的规模取决于输入数据。Intent根据数据集的排名,获取相对较小的前K条记录,不管数据量多大。Motivation在数据分析中,找出离群值是很重要的工作,因为这些记录是典型的最引人关注的独特的数据片。这翻译 2013-01-05 16:28:27 · 1872 阅读 · 0 评论 -
MapReduce Design Patterns(chapter 2 (part 3))(四)
Inverted Index SummarizationsPattern Description反向索引模式在MapReduce分析中经常作为一个例子。我们将会讨论我们要创建的term跟标识符之间映射的一般情况。 Intent根据数据集生成索引,用于快速搜索或数据的富集能力。Motivation根据关键词索引大数据非常方便,搜索能追踪term找到包含指定值的记录。创建索翻译 2013-01-01 11:18:24 · 2318 阅读 · 0 评论 -
MapReduce Design Patterns(chapter 2 (part 1))(二)
CHAPTER 2 .Summarization Patterns随着每天都有更多的数据加载进系统,数据量变得很庞大。这一章专注于对你的数据顶层的,概括性意见的设计模式,从而使你能扩展思路,但可能对局部数据是不适用的。概括性的分析都是关于对相似数据的分组和执行统计运算,创建索引,或仅仅为了计数。 通过分组数据集计算聚合排序是一种快速获取结果的好方法。例如,你可能想按某种规则计算出所存的翻译 2012-12-29 19:22:55 · 2833 阅读 · 0 评论 -
MapReduce Design Patterns(chapter 2 (part 2))(三)
Median and standard deviation中值和标准差的计算比前面的例子复杂一点。因为这种运算是非关联的,它们不是那么容易的能从combiner中获益。中值是将数据集一分为两等份的数值类型,一份比中值大,一部分比中值小。这需要数据集按顺序完成清洗。数据必须是排序的,但存在一定障碍,因为MapReduce不会根据values排序。 方差告诉我们数据跟平均值之间的差异程度。翻译 2012-12-31 15:14:47 · 2290 阅读 · 0 评论 -
hadoop权威指南第三版 发布说明
(此文摘自http://hadoopbook.com)hadoop权威指南第三版发行说明: 第三版会在2012年5月发行。你现在可以预定一份电子版,或购买“Early Release”版,买了这版送正式版。(这话对国人基本没用,呵呵!) 下面大概说说这本书的一些改动。 第三版添加了哪些新东西?原创 2012-03-09 16:49:00 · 3253 阅读 · 1 评论 -
hadoop 2.5.0 capacitySchedule Application Queues 参数解析
web UI中队列各项参数含义:Queue State:RUNNING Used Capacity:0.0% 已使用资源占队列配置值的百分比Absolute Used Capacity:0.0% 已使用资源占集群的百分比Absolute Capacity:90.0% 集群最小可使用容量Absolute Max Capacity:原创 2014-12-18 17:31:55 · 3673 阅读 · 1 评论