
Hadoop
文章平均质量分 59
royesir
waiting for U
展开
-
SSH可以远程拷贝
通过SSH可以远程登录到服务器上,基本的语法是:ssh username@ip回车以后会提示输入密码,并且需要接受证书。今天在登录的时候,出现了一个错误提示:” Remote Host Identification Has Changed“每一个SSH服务器都使用的是一个随机的KEY,当SSH被重新安装过以后,这个KEY就发生了变化,但是我们登录的时候,会从本机寻找之前使用过的KEY,这个时候就会出现上面的提示,这种情况大多出现在服务器或者SSH服务被重新安装以后。解决这个问题的最简原创 2010-07-19 20:37:00 · 3498 阅读 · 0 评论 -
SequenceFile
<br /><br />前天项目组里遇到由于sequenceFile的压缩参数设置为record而造成存储空间的紧张,后来设置为block压缩方式的压缩方式,存储空间占用率为record方式的1/5。问题虽解决了,但是还不是很清楚这两种方式是如何工作以及他们的区别是啥。昨天和今天利用空闲时间,细细的看了一遍sequenceFile这个类和一些相关类的源码。<br />sequenceFile文件存储有三种方式:可以通过在程序调用enumCompressionType {NON原创 2010-08-13 15:15:00 · 1751 阅读 · 1 评论 -
谁在用Hadoop
<br />http://wiki.apache.org/hadoop/PoweredBy原创 2010-07-22 09:45:00 · 1125 阅读 · 0 评论 -
hadoop
<br /><br />在SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章《Tiger Concurrent Practice --日志分析并行分解设计与实现》中有所提到。但是由于统计的内容暂时还是十分简单,所以就采用Memcache作为计数器,结合MySQL就完成了访问控制以及统计的工作。然而未来,对于海量日志分析的工作,还是需要有所准备。现在最火的技术词汇莫过于“云计算”,在Open API日益盛行的今天,互联网应用的数据将会越来越有价值,如转载 2010-07-19 20:35:00 · 1419 阅读 · 0 评论 -
Hadoop shell
<br /><br />1 Hadoop shell<br />1.1 引言<br />调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认scheme。一个HDFS文件或目录比如/pa转载 2010-07-19 20:24:00 · 1283 阅读 · 0 评论 -
HDFS构架与设计
<br /><br />1 HDFS构架与设计<br />1.1 前提和设计目标<br />1、硬件错误<br />硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。<br />2、流式数据访问<br />运行在HDFS上的应用和普通的应用不同,需要流式访问它们的数据集。HDFS的设计中更多的考虑到了数据批处理,而不是用户交互处理。相比数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。POSIX原创 2010-07-19 20:23:00 · 2633 阅读 · 0 评论 -
relational join
<br />两个表进行join操作时有3种方案:1、reduce-side join,将key相同的数据传送到相同的reducer做,这些数据在mapper那可能要做二次排序(如 value-to-key)。2、map-side join,将key相同的数据放在同一个mapper做join操作。3、memory-backed join原创 2010-07-20 15:00:00 · 740 阅读 · 0 评论 -
WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED
<br /><br />root@localhost han]# scp 1.sh root@192.168.1.111:/root<br />@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@<br />@ WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED! @<br />@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@转载 2010-07-19 20:38:00 · 707 阅读 · 0 评论 -
in-mapper combining
Data-Intensive Text Processing with MapReduce中关于mapReduce算法的本地聚合优化策略中提到的in-mapper combining算法的优点是:1、可以控制什么时候做聚合操作以及如何做,相反,如果是单独跑一个combiner的话,并能框架会调用combiner多少次,也许没有调用,也许调用很多次。2、in-mapper combining更加高效,单独跑一个combiner的话是在map之后,只能减少网络传输的中间数据并不能减少key-value pair原创 2010-07-20 11:13:00 · 1292 阅读 · 0 评论 -
分布式计算(Map/Reduce)
原文:http://www.cnblogs.com/duguguiyu/archive/2009/02/28/1400278.html<br />分布式计算(Map/Reduce)分布式式计算,同样是一个宽泛的概念,在这里,它狭义的指代,按Google Map/Reduce框架所设计的分布式框架。在Hadoop中,分布式文件系统,很大程度上,是为各种分布式计算需求所服务的。我们说分布式文件系统就是加了分布式的文件系统,类似的定义推广到分布式计算上,我们可以将其视为增加了分布式支持的计算函数转载 2010-08-14 16:06:00 · 913 阅读 · 0 评论