royesir-优快云博客

转载关于Apache Hadoop 1.0

关于最新发布的Apache Hadoop V1.0，一些用户或客户会问：这个版本的功能有哪些？基于哪个版本？后续的版本是什么？要解释这一点，我们应该从Apache项目发布的一些基本知识开始：一般来说，Apache项目的新功能在主干代码上开发（也就是“trunk”）。有时候，很大的特性也会有自己的开发分支（也就是“branch”），他们期望后续会并入trunk。新功能通常是在trunk发布之前就

2012-10-01 00:36:01 1032

原创 samba设置共享

安装好samba服务后，编辑sudo vi /etc/samba/smb.conf[share] comment = share path = /share public = yes writeable = yes 根据实际情况对share目录授权例如：chmod 777 /share重启 smb服务 # servi

2012-09-29 22:57:20 548

原创 HBase源码学习

写在前面，前段时间花了两三周的时间在查找hbase的相关资料，再次阅读了google的bigtable这篇论文，对hbase的总体架构有了一定的了解。接下来开始阅读源码了，也许比较枯燥，但是坚持下去！！！！

2010-11-29 22:42:00 826

引 最近关注Hadoop，因此也顺便关注了一下Hadoop相关的项目。HBASE就是基于Hadoop的一个开源项目，也是对Google的BigTable的一种实现。 BigTable是什么？Google的Paper对其作了充分的说明。字面上看就是一张大表，其实和我们想象的传统数据库的表还是有些差别的。松散数据可以说是介于Map Entry（key & value）和DB Row之间的一种数据。在我使用Memcache的时候，有时候的需求是需要存储的不仅仅是简

2010-11-26 17:26:00 722

转载 RMI与RPC

RMI与RPC转自：http://ggmm.blog.sohu.com/48993964.html 昨天听了汪老师讲课，感觉不错，做个笔记先： 分布式对象如何构成 •对象的状态由它的实例变量值组成 •每个对象在逻辑上是分区的，可以物理地分布在不同的进程或计算机中 •分布式对象系统可采用客户——服务器体系结构；对象由服务器管理，客户通过RMI调用对象的方法 分布

2010-08-20 16:55:00 2154

转载分布式计算（Map/Reduce）

原文：http://www.cnblogs.com/duguguiyu/archive/2009/02/28/1400278.html 分布式计算（Map/Reduce）分布式式计算，同样是一个宽泛的概念，在这里，它狭义的指代，按Google Map/Reduce框架所设计的分布式框架。在Hadoop中，分布式文件系统，很大程度上，是为各种分布式计算需求所服务的。我们说分布式文件系统就是加了分布式的文件系统，类似的定义推广到分布式计算上，我们可以将其视为增加了分布式支持的计算函数

2010-08-14 16:06:00 910

原创 SequenceFile

前天项目组里遇到由于sequenceFile的压缩参数设置为record而造成存储空间的紧张，后来设置为block压缩方式的压缩方式，存储空间占用率为record方式的1/5。问题虽解决了，但是还不是很清楚这两种方式是如何工作以及他们的区别是啥。昨天和今天利用空闲时间，细细的看了一遍sequenceFile这个类和一些相关类的源码。 sequenceFile文件存储有三种方式：可以通过在程序调用enumCompressionType {NON

2010-08-13 15:15:00 1748 1

转载 Hive的预定义UDF函数

Hive的预定义UDF函数列表如下，主要来自于describe function xxx和代码注释的翻译：）abs(x) - returns the absolute value of x acos(x) - returns the arc cosine of x if -1<=x<=1 or NULL otherwise ascii(str) - returns the numeric value of the first character of str asin(x)

2010-08-05 09:34:00 11073

原创谁在用Hadoop

http://wiki.apache.org/hadoop/PoweredBy

2010-07-22 09:45:00 1125

原创 relational join

两个表进行join操作时有3种方案：1、reduce-side join，将key相同的数据传送到相同的reducer做，这些数据在mapper那可能要做二次排序(如 value-to-key)。2、map-side join，将key相同的数据放在同一个mapper做join操作。3、memory-backed join

2010-07-20 15:00:00 739

原创 in-mapper combining

Data-Intensive Text Processing with MapReduce中关于mapReduce算法的本地聚合优化策略中提到的in-mapper combining算法的优点是：1、可以控制什么时候做聚合操作以及如何做，相反，如果是单独跑一个combiner的话，并能框架会调用combiner多少次，也许没有调用，也许调用很多次。2、in-mapper combining更加高效，单独跑一个combiner的话是在map之后，只能减少网络传输的中间数据并不能减少key-value pair

2010-07-20 11:13:00 1289

原创 hive性能优化

在hive中最长用到的就是对表之间的操作，在做join操作时，将小表放在左边，大表放在右边可提升集群的性能。原理很简单，hive对于join操作是：在做完map之后将左边的表的数据拷贝到右边的表所在的reducer上与右边的表进行join操作，这样reducer主要保存小表的数据，当右边的表来一条记录就可以和左边的表的数据（已拷贝到reducer保存）作join，然后直接将结果写入HDFS，而不用保存在reducer。同时，由于小表的数据比较，作join时在时间上性能也会有提升

2010-07-19 20:52:00 2752

转载 WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED

root@localhost han]# scp 1.sh root@192.168.1.111:/root @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ @ WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED! @ @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

2010-07-19 20:38:00 706

原创 SSH可以远程拷贝

通过SSH可以远程登录到服务器上，基本的语法是：ssh username@ip回车以后会提示输入密码，并且需要接受证书。今天在登录的时候，出现了一个错误提示：” Remote Host Identification Has Changed“每一个SSH服务器都使用的是一个随机的KEY，当SSH被重新安装过以后，这个KEY就发生了变化，但是我们登录的时候，会从本机寻找之前使用过的KEY，这个时候就会出现上面的提示，这种情况大多出现在服务器或者SSH服务被重新安装以后。解决这个问题的最简

2010-07-19 20:37:00 3495

转载 hadoop

在SIP项目设计的过程中，对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计，在我从前写的文章《Tiger Concurrent Practice --日志分析并行分解设计与实现》中有所提到。但是由于统计的内容暂时还是十分简单，所以就采用Memcache作为计数器，结合MySQL就完成了访问控制以及统计的工作。然而未来，对于海量日志分析的工作，还是需要有所准备。现在最火的技术词汇莫过于“云计算”，在Open API日益盛行的今天，互联网应用的数据将会越来越有价值，如

2010-07-19 20:35:00 1417

转载上传文件到HDFS

hadoop计算需要在hdfs文件系统上进行，文件上传到hdfs上通常有三种方法：a hadoop自带的dfs服务，put；b hadoop的API，Writer对象可以实现这一功能；c 调用OTL可执行程序，数据从数据库直接进入hadoop hadoop计算需要在hdfs文件系统上进行，因此每次计算之前必须把需要用到的文件(我们称为原始文件)都上传到hdfs上。文件上传到hdfs上通常有三种方法： a hadoop自带的dfs服务，put；<br /

2010-07-19 20:27:00 14363

转载 Hadoop shell

1 Hadoop shell 1.1 引言 调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统，scheme是hdfs，对本地文件系统，scheme是file。其中scheme和authority参数都是可选的，如果未加指定，就会使用配置中指定的默认scheme。一个HDFS文件或目录比如/pa

2010-07-19 20:24:00 1282

原创 HDFS构架与设计

1 HDFS构架与设计 1.1 前提和设计目标 1、硬件错误 硬件错误是常态，而非异常情况，HDFS可能是有成百上千的server组成，任何一个组件都有可能一直失效，因此错误检测和快速、自动的恢复是HDFS的核心架构目标。 2、流式数据访问 运行在HDFS上的应用和普通的应用不同，需要流式访问它们的数据集。HDFS的设计中更多的考虑到了数据批处理，而不是用户交互处理。相比数据访问的低延迟问题，更关键的在于数据访问的高吞吐量。POSIX

2010-07-19 20:23:00 2632

royesir的专栏