
Parallel
文章平均质量分 77
run_xiao2000
这个作者很懒,什么都没留下…
展开
-
Hadoop Online
MapReduce框架适合用来处理大数据量计算和分析工作,但实际应用中许多任务并不能表示成单个MapReduce Job。比如K均值聚类,SVM等迭代式的算法,仅执行一次Job是不可能完成计算。而MapReduce框架,包括Hadoop最初设计成解决批处理任务的,用它来实现这种迭代式的算法时,只能在每次迭代后,由reducer将临时结果写入HDFS的文件;在下次迭代...2010-05-05 10:43:45 · 107 阅读 · 0 评论 -
改进HBase的Balance策略
HBase的balance做的实在有点土,其策略就是让各台rs上负载的region数量一致,可能会导致hot region分布不均匀,而 rs的负载不均衡,已经有同事做了些改进,将同一table的region尽量分配到不同rs上,这中策略会有所改善,但仍无法确保 hot region的均匀分布。考虑根据region最近所服务的请求数作为balance的依据,使每台rs上的regio...原创 2011-07-18 22:28:39 · 470 阅读 · 0 评论 -
转贴一个内部贴子--海量存储计算
技术领域—海量存储计算 PB时代的来临Petabyte,2的50次方个字节。这个对很多人还是很陌生的计量单位,已经变得越来越普遍和触手可及。2004年8月,GOOGLE日常任务输入的数据已经达到了3PB ;2005年Mark Hurd从Teradata来到HP出任CEO,开始建设基于Neo...原创 2010-10-12 11:31:02 · 196 阅读 · 0 评论 -
HBase源代码-7-数据存储
7.存储模型 regionserver负责region内数据的存储及处理客户端的读写请求: 写请求:当regionserver接受到写请求,先写入一个WAL(write-ahead log) HLog中(同一regionserver的所有log写入同一文件中);然后再写入缓存HStore中; 读请求:先检查HStore中是否存在被请求数据,不存...原创 2010-10-10 16:53:01 · 175 阅读 · 0 评论 -
HBase源代码阅读-6-数据逻辑模型HTableDescriptor
6.数据逻辑模型HTableDescriptor HBase中表结构由HTableDescriptor描述(包括HColumnDescriptor),对表的新增\修改\删除操作在接口HMasterInterface中定义,而该接口由HMaster实现 (1)HTableDescriptor包含: 表名,byte[...原创 2010-09-18 11:11:04 · 845 阅读 · 0 评论 -
HBase源码阅读-5-HMaster对HRegion的管理
5.HMaster对HRegion的管理:master将region的分派,状态管理等工作委托给RegionManager (1)RegionManager成员变量:rootRegionLocation,root region所在regionserver地址; rootScannerThread和MetaScanner,r...原创 2010-09-15 19:20:49 · 142 阅读 · 0 评论 -
HBase源码阅读-4-HMaster与HRegionServer的RPC
4.HMaster与HRegionServer的RPC 启动master时创建一个Server的实例,利用反射机制提供HMaster的方法调用服务;Server继承自抽象类HBaseServer; HBaseServer通过异步io(nio包)提供了非阻塞的网络连接 4.1 RPC Server的创建及启动过程 ...2010-09-06 11:25:57 · 233 阅读 · 0 评论 -
HBase源码阅读-3-HRegionServer
3.HRegionServer:管理regions,并向HMaster报告自己状态 3.1 regionserver启动过程 (1)读取一些配置:机器名,端口,客户端重试次数,与master交互间隔,rpc超时 (2)创建Worker线程处理来自master的请求(????) (3)创建...2010-09-02 20:33:26 · 105 阅读 · 0 评论 -
HBase源码阅读-2-HMaster
2.HMaster:实现master的功能A.负责分配region到regionserver,检测新增或失败的regionserver,与regionserver交互,regionserver间的负载均衡等;B.处理shcema的变更;C.实现ZooKeeper的Watcher接口,与zookeeper集群交互 2.1 master启动过程初始化,构造HMaster实...2010-09-02 20:32:28 · 136 阅读 · 0 评论 -
HBase源码阅读-1-脚本
1.脚本 start-hbase.sh,hbase-daemon.sh,hbase-daemons.sh,zookeepers.sh,regionservers.sh,hbase,hbase-config.sh1.1 hbase hbase命令行入口,最终控制master,regionserver,zookeeper等启动或关闭1.1.1 hbase shell执行jrub...2010-09-02 20:30:56 · 156 阅读 · 0 评论 -
HBase源代码阅读
最近比较空闲,好好研究下了下HBase的源码(0.89.20100621),其中一部分整理了下,写了些notes,贴出来Share一 下。后面计划期望能有空整理成一个完整的系列出来: 1.脚本2.HMaster3.HRegionServer4.HMaster与HRegionServer的RPC5.HMaster对HRegion的管理...2010-09-02 20:28:20 · 104 阅读 · 0 评论 -
mrunit扩展
MRUnit是一个对MapReduce开发做单元测试很不错的工具,但令人不太爽的,MapReduce应用基本都是处理大量数据的应 用,而MRUnit居然不支持从文件中load测试的输入和输出数据,要在代码中构造一坨一坨数据,实在令人不快。 昨天花了大半天的时间,扩展了一下mrunit的MapReduceDriver,可以方便的将测试输入和输出放在同一文件中,基本满足 了一般...2010-06-03 13:51:49 · 113 阅读 · 0 评论 -
两本关于Hadoop的书
昨天刚从同事那拿到两本关于hadoop的书。 一本是hadoop的committer Tom White的大作《hadoop_The_definitive_guide》,大致看了下前言和目录,非常 详细的介绍了hadoop的各个方面。 另一本《Data-Intensive Text Processing with MapReduce》貌似还没有正式出版,介绍了如何用MapR...原创 2010-05-26 08:55:44 · 235 阅读 · 0 评论 -
使用MapReduce实现图的一些算法[翻译]
使用MapReduce实现图的一些算法 随着处理的图规模增长(比如复杂网络),以致图的节点和边信息无法完全载入内存,这给执行在图上的算法带了很大挑战。而云计算是一种很好的解决方案。《Graph Twiddling in a MapReduce World》介绍了将一些图算法分解成一系列MapReduceJob的方案 (1...2010-05-07 18:22:32 · 402 阅读 · 0 评论 -
关于spark各种蛋疼的事
spark作为UC Berkeley开源的一个计算框架,现在已经是0.7.0版本了,但还不是特别成熟,离实际生产使用还有些距离。最近花了一周左右时间折腾了下,终于顺利的搭建好了一个6台机器的集群,并能顺利跑些大点数据,现在把过程中各种蛋疼的事记下来,以免忘记了又要折腾很久安装spark依赖scala,并且要自己编译源代码,这个可以参考http://rdc.taobao.com/t...原创 2013-03-24 17:12:42 · 242 阅读 · 0 评论