
大数据
文章平均质量分 69
tornadowp
6年IT行业工作经验,熟悉无线,搜索及WEB业务;具有技术研发、项目管理、运营及统计分析工作经验,大规模分布式系统设计及开发经验,千万级以上数据处理经验;熟悉主流开发技术如Java、Android、数据库应用及SQL编程、 Linux应用及shell编程、Python、及AJAX、Html、CSS等;英语6级;学习力强,善于沟通。
展开
-
hammal 异构数据实时交换平台
互联网公司的数据部门每天会面临大量数据的导入导出,它们来自不同类型的数据源,去往不同的目的地,它们数据量大的惊人,数据交换会带来额外的开销,执行效率差别很大。因此,我们需要这样的数据交换平台,1,满足异构数据的导入导出;2,数据交换的性能开销越低越好;3,数据传输过程避免过多的磁盘IO操作,实现全内存;4,良好的开放API,采用framework_plugin构建,业务方个性化plugin.基于这样的思想,京东开发了plumber系统,taobao推出了DataX系统,前者基于clojure,后者基于jav原创 2014-09-08 20:29:15 · 4472 阅读 · 0 评论 -
"高可用方案工具包" high availability toolkit 1.1
"高可用方案工具包" high availability toolkit 1.1 发布了。version 1.1 新增了gossip protocol 的高可用HA方案应用。项目地址: https://github.com/yfwangpeng/HighAvailabilityToolkit作者微博: http://weibo.com/58wp58 介平原创 2014-10-20 21:53:00 · 2372 阅读 · 0 评论 -
分布式并行计算方案:parallel computing by kafka-storm 发布了
如何在分布式集群中,充分利用多节点,对大数据进行拆分,实现并行计算,“parallel computing by kafka-storm ” 提供了一种很好的思路。原创 2014-12-29 22:25:26 · 2578 阅读 · 0 评论 -
HBase Rowkey的散列与预分区设计
HBase中,表会被划分为1...n个Region,被托管在RegionServer中。Region二个重要的属性:StartKey与EndKey表示这个Region维护的rowKey范围,当我们要读/写数据时,如果rowKey落在某个start-end key范围内,那么就会定位到目标region并且读/写到相关的数据。简单地说,有那么一点点类似人群划分,1-15岁为小朋友,16-39岁为年轻人转载 2015-02-05 15:15:54 · 2646 阅读 · 0 评论