
大数据
笑天居士
天下风云出我辈,一入江湖岁月催。皇图覇业谈笑中,不胜人生一场醉。
展开
-
别老扯Hadoop蛋了,你的数据根本不够大(有点搞笑)
本文原名“Don’t use Hadoop when your data isn’t that big ”,出自有着多年从业经验的数据科学家Chris Stucchio,纽约大学柯朗研究所博士后,搞过高频交易平台,当过创业公司的CTO,更习惯称自己为统计学者。对了,他现在自己创业,提供数据分析、推荐优化咨询服务,他的邮件是:stucchio@gmail.com 。“你有多少大数据和Ha转载 2013-11-19 17:05:30 · 1572 阅读 · 0 评论 -
大数据处理之如何确保断电不丢数据
今年7、8月份杭州实行拉闸限电时,导致阿里余杭机房的机器意外断电,造成HDFS集群上的部分数据丢失。在Hadoop 2.0.2-alpha之前,HDFS在机器断电或意外崩溃的情况下,有可能出现正在写的数据丢失的问题。而最近刚发布的CDH4中HDFS在Client端提供了hsync()的方法调用(HDFS-744),从而保证在机器崩溃或意外断电的情况下,数据不会丢失。这篇文件将围绕这个新的接转载 2013-11-12 12:56:25 · 5146 阅读 · 0 评论 -
HBase,想说爱你不容易啊!
2013年DB-Engines的数据库人气排行榜 : 如此看来即使HBase最后可以成为NoSQL领域的领军者,这条成功路上也是遍地荆棘。优点:从开发者角度上来看,HBase提供的强一致性会让开发过程变得轻松。而这里对于最终一致性存在的误区就是:它改善的是写入的速度——持续的写操作可能会造成延迟,为了保持最终一致性付出了代价,却没有达到应有的效果。基本转载 2013-11-13 11:22:06 · 1497 阅读 · 0 评论 -
数据分析≠Hadoop+NoSQL,不妨先看完善现有技术的10条捷径
摘要:Hadoop让大数据分析走向了大众化,然而它的部署仍需耗费大量的人力和物力。在直奔Hadoop之前,是否已经将现有技术推向极限?这里总结了对Hadoop投资前可以尝试的10个替代方案,省时、省钱、省力,何乐而不为?让业务搭乘大数据技术确实是件非常有吸引力的事情,而Apache Hadoop让这个诱惑来的更加的猛烈。Hadoop是个大规模可扩展数据存储平台,构成了大多数大数据项转载 2013-12-06 10:09:31 · 1143 阅读 · 0 评论 -
莫轻言已成功部署大数据,也许你离达标还相去甚远!
摘要:系统的吞吐量并不能代表大数据技术的成功部署,能给企业来带价值、业务带来突破性的改善才是衡量大数据部署成败的核心。在这里,10gen战略副总裁Matt Asay带来了他为成功总结的4个标准。在大数据范畴大展拳脚肯定是个正确方向,同时世界各地的初创公司及企业巨头也在借力大数据和大数据应用创造价值——将大量的数据处理转化为金钱或竞争优势。然而光彩的背后,总是掩饰着一些不可忽视的真相转载 2013-12-06 10:07:46 · 1840 阅读 · 0 评论 -
Hadoop实际应用场景,阿里和百度
[Hadoop] 实际应用场景之 - 阿里Hadoop在淘宝和支付宝的应用从09年开始,用于对海量数据的离线处理,例如对日志的分析,也涉及内容部分,结构化数据等。使用Hadoop主要基于可扩展性的考虑,规模从当初的3-4百节点增长到今天单一集群3000节点以上,2-3个集群,支付宝的集群规模也达700台,使用Hbase,个人消费记录,key-value型。阿里对Hadoop的源转载 2013-12-06 10:04:52 · 3153 阅读 · 0 评论 -
分布式系统的事务处理
当我们在生产线上用一台服务器来提供数据服务的时候,我会遇到如下的两个问题:1)一台服务器的性能不足以提供足够的能力服务于所有的网络请求。2)我们总是害怕我们的这台服务器停机,造成服务不可用或是数据丢失。于是我们不得不对我们的服务器进行扩展,加入更多的机器来分担性能上的问题,以及来解决单点故障问题。 通常,我们会通过两种手段来扩展我们的数据服务:1)数据分区:就是把数转载 2014-01-21 15:14:58 · 1761 阅读 · 0 评论 -
多版本并发控制(MVCC)在分布式系统中的应用
问题最近项目中遇到了一个分布式系统的并发控制问题。该问题可以抽象为:某分布式系统由一个数据中心D和若干业务处理中心L1,L2 … Ln组成;D本质上是一个key-value存储,它对外提供基于HTTP协议的CRUD操作接口。L的业务逻辑可以抽象为下面3个步骤:read: 根据keySet {k1, … kn}从D获取keyValueSet {k1:v1, … kn:vn}do: 根转载 2014-01-22 09:13:44 · 1185 阅读 · 0 评论 -
Hadoop虽然强大,但不是万能的
随着 Hadoop 应用的不断拓展,使很多人陷入了对它的盲目崇拜中,认为它能解决一切问题。虽然Hadoop是一个伟大的分布式大型数据计算的框架,但Hadoop不是万能的。比如在下面这几种场景就不适合使用Hadoop:1、低延迟的数据访问Hadoop并不适用于需要实时查询和低延迟的数据访问。数据库通过索引记录可以降低延迟和快速响应,这一点单纯的用Hadoop是没有办法代替的。转载 2014-02-07 20:18:37 · 1192 阅读 · 0 评论