
大数据论文和项目解读
文章平均质量分 89
云计算/数据库相关的论文和项目很多,这里的学习笔记,主要是为了自己能够在读完一篇论文后能多少总结一下,另一方面也希望做分享之用,对一些想要快速了解论文大意的朋友有所帮助
彩色蚂蚁
- 个人兴趣爱好多变,擅长从入门到放弃,对徒步,摄影,桌游,乐高等各类自闭活动尤为喜好。
展开
-
通俗深入的理解Sora的架构原理
这篇文章是面向有一定理工科基础,能理解一些基本的工程逻辑或理工常识,但非数学或算法相关专业或职能的同学。他们可能对相关系统,架构感兴趣,想要从基本原理的角度去理解它的核心思想,进而希望做到能有自己的观点和判断,有理有据,不人云亦云。原创 2024-03-08 10:36:21 · 3406 阅读 · 0 评论 -
Ray - 面向增强学习场景的分布式计算框架
如果关注这个领域的同学可能知道,Ray其实在去年就已经在开源社区正式发布了,只不过后来就一直没有什么太大动静,前段时间也是因为机缘巧合,我又回头学习了解了一下,顺便总结如下:Ray是什么?Ray 是RISELab实验室(前身也就是开发Spark/Mesos等的AMPLab实验室)针对机器学习领域开发的一种新的分布式计算框架。按照官方的定义:“Ray is a flexible, high-perf...原创 2018-05-23 11:57:02 · 11488 阅读 · 7 评论 -
谷歌DataFlow编程模型以及Spark/Flink/StreamCQL的相关实现
流式计算框架编程接口的标准化,傻瓜化,SQL化,自打谷歌发表Dataflow编程模型的Paper起,就有走上台面的趋势。各家计算框架都开始认真考虑相关的问题,俨然成为大家竞争的热点方向。在过去一年多的时间里,Beam/Flink/Spark在这方面的努力和相关工作也逐渐落地成熟,实际线上成熟应用的日子看起来指日可待了。 所以,翻出一年多前阅读DataFlow Paper的旧文,更新一下部分过时信息原创 2017-07-11 11:24:09 · 8559 阅读 · 3 评论 -
谷歌Dataflow编程模型和spark 2.0 structured streaming
主要介绍一下Dataflow编程模型的基本思想,再简单比较一下spark 2.0 structured streaming的编程模型原创 2016-08-09 16:35:05 · 8676 阅读 · 4 评论 -
KUDU - Cloudera开发的又一个Hadoop系存储系统
Kudu是Todd Lipcon@Cloudera带头开发的存储系统,其整体应用模式和HBase比较接近,即支持行级别的随机读写,并支持批量顺序检索功能。定位于应对快速变化数据的快速分析型数据仓库,希望靠系统自身能力,支撑起同时需要高吞吐率的顺序和随机读写的应用场景(可能的场景,比如时间序列数据分析,日志数据实时监控分析),提供一个介于HDFS和HBase的性能特点之间的一个系统,在随机读写和批量扫描之间找到一个平衡点,并保障稳定可预测的响应延迟原创 2016-03-04 15:47:25 · 26565 阅读 · 5 评论 -
Mesa - 谷歌近实时分析型数据仓库
Mesa并不是一个从底层开始重新构建的系统,它依托Colossus提供分布式数据存储服务,依托Bigtable做元数据存储。使用MapReduce进行批量数据处理工作。之所以能实现它所声称的这些底层系统所不具备的综合能力(高一致性+原子更新+低延时+近实时+海量吞吐率),其原因还是因为它针对了广告数据的应用场景,采用了各种类似系统的最佳实践和一些特定的Tradeoff策略原创 2016-03-03 14:25:37 · 10697 阅读 · 1 评论 -
快速理解 Omid: Yahoo在HBase上的分布式事务方案
OMID是Yahoo构建在HBase上的一个分布式事务解决方案,用来拓展HBase所不支持跨行跨表级别的事务。其定位目标是OLTP类型的事务。类似的系统也有不少,他们或多或少都借鉴了谷歌的Percolator的思想,而omid则有较大的区别,具体区别在哪,下文详细分析。原创 2015-08-05 14:02:34 · 6345 阅读 · 1 评论 -
Percolator Google的海量数据增量处理系统
Percolator的目标是在海量规模的数据集上提供增量更新的能力,并通过支持分布式的事务来确保增量处理过程的数据一致性和整体系统的可扩展性。原创 2015-08-04 08:53:40 · 8250 阅读 · 3 评论 -
Dryad 微软的分布式运算框架
Dryad的论文是微软早在2007年就发布的,Tez的核心思想来源于Dryad,差不多可以算是Dryad的开源实现吧。最近正好看到几个有趣的项目是基于Tez实现的,于是顺便追本溯源,学习了一下Dryad的理论基础原创 2014-07-08 10:51:33 · 12295 阅读 · 0 评论 -
Tachyon架构分析和现存问题讨论
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.youkuaiyun.com/colorant/Tachyon是AmpLab的Li Haoyuan所开发的一个基于内存的分布式文件系统,出发点是作为AMPLAB的BDAS的一个组成部分 总体设计思想 从Tachyon的设计目原创 2014-03-28 11:32:40 · 19077 阅读 · 2 评论 -
水推磨轮转-Google的大规模流式处理系统MillWheel
MillWheel的设计目标是提供一个大规模分布式的低延迟流式数据处理框架。和其它的Streaming Processing系统 (e.g. storm) 类似 ,MillWheel的数据处理流程框架基本上就是一个由用户自定义的处理单元(MillWheel里叫computation)按照一定的拓扑结构连接在一起的一个有向图原创 2013-10-28 15:45:17 · 8930 阅读 · 1 评论 -
快速理解SAMZA, streaming on kafka
samza是一个分布式的流式数据处理框架(streaming processing),它是基于Kafka消息队列来实现类实时的流式数据处理的。(准确的说,samza是通过模块化的形式来使用kafka的,因此可以构架在其他消息队列框架上,但出发点和默认实现是基于kafka)原创 2013-09-27 10:10:41 · 15166 阅读 · 1 评论 -
快速理解Kafka分布式消息队列框架
Kafka是由Linkedin开发的一个分布式的消息队列系统(Message Queue)。kafka开发的主要初衷目标是构建一个用来处理海量日志,用户行为和网站运营统计等的数据处理框架。在结合了数据挖掘,行为分析,运营监控等需求的情况下,需要能够满足各种实时在线和批量离线处理应用场合对低延迟和批量吞吐性能的要求。从需求的根本上来说,高吞吐率是第一要求,其次是实时性和持久性。原创 2013-09-27 10:05:14 · 75523 阅读 · 3 评论 -
粗看WASP :Alibaba的海量数据分布式数据库探索
Wasp是阿里集团开发的基于HBase的一个数据库方案,其根本出发点是仿效Google的Megastore,“在HBase系统上不牺牲线性拓展能力的同时又能提供跨行事务、索引、SQL的功能”原创 2013-07-30 14:42:38 · 5618 阅读 · 2 评论 -
论文阅读笔记 - TAO: Facebook'sDistributed Data Store for the Social Graph
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.youkuaiyun.com/colorant/更多论文阅读笔记 http://blog.youkuaiyun.com/column/details/cloudpaper.html ==目标问题 == TAO的目标问题是构建一个在Faceb原创 2013-07-01 10:58:55 · 7810 阅读 · 0 评论 -
论文阅读笔记 - YARN : Architecture of Next Generation Apache Hadoop MapReduceFramework
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.youkuaiyun.com/colorant/更多论文阅读笔记 http://blog.youkuaiyun.com/colorant/article/details/8256145==目标问题 == 下一代的Hadoop框架,支持1原创 2013-06-21 15:53:14 · 4365 阅读 · 0 评论 -
论文阅读笔记 - Mesos: A Platform for Fine-Grained ResourceSharing in the Data Center
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.youkuaiyun.com/colorant/更多论文阅读笔记 http://blog.youkuaiyun.com/colorant/article/details/8256145==目标问题 == 为了提高资源的利用率以及满足不同原创 2013-06-21 10:13:09 · 5223 阅读 · 0 评论 -
论文阅读笔记 - Omega: flexible,scalable schedulers for large compute clusters
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.youkuaiyun.com/colorant/更多论文阅读笔记 http://blog.youkuaiyun.com/colorant/article/details/8256145 关键字 集群调度 ==目标问题 ==原创 2013-06-20 10:50:09 · 4275 阅读 · 0 评论 -
论文阅读笔记 - Spanner: Google'sGlobally-Distributed Database
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.youkuaiyun.com/colorant/更多论文阅读笔记 http://blog.youkuaiyun.com/colorant/article/details/8256145关键字Spanner,外部一致性,跨机房,原创 2013-06-19 11:12:44 · 6617 阅读 · 0 评论 -
快速理解 Phoenix : SQL on HBASE
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.youkuaiyun.com/colorant/更多云计算相关项目快速理解文档 http://blog.youkuaiyun.com/colorant/article/details/8255910==是什么 == 目标Scope Eas原创 2013-03-07 09:41:59 · 22598 阅读 · 0 评论 -
论文阅读笔记 - MapReduce : Simplified Data Processing on Large Clusters
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.youkuaiyun.com/colorant/更多论文阅读笔记 http://blog.youkuaiyun.com/colorant/article/details/8256145 关键字MapReduce分布式计算原创 2013-01-25 09:50:29 · 7430 阅读 · 0 评论 -
论文阅读笔记 - The Google File System
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.youkuaiyun.com/colorant/更多论文阅读笔记 http://blog.youkuaiyun.com/colorant/article/details/8256145 关键字GFS分布式文件系统 ==目标问题 ==原创 2013-01-25 09:38:15 · 4194 阅读 · 0 评论 -
论文阅读笔记 - Megastore : ProvidingScalable, Highly Available Storage for Interactive Services
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.youkuaiyun.com/colorant/更多论文阅读笔记 http://blog.youkuaiyun.com/colorant/article/details/8256145关键字跨机房,数据同步,paxos,一致性,Google原创 2013-01-17 11:27:27 · 4050 阅读 · 0 评论 -
论文阅读笔记 - Bigtable: A Distributed Storage Systemfor Structured Data
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.youkuaiyun.com/colorant/更多论文阅读笔记 http://blog.youkuaiyun.com/colorant/article/details/8256145 关键字Bigtable GFS分布式数据库 ==原创 2013-01-17 11:19:08 · 5407 阅读 · 0 评论 -
Zookeeper 快速理解
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.youkuaiyun.com/colorant/更多云计算相关项目快速理解文档 http://blog.youkuaiyun.com/colorant/article/details/8255910==是什么 == 目标Scope(解原创 2012-12-27 16:27:14 · 10818 阅读 · 1 评论 -
论文阅读笔记 - Chubby: The Chubby lock service for loosely-coupled distributed systems
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.youkuaiyun.com/colorant/更多论文阅读笔记 http://blog.youkuaiyun.com/colorant/article/details/8256145关键字Chubby, Paxos,分布式锁服务原创 2012-12-25 09:49:49 · 5754 阅读 · 0 评论 -
论文阅读笔记 - Paxos made live
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.youkuaiyun.com/colorant/更多论文阅读笔记 http://blog.youkuaiyun.com/colorant/article/details/8256145关键字Paxos, 实现,可靠性,性能,Chubby ==原创 2012-12-25 09:47:08 · 7234 阅读 · 0 评论 -
论文阅读笔记 - Paxos made simple
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.youkuaiyun.com/colorant/更多论文阅读笔记 http://blog.youkuaiyun.com/colorant/article/details/8256145关键字Paxos,一致性 ==目标问题 ==原创 2012-12-25 09:15:46 · 7549 阅读 · 0 评论 -
Hadoop与大数据技术大会2012PPT阅读笔记
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.youkuaiyun.com/colorant/更多文档论文阅读笔记 http://blog.youkuaiyun.com/colorant/article/details/8256145以下是Hadoop与大数据技术大会 2012 的一些PP原创 2012-12-10 15:23:23 · 6551 阅读 · 0 评论 -
论文阅读笔记 - Pregel
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.youkuaiyun.com/colorant/更多论文阅读笔记 http://blog.youkuaiyun.com/colorant/article/details/8256145阅读笔记 - Pregel: A System for Large-Scal原创 2012-12-04 15:42:44 · 7958 阅读 · 0 评论 -
论文阅读笔记- Dremel
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.youkuaiyun.com/colorant/更多论文阅读笔记 http://blog.youkuaiyun.com/colorant/article/details/8256145阅读笔记 - Dremel: Interactive Ana原创 2012-12-04 15:39:08 · 4381 阅读 · 0 评论 -
Storm快速理解
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.youkuaiyun.com/colorant/更多云计算相关项目快速理解文档 http://blog.youkuaiyun.com/colorant/article/details/8255910==是什么 == 目标Scope(解决什么问原创 2012-12-04 15:17:51 · 8676 阅读 · 1 评论 -
Spark 快速理解
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.youkuaiyun.com/colorant/更多云计算相关项目快速理解文档 http://blog.youkuaiyun.com/colorant/article/details/8255910==是什么 == 目标Scope(解决什么问原创 2012-12-04 15:02:07 · 35357 阅读 · 3 评论 -
云计算相关项目快速理解
这个是一个汇总贴,希望能不断更新文档的目标和内容: 云计算/数据库相关的软件项目多如牛毛,写这些文档的主要目的,一方面是作为自己的学习笔记,另一方面也是希望能够给那些只打算快速扫描理解一下这些项目的基本框架原理的TX一些帮助。 因为是快速理解,所以我试图以尽可能简短的篇幅总结该项目的目标,解决的问题,为什么能解决相关问题,架构的核心关键是什么,与其它架构的区别,在上下游原创 2012-12-04 14:50:48 · 5435 阅读 · 0 评论 -
云计算和数据库相关论文阅读
这个是一个汇总贴,希望能不断更新文档的目标和内容: 云计算/数据库相关的论文很多,这里的学习笔记,主要是为了自己能够在读完一篇论文后能多少总结一下,可长可短,免得看过就忘,另一方面也希望做分享之用,对一些想要了解大意的朋友有所帮助 用中文写的原因很简单,笔记嘛,求快,用中文写也避免自己无脑拷贝,如果你习惯看英文,直接看论文原文就好了;) 最后,个人能力有限,也是原创 2012-12-04 07:33:42 · 5510 阅读 · 0 评论 -
kiji 快速理解
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.youkuaiyun.com/colorant/更多云计算相关项目快速理解文档 http://blog.youkuaiyun.com/colorant/article/details/8255910==是什么 == 目标Scope(解决什么问题)原创 2012-11-19 09:02:13 · 5887 阅读 · 1 评论