
大数据
文章平均质量分 77
hustfc
这个作者很懒,什么都没留下…
展开
-
流数据处理
流数据处理strom 在2011年Storm开源之前,由于Hadoop的火红,整个业界都在喋喋不休地谈论大数据。Hadoop的高吞吐,海量数据处理的能力使得人们可以方便地处理海量数据。但是,Hadoop的缺点也和它的优点同样鲜明——延迟大,响应缓慢,运维复杂。 有需求也就有创造,在Hadoop基本奠定了大数据霸主地位的时候,很多的开源项目都是以弥补Hadoop的实时性为目标而被创造出来。而在这个节...原创 2018-11-23 16:35:55 · 2985 阅读 · 0 评论 -
Memcached分布式缓存
Memcached分布式缓存 Memcached 是一个高性能的分布式内存对象缓存系统,用于动态Web应用以减轻数据库负载。它通过在内存中缓存数据和对象来减少读取数据库的次数,从而提高动态、数据库驱动网站的速度。 memcached存储两种形式的数据:key-val数据和sql数据 为了防止内存碎片化,使用slab-allocator来分配存储空间。可以看到很多个相同大小的chunck组成一个s...原创 2018-11-22 18:36:30 · 215 阅读 · 0 评论 -
分布式数据库DynamoDB
DynamoDB DynamoDB是分布式数据库,设计成用来解决数据库管理、性能、可扩展性和可靠性等核心问题。开发人员可以创建一个数据库表,该表可以存储和检索任何数量的数据。 DynamoDB改进了Memcached的一致性hash算法 采用了虚拟节点的机制改进了一致性hash算法,有Q个虚拟节点,S个物理节点,那么为每一个物理节点分配Q/S个虚拟节点,其中Q>>S,虚拟节点的好处是能...原创 2018-11-22 19:19:23 · 5876 阅读 · 0 评论 -
GFS google file system谷歌文件系统
GFS GFS 也就是 google File System,Google公司为了存储海量搜索数据而设计的专用文件系统。 GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,并提供容错功能。它可以给大量的用户提供总体性能较高的服务。 master节点 master节点只存放元数据: 文件和chunk命名空间 文件和chunk的对应关系 ...原创 2018-11-22 20:37:56 · 1234 阅读 · 1 评论 -
分布式一致性算法 Paxos & Raft
分布式一致性算法paxos & raft 1 paxos算法 paxos算法通过多个监督者来增强可靠性 通过监督者投票表决状态变化 保证所有数据访问都遵从这种表决 多数派写 客户端写入 W >= N/2 + 1个节点,节点之间平等 多数派读 W + R > N; R >= N/2 + 1 容忍最多(N - 1) / 2个节点损坏 法定集合 将一个超过半数的节点集合成为...原创 2018-11-23 09:55:33 · 714 阅读 · 0 评论 -
理解MapReduce
执行流程 创建一个map函数处理一个基于key/value对的数据集合,输出中间数据,并写入磁盘 创建一个reduce函数来合并处理中间数据,具有相同key值的value调用被分布到多台机器上 reduce可以分布到多台机器上,例如hash(key) mod R, R为分区数目,一个job包含多个task,每个reduce任务产生一个输出文件,因此有R个输出文件。 实现模型 执行过程 首先...原创 2018-11-23 10:13:52 · 221 阅读 · 0 评论 -
理解Hadoop
Hadoop Haloop hadoop解决迭代的MapReduce问题,有很多大数据分析需要迭代计算,而MapReduce框架对迭代计算支持度不够 MapReduce产生的问题 每次执行都需要重新装在数据,重新处理,但迭代过程中,有动态数据和静态数据两类,静态数据处理带来额外的开销 迭代终止稳定点的判断过程在每次迭代中需要额外的MapReduce计算 MapReduce局限性 任务调度开销...原创 2018-11-23 11:15:41 · 325 阅读 · 1 评论 -
理解Spark
Spark Hadoop框架存在的问题 JobTracker是MapReduce的集中处理点,存在单点故障的问题 以MapReduce task数目作为资源的表示比较简单,没有考虑CPU和内存占用情况 任务集中导致源代码复杂,增加bug修复和系统维护的难度 RDD RDD(Resilient Distributed Dataset)是一个可读的、可分区的分布式数据集,任何数据在spark中都可...原创 2018-11-23 16:00:51 · 310 阅读 · 0 评论