大数据
MMMaohuzi
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【大数据】流式计算系统Storm | 分布式协调系统Zookeeper | 复习笔记
流式计算 特点: 无边界的 同一时间只能处理一条或很少量 基于事件,处理结果立刻可用 近实时处理需求,要求计算在非常短的时延(Low Latency)内完成 一般框架 数据实时采集 数据实时计算(流式计算系统) 在对处理时效性有高要求的计算场景下,提供一个完善的计算框架,并暴露给用户少量的编程接口 流式计算应用 流式计算系统的特点 记录处理低延迟 极佳的系统容错性 极强的系统拓展能力 灵活强大的应用逻辑表达能力 流式计算系统架构 主从模式 P2P模式 Storm概念 拓.原创 2020-12-12 23:07:07 · 364 阅读 · 0 评论 -
【大数据】大数据平台Spark | RDD |复习笔记
Spark Spark v.s Hadoop 处理问题的层面不同:Hadoop包括存储HDFS和计算MR;Spark没有存储功能 Spark数据处理速度远超Hadoop 关于内存计算 内存计算不是Spark的特性,Spark利用内存实现数据缓存,并不将数据持久化在内存中(就是用用内存) 比Hadoop快的原因:A. task启动时间比较快,Spark是fork出线程;而MR是启动一个新的进程;B. Spark只有在shuffle的时候才会将数据放在磁盘,而MR却不是; C. 典型的MR工作流是由.原创 2020-12-12 20:21:01 · 301 阅读 · 0 评论 -
【大数据】BigTable分布式数据存储系统分布式数据库 | 复习笔记
前世今生 数据库(Database,简称DB) 定义:有组织、可共享 特征: 数据按一定的数据模型组织、描述和储存 可为各种用户共享 冗余度小 独立性高 易扩展 数据库管理系统DBMS(DataBase Management System) 位于用户和操作系统之间 帮助用户有效地组织和存储数据、高效获取有用信息的一层计算机系统软件 文件系统阶段 数据长期保存 文件管理数据 共享性差 独立性差 数据库系统阶段 数据结构化 数据的共享性高,冗余度低,易扩充 数据独立性高 数据由DBMS统一管理.原创 2020-12-12 13:36:18 · 587 阅读 · 1 评论 -
【大数据】资源管理与调度系统 | YARN | 复习笔记
资源管理与调度 可能是因为理解不深,感觉这一块还是概念性的介绍性的东西比较多 承上Hadoop: 概念: 优势: 动态分配资源 所有资源对所有任务可用 支持多类型计算框架和多版本计算框架 概念模型: 资源组织模型,调度策略和任务组织模型 通用架构: 需要考虑的问题 异质性:往往指的是组成元素构成的多元性和相互之间较大的差异性 资源异质性 工作负载(Workload)异质性 数据局部性:大数据场景下的基本设计原则,移动计算代码到数据所在地而非移动数据到计算任务所在地 节点局部性(No.原创 2020-12-11 21:43:11 · 332 阅读 · 0 评论 -
【大数据】Hadoop | HDFS | 复习笔记
Hadoop Hadoop核心组件包括: HDFS分布式文件系统 MapReduce分布式计算构架 偷图~ HDFS(Hadoop分布式文件系统) NameNode 地位相当于GFS中的Master,主要存储三类信息: 文件目录树 文件到Block映射关系 Block副本及其存储位置 这里和GFS非常类似 磁盘中保存两个元数据管理文件: fsimage:NameNode启动时对整个文件系统的快照 edit log :NameNode启动后,对文件系统的改动序列 NameNode同时负责.原创 2020-12-11 20:24:06 · 171 阅读 · 0 评论 -
【大数据】离线批处理计算MapReduce | 复习笔记
一些介绍 分布式计算模型 批处理计算:(大容量静态数据集) 有界、持久、大量 理需要访问全套记录,不适合对处理时间要求较高的场合 偷老师的图: 常见计算模式 主要点在于分开mapper和reducer,然后确定每个<key,value>键值对的意义 求和模式(Summarization Pattern) 单词统计: map阶段:输入<key,value>是<网页ID,网页内容>,输出<key,value>是<单词,出现次数> red.原创 2020-12-11 01:09:44 · 918 阅读 · 0 评论 -
【大数据】分布式文件系统GFS | 纠删码 | 复习笔记
分布式文件系统GFS(Google File System) 基本概念 首先理解一下文件系统(file system) 是一种存储设备上存储文件的方法。难理解就像自己电脑里好多盘,每个盘里下面有很多文件,这就是一种文件系统,不一样的是GFS用了很多服务器 GFS封装了集群管理细节和存储映射细节 主要抓四个特点: 海量非结构化信息存储(因为原先是google为存储网页信息的) 数据冗余备份 自动负载均衡 失效服务器检测 设计原则: 对部件错误习以为常,所以有特点里的2和4 对大文件读写.原创 2020-12-11 00:00:17 · 561 阅读 · 1 评论
分享