大数据系统基础
文章平均质量分 69
Largehadron
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
绪论
大数据--21世纪的原油for any collection of data sets so large and complex that it becomes difficult to process using traditional data processing applications规模大数据类型多样:结构化数据--先有模式后有数据、半结构化数据--先有部分模式(可扩展的标原创 2017-02-18 17:42:51 · 199 阅读 · 0 评论 -
云计算--虚拟化技术
1. 计算虚拟化主操作系统:运行在真实机器上客户操作系统:运行在主操作系统之上Hypervisor:管理和调度各个客户操作系统,为客户操作系统提供了一个硬件的接口层面类型1:运行在真实机器上,例如VMWARE类型2:运行在主操作系统上,例如MS Virtual PC类型0:1和2兼有服务器虚拟化:指令集的翻译(二进制翻译、缓存)I/O设备的仿真:让虚拟机原创 2017-02-18 21:23:14 · 2171 阅读 · 0 评论 -
云计算
1. 大数据与云计算的关系大数据对于系统构架的需求:大数据:volume--海量计算与存储velocity--快速计算、数据的快速传输variety--灵活性value--低成本大数据系统的核心设计理念:并行化、规模经济、虚拟化(抽象)大数据系统的软硬件架构:存储--存储虚拟化网络--网络虚拟化 “云”框架:Hadoop/Spark原创 2017-02-18 18:52:33 · 615 阅读 · 0 评论 -
文件存储
1. 文件系统概念:名字空间:目录树文件的读写:打开(offset)、读、写、关闭(避免内存泄漏)设计:下层接口:磁盘的读写接口,磁盘的地址(磁盘的驱动)上层接口:目录树的组织、文件数据的读写本质功能:将文件名字翻译定位到一个具体的磁盘位置,进而可以完成文件的读写。2. 文件系统接口的标准化虚拟文件系统VFS:物理文件与服务之间的一个接口原创 2017-02-20 16:08:05 · 423 阅读 · 0 评论 -
NoSQL--键值
1. NoSQL技术特征:三个否定否定关系事务否定ACID事务否定SQL语言(Not Only SQL) 分类:Document(文档)、Key-value(键值)、Graph(图) 2. Cassandra(键值处理)数据模型(弱结构化数据):键空间:最上层的命名空间,相当于database列族:与table类似,但更稀疏行:每一行由一个key原创 2017-02-25 16:39:09 · 772 阅读 · 1 评论 -
内存计算--Spark
1. 并行计算回顾原因:计算量大:单进程算得不够快内存需求大:内存随机访问比硬盘随机访问快10万倍,单机内存不够大I/O量大:单个硬盘读写I/O太慢 挑战:编程困难:并行性、同步语句性能调优难:负载平衡、局部性(Cache)容错难:传统容错方法不适用(锁步法) 大数据处理并行系统:编程模型、容错能力、性能与成本MapReduce:编程模型简单(M原创 2017-02-25 15:55:37 · 6100 阅读 · 0 评论 -
处理框架--MapReduce
数据类型与分析工具 结构化非结构化批处理大规模并行仓库分布式文件系统hadoop/通用NoSQL实时内存DBs、分析RDBMS特殊NoSQL、流处理 数据并行带来的问题GFS已经解决了数据分块存储的问题,但仍存在:共享的状态:吞吐量(多个进程同时改变)、同步(同步修改需要锁);小粒度的通讯让管理变得复杂;失败的机器; MapReduce数据并行的分治策略原创 2017-02-24 23:46:27 · 250 阅读 · 0 评论 -
处理框架—Pig Latin
PIG LATIN语言简介更高级的编程语言(数据流)--更快捷的MapReduce工作流程--提供关系型数据库操作--可以方便地嵌入Java函数--支持嵌套数据类型 2. PIG LATIN的实现与优化编译:每一个group或join操作形成一个mapreduce其他操作进入map和reduce阶段的流水线优化:合并函数(Combiner),在map原创 2017-02-25 13:20:57 · 425 阅读 · 0 评论 -
流计算
1. 计算模式:批处理模型:--一次处理全部数据(MapReduce、Spark)--数据量太大存不下全部数据、数据到来太快来不及批处理流计算模型:--数据不断以增量的方式流入系统并处理,改变系统状态并输出结果--不需要对全部数据进行处理 2. 流计算目标:实时性、可扩展性、容错、可编程性 一种实现:Worker + QueueWorker:处理单元原创 2017-02-25 17:50:58 · 433 阅读 · 0 评论
分享