wyz191
这个作者很懒,什么都没留下…
展开
-
第12章 Flink
企业数据架构的演进:传统数据处理架构、大数据Lambda架构、流程处理架构。Flink是一种具有代表性的开源流处理架构,它实现了Google Dataflow流计算模型,是一种兼具高吞吐、低延迟和高性能的实时流计算框架,并且同时支持批处理和流处理。Flink的主要特性包括:批流一体化、精密的状态管理、事件时间支持以及精确一次(Exactly-once)的状态一致性保障等。12.1 Flink简介Flink是Apache软件基金会的一个顶级项目,是为分布式、高性能、随时可用和准确的流处理应用程原创 2022-05-02 21:57:11 · 2213 阅读 · 0 评论 -
第11章 流计算
大数据包括静态数据和动态数据(流数据),相应地,大数据计算包括批量计算和实时计算。传统的MapReduce框架采用离线处理计算的方式,主要用于对静态数据的批量计算,并不适合处理流数据。流计算即针对流数据的实时计算。Storm流计算框架具有可扩展性、高容错性、能可靠地处理消息的特点,且使用简单,可以以较低的成本来开发实时应用。流计算概念静态数据和流数据(动态数据)静态数据:静态数据是指不会随时间发生变化的数据。流数据:数据以大量、快速、时变的流形式持续到达。例如:网络监控、电信金融、生产制造等原创 2022-05-01 21:28:24 · 4262 阅读 · 0 评论 -
第10章 Spark(全面解读Spark架构体系)
概述Spark简介Spark诞生于2009年美国加州伯克利分校的AMP实验室,基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Spark最初的设计目标是使数据分析更快----不仅程序运行速度要快,程序编写也要能快速、容易。为了使程序运行更快,Spark提供了内存计算,减少了迭代计算时的IO开销;而为了使程序编写更为容易,Spark使用简练、优雅的Scala编写,基于Scala提供了交互式的编程体系。Spark具有如下4个主要特点:(1)运行速度快...原创 2022-04-30 23:08:15 · 4369 阅读 · 0 评论 -
第9章 数据仓库Hive
数据仓库数据仓库的定义专业定义英文名称为Data Warehouse,可简写为DW。是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。通俗解释(1)面向分析的存储系统(面向数据分析的存储系统)(2)W.H.Inmmon给出的,即“数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integra原创 2022-04-09 10:01:47 · 2830 阅读 · 1 评论 -
第8章 资源管理调度框架YARN
MapReduce 1.0 的缺陷MapReduce 1.0采用Master/Slave架构设计,包括一个JobTracker和若干个TaskTracker,前者负责作业的调度和资源的管理,后者负责执行JobTracker指派的具体任务。这种架构设计具有一些缺陷,具体如下:存在单点故障MapReduce 1.0由JobTracker负责所有MapReduce作业的调度,而系统中只有一个JobTracker,因此会存在单点故障问题,即这个唯一的JobTracker出现故障就会导致系统不可用。Jo原创 2022-04-07 22:27:06 · 2751 阅读 · 0 评论 -
第七章 MapReduce详解
MapReduce是一种并行编程模型,用于大规模数据集(大于1TB)的并行计算,它将复杂的、运行于大规模集群上的并行计算过程高度抽象为两个函数:Map和Reduce。MapReduce是单输入、两阶段、粗粒度数据并行、分布式计算框架。适合用MapReduce来处理的数据集要满足一个前提条件:待处理的数据集可以分解成许多小的数据集,而且每一个小数据集都可以完全并行地进行处理。MapReduce实现离线批处理Impala实现实时交互查询分析Storm实现流式数据实时分析Spark实现迭代原创 2022-04-07 15:18:53 · 6276 阅读 · 0 评论 -
第6章 云数据库
云数据库概述云计算是分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡等计算机和网络技术发展融合的产物。云计算是由一系列可以动态升级和被虚拟化的资源组成。云计算主要包括3中类型,即IaaS(Infrastructure as a Service)、PaaS(Platform as a Service)和SaaS(Software as a Service)。传统软件与云计算方式的比较 项目 传统的软件使用方式 云计算方式 ..原创 2022-04-05 22:16:27 · 2279 阅读 · 0 评论 -
第5章 NoSQL数据库
NoSQL概述NoSQL是对非关系数据库的统称,它所采用的是类似键值、列族、文档等非关系模型。NoSQL数据库没有固定的表结构,通常也不存在连接操作,也没有严格遵守ACID约束。因此与关系数据库相比,NoSQL具有灵活的水平可扩展性,可以支持海量数据存储。NoSQL数据库具有以下3个特点:灵活的可扩展性传统的关系数据库由于自身设计的局限性,通常很难实现“横向扩展”。当数据库负载大规模增加时,往往需要升级硬件来实现“纵向扩展”。由于硬件制造工艺的限制,性能提升的速度已经赶不上数据库系统负载的增加原创 2022-04-05 16:14:49 · 3210 阅读 · 0 评论 -
第4章 分布式数据库HBase(又是一篇呕心力作,一文详讲HBase)
HBase是谷歌BigTable的开源实现,是一个高可靠、高性能、面向列、可伸缩的分布式数据库,主要用来存储非结构化和半结构化的松散数据。适合于存储大表数据(表的规模可以达到数十亿行以及数百万列),并且对大表数据的读、写访问可以达到实时级别。 利用Hadoop HDFS ( Hadoop Distributed File System )作为其文件存储系统,提供实时读写的分布式数据库系统。 利用ZooKeeper作为协同服务。BigTableBigTable是一个分布式存储系统,利用谷歌提出的原创 2022-04-05 08:01:41 · 5435 阅读 · 0 评论 -
第3章 分布式文件系统HDFS(精心梳理 详解HDFS )
分布式文件系统(Distributed File System)是一种通过网络实现文件在多台主机上进行分布式存储的文件系统。分布式文件系统的设计一般采用“Client/Server(客户机/服务器)”模式,客户端以特定的通信协议通过网络与服务器建立连接,提出文件访问请求,客户端和服务器可以通过设置访问权来限制请求方对底层数据存储块的访问。分布式文件系统的结构普通操作系统(Windows、Linux)中,文件系统一般会把磁盘空间划分为512Byte/每组的“磁盘组”,它是文件系统进行读写的最小单位,文原创 2022-04-04 21:48:28 · 13035 阅读 · 1 评论 -
第2章 大数据处理架构Hadoop
概述Hadoop是一个开源的、可运行于大规模集群上的分布式计算平台,它实现了MapReduce计算模型和分布式文件系统HDFS等功能。它被公认为行业大数据标准开源软件。名字的是由小孩子取的“一头吃饱了的大象”。由来1997年年末,Doug Cutting道格·卡丁因工作不稳定,自己用Java编写了Lucene;(Doug Cutting是Lucene、Nutch、Hadoop、Avro的作者)Lucene其实是一个提供全文文本搜索的函数库,它不是一个应用软件;2000年3月,Luce原创 2022-04-04 19:34:49 · 3357 阅读 · 0 评论 -
第1章 大数据概述
三次信息化浪潮 信息化浪潮 发生时间 标志 解决的问题 代表企业 第一次 1980年前后 个人计算机 信息处理 Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等 第二次 1995年前后 互联网 信息传输原创 2022-04-04 17:51:04 · 6967 阅读 · 0 评论