
大数据
文章平均质量分 97
塞纳河畔的王子
逢山开路,遇水搭桥!
展开
-
Flink
Apache Flink概述Flink 是构建在数据流之上的一款有状态的流计算框架,通常被人们称为第三代大数据分析方案第一代大数据处理方案:基于Hadoop的MapReduce 静态批处理 | Storm 实时流计算 ,两套独立的计算引擎,难度大(2014年9月)第二代大数据处理方案:Spark RDD 静态批处理、Spark Streaming(DStream)实时流计算(实时性差),统一的计算引擎,难度小(2014年2月)第三代大数据分析方案:Flink DataSet 批处理框架、Ap原创 2020-05-24 10:53:35 · 714 阅读 · 1 评论 -
Structured Streaming
Structured StreamingStructured Streaming是什么Structured Streaming是一个scalable和fault-tolerant的流处理引擎(泛指使用SQL操作Spark的流处理)该引擎构建在Spark SQL之上,使得用户可以用静态批处理的方式去处理流计算任务。Structured Streaming底层弃用Spark SQL引擎对流数据做增量和持续的更新计算,并且输出最终结果。用户可以使用 Dataset/DataFrame API完成流处理过程中的原创 2020-05-24 10:52:49 · 514 阅读 · 0 评论 -
Spark SQL
Spark SQLSpark SQL是构建在Spark RDD之上的一款ETL(Extract Transformation Load)工具,这类似于构建在MapReduce之上的1.x版本的Hive。同Spark RDD的不同之处在于Spark SQL的API可以给Spark计算引擎提供更多的信息(计算数据结构、转换算子),Spark计算引擎可以根据Spark SQL提供的信息优化底层计算任务。目前为止,Spark SQL提供了两种风格的交互式API:Dataset API/SQL脚本。Dataset原创 2020-05-24 10:52:07 · 366 阅读 · 2 评论 -
Spark Streaming
Spark DStreamDStream是什么DStream是构建在Spark RDD之上的一款流处理工具,意即Spark DStream并不是一个严格意义上的流处理,底层通过将RDD在时间轴上分解成多个小的 RDD-micro batch流 | 批处理计算类型数据量级计算延迟输入数据输出数据计算形式批处理MB=>GB=>TB几十分钟 | 几个小时固定输入(全量)固定输出最终终止流处理Byte级别 | 记录级别亚秒级延迟持续输入(增量)原创 2020-05-24 10:51:21 · 183 阅读 · 0 评论 -
Spark RDD
Apache Spark框架概述Apache Spark是一个快如闪电的统一的分析引擎(仅仅是一款分析引擎,不提供存储服务)快:相比较于第一代基于磁盘计算的离线分析框架MapReduce而言,Spark基于内存计算 较快统一:Spark提供统一的API访问接口,实现了批处理和流处理的统一,并且具有ETL功能同时提供对大规模数据集的全栈式解决方案:批处理、流处理、SQL、Machine Learning、图形关系分析等计算速度快的原因使用先进的DAG(有向无环图)设计MapReduce:矢原创 2020-05-24 10:50:28 · 250 阅读 · 0 评论 -
Hive
大数据课程Hive编程1. 引言什么是Hive1. Hive是Apache组织提供的一个基于Hadoop的数据仓库产品 数据库 DataBase OLTP 数据量级小 数据价值高 数据仓库 DataWarehouse OLAP 数据量级大 数据价值低2. Hive基于Hadoop 底层数据存储 HDFS 运算方式 MapReduce原有MapReduce处理相关操作时存在的问题MapReduce处理相关原创 2020-05-24 10:48:20 · 164 阅读 · 0 评论 -
Storm
Apache Storm一、概述http://storm.apache.org/Apache Storm是一款免费开源的分布式实时计算框架(流处理)Apache Storm可以非常容易并且可靠地处理无界的流数据,进行实时的分析处理Apache Storm支持多种编程语言(1.x版本Clodure 2.x版本Java重构)。适用场景:实时分析、在线机器学习、持续计算、分布式的RPC、ETL(数据仓库)。Storm性能极其优异:单个节点每秒能够处理百万条Tuple(类似于Kafka中的Record原创 2020-05-24 10:46:08 · 378 阅读 · 0 评论 -
Kafka
Kafka笔记一、概述http://kafka.apache.org/Apache Kafka® is a distributed streaming platform——分布式的流数据平台Kafka具备三项关键能力:发布订阅记录流(Record),类似于消息队列(MQ)或者企业级消息系统存储记录流,以一种容错的持久化方式实时处理加工流数据Kafka的应用场景:构建实时的流数据管道,可靠地在系统和应用间获取数据(MQ)构建实时的流数据应用,传输或者处理加工流数据Kafka中的原创 2020-05-24 10:45:20 · 753 阅读 · 0 评论 -
Flume
Apache Flume一、概述http://flume.apache.org/Flume是一个分布式的、可靠的、高可用的高效的日志数据收集、聚合以及传输系统,它简单和灵活的架构是基于数据流的。Flume具备强大的容错保证机制,有多种容错和恢复保证。Flume使用简单可扩展的数据模型允许开发在线分析处理应用。架构[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ux2oLmH0-1590288162930)(D:\Learnspace\training camp\day原创 2020-05-24 10:43:41 · 208 阅读 · 0 评论 -
HBase
一、概述http://hbase.apache.orgApache HBase是一个基于Hadoop的数据库,具有可靠、分布式的特点,适合结构化大数据的存储。Apache HBase是Google BigTable的开源实现,开源、分布式、数据多版本、基于列存储的非关系型数据库。HBase建立在Hadoop的HDFS的基础之上。列存储和行存储列存储和行存储指的是数据在存储介质中的组织方式关系型数据库(行存储):Oracle、MySQL、DB2、SQL Server、MongoDB、Lexst等原创 2020-05-24 10:42:29 · 308 阅读 · 0 评论 -
Zookeeper
Apache Zookeeper一、概述http://zookeeper.apache.orgApache Zookeeper是一个可靠高效的分布式应用的服务协调系统,主要解决分布式系统存在的一些通用问题,比如分布式系统的集群管理、集群选举、配置中心、统一命名服务、分布式同步(分布式锁)等问题。架构Zookeeper关键词:一致、有头、数据树[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PYYfNa75-1590288005092)(D:\Learnspace原创 2020-05-24 10:41:02 · 155 阅读 · 0 评论 -
Hadoop
**Author: **李金辉Wechat:m04194514Hadoop笔记一、概述大数据大数据(Big Data)是指无法在一定时间范围内用常规软件工具进行捕捉、处理和管理的数据集合,需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的5V特点(IBM提出):Volume(大量)Velocity(高速)Variety(多样)Value(低价值密度)Veracity(真实性)Hadoop是什么http://hadoop.ap原创 2020-05-24 10:34:13 · 675 阅读 · 0 评论