大数据
JA0000
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
zookeeper理论知识
文章目录ZooKeeper概述ZooKeeper关键特性ZooKeeper模型ZooKeeper容灾能力ZooKeeper读特性ZooKeeper写特性ZooKeeper和HDFSZooKeeper和YARNZooKeeper和HBase ZooKeeper概述 ZooKeeper 分布式服务框架主要是用来解决分布式应用中经常遇到的一些数据管理问题,提供分布式、高可用性的协调服务能力。 安全模式下ZooKeeper依赖于Kerberos和LdapServer进行安全认证,非安全模式则不依赖于Kerbero原创 2020-09-02 13:33:41 · 563 阅读 · 0 评论 -
kafka理论知识
文章目录Kafka简介Kafka结构TopicsPartition偏移量Partition副本Logs删除信息消息传输保障消息传输场景写数据读数据 Kafka简介 Kafka定义:Kafka 是一个高吞吐、分布式、基于发布订阅的消息系统,利用Kafka技术可在廉价PC Server上搭建起大规模消息系统。 Kafka应用场景:Kafka和其他组件比较,具有消息持久化、高吞吐、实时等特性,适用于离线和实时的消息消费,如聚合统计系统运营数据(监控数据)、日志收集等大量数据的数据收集场景。 Kafka结构原创 2020-09-02 00:18:14 · 442 阅读 · 0 评论 -
Hive理论知识
文章目录Hive简介Hive特性Hive 的设计特点Hive的优点Hive缺点Hive的架构Hive数据存储模型分区和桶托管表和外部表Hive与传统数据仓库比较 Hive简介 Hive是基于Hadoop的数据仓库软件,可以查询和管理PB级别的分布式数据。Hive 是一种数据仓库处理工具,使用类SQL的HiveQL语言实现数据查询功能,所有Hive的数据都存储在HDFS中。 Hive特性 灵活方便的ETL(extract/transform/load)。 支持MapReduce,Tez,Spark等多种计算原创 2020-09-01 00:26:00 · 455 阅读 · 0 评论 -
HBase理论知识
HBase简介 HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。 适合于存储大表数据(表的规模可以达到数十亿行以及数百万列),并且对大表数据的读、写访问可以达到实时级别。 利用Hadoop HDFS(Hadoop Distributed File System)作为其文件存储系统,提供实时读写的分布式数据库系统。 利用ZooKeeper作为协同服务。 HBase应用场景 海量数据(TB、PB)。 高吞吐量。 需要在海量数据中实现高效的随机读取。 需要很好的性能伸缩能力。 能够同时处理原创 2020-08-31 22:02:09 · 613 阅读 · 0 评论 -
Spark理论知识
文章目录Spark简介spark特点Spark与MapReduceSpark体系Spark核心概念RDDRDD的依赖关系RDD的Stage划分RDD的算子Spark的任务调度Spark on Yarn-clientSpark on Yarn-clusterSpark SQL概述DatasetRDD与datasetSpark SQL vs HiveSpark StreamingSpark Streaming vs StormStructured StreamingSpark扩展 Spark简介 2009年诞生原创 2020-08-29 02:03:11 · 625 阅读 · 0 评论 -
MapReduce和YARN理论知识
MapReduce和YARN技术原理MapReduce基本定义MapReduce特点MapReduce工作流程概述MapReduce逻辑过程MapReduce角色MapReduce1.0的缺陷MapReduce扩展YARN概述YARN任务调度流程MapReduce On YARN任务调度流程YARN 的高可靠性YARN 容错机制 MapReduce基本定义 MapReduce是面向大数据并行处理的计算模型、框架、平台。 MapReduce是一个基于集群的高性能并行计算平台(Cluster Infrastru原创 2020-06-01 23:15:28 · 804 阅读 · 0 评论 -
HDFS理论知识
HDFS组成HDFS概述HDFS适合做什么?HDFS不适合做什么?HDFS基本系统框架HDFS写入流程HDFS读取流程HDFS架构关键设计元数据持久化元数据同步元数据持久化的流程元数据持久化相关名词HDFS的高可靠性HDFS联邦机制数据副本机制HDFS数据存储策略分级策略标签存储节点组存储Colocation同分布HDFS数据完整性保障block扩展: HDFS组成 hdfs文件系统组成:文件名、元数据、数据块 文件系统定义:文件系统是一种存储和组织计算机数据的方法,它使得对其访问和查找变得容易。 文件.原创 2020-05-18 01:31:49 · 731 阅读 · 0 评论 -
大数据入门
大数据入门传统的数据处理方式传统数据库的瓶颈大数据概念大数据组成分布式系统基础架构(hadoop)大数据相关组件大数据与传统数据库比较大数据时代的挑战 传统的数据处理方式 处理过程:cpu处理内存数据,内存数据从硬盘中读取 瓶颈:当数据量大时,会增加硬盘到内存的io;单机为纵向扩展,成本较高,要求硬盘要大,内存要大,cpu速度要快 传统数据库的瓶颈 传统的数据库部署不能处理百TB及以上级别的数据。 传统的数据库没有考虑数据的多样性,尤其对结构化数据,半结构化数据和非结构化数据的兼容。 传统的数据库对数原创 2020-05-16 16:44:56 · 772 阅读 · 0 评论
分享