大数据
文章平均质量分 84
Felix-Li
再小的帆也能远航。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark 笔记
初识是用于大数据处理的集群计算框架,Spark并没有以 MapReduce 作为执行引擎,而是使用了它自己的分布式运行环境在集群上执行工作。Spark最突出的表现在于它能够将作业与作业之间产生的大规模的工作数据集存储在内存中。即使你不需要在内存中进行缓存,Spark还会因为其出色的 DAG 引擎和用户体验而具有吸引力。与 MapReduce 不同,Spark 的 DAG 引擎可以处理任意操作流水线,并为用户将其转换为单个作业。Spark 还是用于构建分析工具的出色平台。为此,Apache Spark项目包原创 2022-01-17 17:53:50 · 1534 阅读 · 0 评论 -
Hive 笔记
Hive概念Hive是一个构建在 Hadoop 上的数据仓库框架,是一个 Apache 项目,很多组织把它用作一个通用的、可伸缩的数据处理平台。Hive 一般在工作站上运行。它把 SQL 查询转换为一系列在 Hadoop 集群上运行的作业。Hive 把数据组织为表,通过这种方式存储在 HDFS 上的数据赋予结构。元数据(如表模式)存储在 metastore 数据库中。优势Hive 把查询转换为一个作业并执行这个作业,然后将结果打印到控制台。虽然 Hive 和其他数据库有一些细微的差别,例如 Hive原创 2022-01-13 18:09:02 · 1933 阅读 · 2 评论 -
Zookeeper
Zookeeper概述Zookeeper 是一个开源的分布式的,为分布式框架提供协调服务的 Apache 项目。Zookeeper工作机制特点1)Zookeeper:一个领导者(Leader),多个跟随者(Follower)组成的集群。2)集群中只要有半数以上节点存活,Zookeeper集群就能正常服务。所 以Zookeeper适合安装奇数台服务器。3)全局数据一致:每个Server保存一份相同的数据副本,Client无论连接到哪个Server,数据都是一致的。4)更新请求顺序执行,来自同一原创 2021-12-05 08:54:50 · 619 阅读 · 0 评论 -
大数据之 Hadoop(Yarn)
Yarn 资源调度器Yarn 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。思考:如何管理集群资源?如何给任务合理分配资源?Yarn 基础架构YARN 主要由 ResourceManager、NodeManager、ApplicationMaster 和 Container 等组件构成。Yarn 工作机制(1)MR 程序提交到客户端所在的节点。(2)YarnRunner 向 R原创 2021-12-03 09:19:32 · 571 阅读 · 0 评论 -
大数据之 Hadoop(HDFS)
HDFS 概述HDFS: Hadoop Distributed File System,它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。使用场景:适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。HDFS 优缺点优点1)高容错性➢ 数据自动保存多个副本。它通过增加副本的形式,提高容错性。➢ 某一个副本丢失以后,它可以自动恢复。2)适合处理大数据➢ 数据规模:能够处理数据规模达到原创 2021-12-01 09:58:14 · 437 阅读 · 0 评论 -
大数据之 Hadoop 初识
Hadoop概述Hadoop:一个由Apache基金会所开发的分布式系统基础架构,主要解决海量数据的存储和海量数据的分析计算问题。Hadoop优势 (4高)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元 素或存储出现故障,也不会导致数据的丢失。高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。高有效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处 理速度。高容错性:能够自动将失败的任务重新分配。Hadoop组成 (面试重点)H原创 2021-11-30 09:20:31 · 1936 阅读 · 0 评论 -
什么是大数据呢
大数据(bigdata) :或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据主要解决的问题海量数据的采集、存储和分析计算。按顺序给出数据存储单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB 1Byte = 8bit 1K = 1024Byte 1MB = 1024K 1G = 1024M 1T = 1024G 1P = 1024T大数据特点(4V)1、V原创 2021-11-15 11:18:30 · 1698 阅读 · 0 评论
分享