
hadoop
文章平均质量分 94
bone_ds
关于明天的事,后天就知道了.
展开
-
[ hadoop ] 集群性能调优全面总结
引子文章涵盖了hadoop框架的三个组成架构各自的优化方法,涉及存储,计算,故障排除等多个方面的具体调优内容,先后解决HDFS,MapReduce,Yarn的常见问题,最终结合小文件给出了Hadoop综合调优.1 HDFS调优1.1 核心参数1.1.1 NameNode内存Hadoop2.x系列,NN内存默认2000M,根据服务器(以4G为例)的3/4来配:hadoop-env.sh文件中配置:HADOOP_NAMENODE_OPTS=-Xmx3072mHadoop3.x系列,had原创 2022-03-18 12:05:23 · 4122 阅读 · 0 评论 -
[ hadoop] Yarn架构
Yarn概述Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。基础架构YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。ResourceManager:整个集群资源的老大NodeManager:单节点资源的老大ApplicationMaster:单个作业任务的老大Container:容器Yarn原创 2022-03-16 16:43:39 · 4041 阅读 · 0 评论 -
[ hadoop] MapReduce架构
1 MapReduce概述1.1 定义MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。1.2 特点优点:易于编程良好的扩展性高容错性适合PB级以上海量数据的离线处理缺点:不擅长实时计算(MySQL)不擅长流式计算:输入数据集是静态的,不能动态变化不擅长DAG(有向无环图)计算,MR结果输出原创 2022-03-13 21:41:56 · 4038 阅读 · 0 评论 -
[ hadoop ] HDFS架构
1 HDFS概述1.1 简介HDFS(Hadoop Distributed File System),它是一个文件系统HDFS的使用场景:适合一次写入,多次读出的场景。1.2 特点优点:大规模处理数据多副本机制提高可靠性高容错性:副本自动补全周期:6小时或集群重启缺点:不适合低延时数据访问,比如毫秒级的存储数据原因:结点间的数据访问涉及网络io,被带宽和距离,丢包(校验)等因素限制无法高效的对大量小文件进行存储:1)小文件的元数据会占用nn大量内存2)存储的寻址时间&原创 2022-03-13 21:41:08 · 3408 阅读 · 0 评论 -
[ hadoop ] hadoop入门 : 组成架构.环境搭建.运行模式
1 大数据概论概念:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。需求:大数据主要解决,海量数据的采集、存储和分析计算问题。特点(4v):Volumn(大量)Velocity(高速)大数据区分于传统挖掘的最显著特征Variety(多样)多样性让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以数据库/文本为主的结构化数据,非结构化数据越来越多,包括网原创 2022-03-13 21:39:12 · 4782 阅读 · 1 评论