某某某程序员-优快云博客

原创 SparkSQL调优

Shark是专门针对于spark的构建大规模数据仓库系统的一个框架Shark与Hive兼容、同时也依赖于Spark版本Hivesql底层把sql解析成了mapreduce程序，Shark是把sql语句解析成了Spark任务随着性能优化的上限，以及集成SQL的一些复杂的分析功能，发现Hive的MapReduce思想限制了Shark的发展。最后Databricks公司终止对Shark的开发决定单独开发一个框架，不在依赖hive，把重点转移到了sparksql这个框架上。Spark SQL。

2025-02-14 14:51:02 852

原创 Spark基础总结

定义：spark是一个开源的分布式计算系统，旨在使数据分析更快，不仅运行速度快，写流程也快Spark Mllib是一个功能强大的机器学习库，可以处理大规模数据集，支持多种机器学习任务。Spark Mllib提供了可扩展的API，可以方便地添加新的算法和工具。如果你需要处理大规模数据集并且需要快速构建和训练机器学习模型，那么Spark Mllib是一个不错的选择。

2025-02-12 17:23:21 1071

原创小文件处理

小文件是指文件大小明显小于 HDFS 上块（block）大小（默认64MB，在Hadoop2.x中默认为128MB）的文件。如果一个文件的大小不是块大小的 75%，那么它就是一个小文件。然而，小文件问题并不仅仅影响小文件。如果 Hadoop 集群中的大量文件稍微大于块大小的增量，那么也将遇到与小文件相同的挑战。例如，如果块大小为128MB，但加载到 Hadoop 的所有文件都是 136MB，那么将拥有大量小的 8MB 块，好消息是解决此处的小块问题可以设置较大的块大小。解决小文件问题要复杂得多。

2025-02-11 14:20:27 924

原创统计HDFS中文件数量、大小、以及在某范围大小的文件数量

使用：hdfs dfs -ls -R / |grep ^-数据保存在 data.txt 文件中；安装numpy和pandas模块。3、使用python脚本分析。1、HDFS 相关命令。

2025-02-10 14:00:34 357

原创 Hadoop2.7.7 API_ core-site.xml 解析

用于ACL用户组映射的类，默认的实现类是 org.apache.hadoop.security.JniBasedUnixGroupsMappingWithFallback，定义了JNI是否可用，如果可用，将使用hadoop中的API来实现访问用户组解析，如果不可用，将使用ShellBasedUnixGroupsMapping来实现。如果在证书提供程序中没有配置密码，并且属性hadoop.security.group.mapping.ldap.bind.password没有设置，则从文件读取密码。

2025-02-09 17:30:00 507

原创 HDFS小文件问题处理

hdfs小文件，一说128MB一下，或者更有实际意义的事40、30MB一下的文件，小文件产生的影响也很明确，主要是对namenode的文件管理产生较大负担（文件的元数据管理），治理小文件是个长期的工作，包括对已经产生的小文件合并、为了小文件生成的优化（里面涉及到sql的优化，源文件的加工处理等等），本文主要根据在数栈–安徽国网客户的小文件处理（此环境还未上小文件治理功能，是手动处理干预的），进行初步的讨论。

2025-02-09 13:15:00 182

原创 HDFS常用命令整理

查看文件前两行查看文件后两行查看文件一共有几行。

2025-02-09 10:15:00 1483

原创 HDFS基本原理

HDFS(Hadoop Distributed File System):Hadoop分布式文件系统。是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的。

2025-02-08 15:50:11 647

原创 HA工作原理

如果该节点崩溃，冻结或进入不健康状态，健康监测器标识该节点为非健康的。锁，它将为自己获取该锁。如果成功，则它已经赢得了选择，并负责运行故障转移进程以使它的本地。如果出现故障，如机器崩溃或机器需要升级维护，这时可通过此种方式将。是维护少量协调数据，通知客户端这些数据的改变和监视客户端故障的高可用服务。故障转移进程与前面描述的手动故障转移相似，首先如果必要保护之前的现役。机器发生意外，如宕机，集群将无法使用，直到管理员重启。ZKFC是自动故障转移中的另一个新组件，是。的支持，如果会话终止，锁节点将自动删除。

2024-11-29 15:29:13 580

原创 Hdfs3.x新特性详解

两者都是实现负载均衡功能HDFS Balancer是之前Hadoop2.x中本身存在的，主要是多个DataNode节点之间的数据的平衡。HDFS Disk Balancer是Hadoop3中新出现的，主要是为了DataNode节点内部的磁盘的负载均衡，一个DataNode节点中包含多个磁盘，如果一个磁盘数据比较多，HDFS Disk Balancer就会将这个磁盘中的数据进行迁移，迁移到datanode别的磁盘中。

2024-11-28 14:32:17 1433

原创 Hadoop3.0分布式高可用集群部署

【代码】Hadoop3.0分布式高可用集群部署。

2024-11-14 14:33:43 630

原创 Hadoop_HA搭建

active节点所在的namenode down掉后，standby节点会连接down掉的namenode，如果失败就一直连到指定的次数后放弃，然后。6.3在__各个__NameNode__节点__上启动__DFSZK Failover Controller。加入shell(/bin/true)后，就是可以直接执行自定义脚本，让standyby节点成为active。先在__哪台__机器启动，哪个机器的__NameNode__就是__Active NameNode。4.3在nn2上同步nn1的元数据信息。

2024-11-07 10:14:45 901

原创 Hadoop相关配置

YARN调度器会指定一个最小和最大内存分配量。默认情况下，最小内存分配量是1024MB（由yarn.scheduler.minimum-allocation-mb设置），默认情况下，最大内存分配量是8192MB（由yarn.scheduler.maximum-allocation-mb设置）容器还需要满足对虚拟内存的限制。如果容器所使用的虚拟内存超出预定系数和所分配的物理内存的乘积，则节点管理器也会终止进程。

2024-11-06 19:41:22 1284

原创 Hadoop环境搭建详细教程

（1）修改相应的配置文件（core-site.xml、hdfs-site.xml、yarn-site.xml）进入。（2）配置java_home(yarn-env.sh、hadoop-env.sh、mapred-env.sh)（3）修改JAVA_HOME(yarn-env.sh、hadoop-env.sh、mapred-env.sh)（1）删除hadoop文件夹中的 data、logs文件夹（最后需要重新格式化）（2）修改core-site.xml文件（与前文伪分布式相同，此处不再介绍）

2024-11-04 16:23:02 2686 2

你爱的程序员的博客