
hadoop
文章平均质量分 87
BigDataMLApplication
spark hadoop flink kafka 海量流批数据处理 、 机器学习、 运筹开发、运维等十年大数据和人工智能搬砖经验,欢迎关注
展开
-
Hive配置文件Hive-site.xml参数说明用途
hive配置文件详解原创 2023-10-31 23:46:21 · 1409 阅读 · 0 评论 -
Hadoop配置文件Core-site.xml参数说明用途
请注意,这里列出的参数、默认值和用法仅是一部分常见的示例,并且可能会根据不同的Hive版本、Hadoop发行版或其他自定义配置而有所变化。具体的参数配置和默认值应根据您的实际环境和需求来确定。原创 2023-10-31 23:45:28 · 703 阅读 · 0 评论 -
Hadoop Capacity Scheduler 调度用法官网权威示例详解
本文档介绍了CapacityScheduler,它是Hadoop中的一种可插拔调度器,允许多个租户在分配容量的约束条件下及时地共享一个大型集群来分配资源原创 2023-10-11 13:01:19 · 90 阅读 · 0 评论 -
Hadoop : Fair Scheduler 公平调度器官方详解
公平调度是一种将资源分配给应用程序的方法,以便所有应用程序可以在一段时间内平均获得相等份额的资源。原创 2023-10-11 12:57:59 · 613 阅读 · 0 评论 -
Hadoop HDFS中的NameNode、SecondaryNameNode和DataNode
在Hadoop HDFS(Hadoop分布式文件系统)中,有三个关键的组件:NameNode、SecondaryNameNode和DataNode。原创 2023-08-23 08:20:32 · 889 阅读 · 0 评论 -
Hadoop YARN
Hadoop YARN(Yet Another Resource Negotiator)是Apache Hadoop的一个子项目,是Hadoop 2.0引入的重要特性。在早期版本的Hadoop中,MapReduce作为数据处理的计算模型和资源管理器。然而,随着大数据应用的快速发展,原始的MapReduce模型逐渐暴露出一些限制和不足之处,例如不支持实时计算、不适合多种计算模型等。为了解决这些问题,Hadoop YARN应运而生。原创 2023-08-23 08:13:22 · 80 阅读 · 0 评论 -
Hadoop MapReduce
Hadoop MapReduce是Apache Hadoop的一个分布式计算模型和编程框架,最初由Google的MapReduce论文启发而来。MapReduce的目标是通过将大规模数据集分割为小的子任务,并在分布式环境中并行处理这些子任务,从而实现高性能的数据处理和分析。原创 2023-08-23 08:10:33 · 64 阅读 · 0 评论 -
Hadoop HDFS(分布式文件系统)简介
它最初是根据Google的GFS(Google File System)论文设计而来,通过将大规模数据集分布式存储在集群中的多个计算节点上,实现了高可靠性、高容错性和高吞吐量的数据存储和访问。大规模日志存储和分析:HDFS适用于存储和分析大规模的日志数据。用户可以将日志文件写入HDFS,并使用适当的工具和技术进行日志分析、问题排查和趋势预测。存储和处理大数据:HDFS是存储和处理大规模数据的理想选择,它提供了高可扩展性、高容错性和高吞吐量,适用于处理大数据集和执行复杂的分布式计算任务。原创 2023-08-23 07:16:30 · 325 阅读 · 0 评论