
Hadoop
文章平均质量分 67
java大数据-Hadoop
Antgeek
喜欢各种技术,前端后端大数据均有涉猎,目前从事大数据开发
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
shell脚本实现删除hdfs下n天前的数据
数据打满,shell实现删除hdfs下n天前的数据原创 2022-03-17 16:52:00 · 2501 阅读 · 1 评论 -
分布式资源管理与任务调度-Yarn
一.简介 1.是什么 Yarn(Yet Another Resource Negotiator,另一种资源协调者) 一种新的hadoop资源管理器,一个通用的资源管理系统 2.产生背景 hadoop1.x版本中JobTracker,TaskTracker的MRv1模型有很多局限性,如下: JobTracker出现单点故障,整个集群瘫痪 JobTracker负载过重 仅支持MR计算框架 资源管理和任务调度没有解耦 3.Yarn的特点 资源管理与任务调度解耦,一个集群的资源共享上层各个计算框架,按需分配原创 2021-10-13 20:53:57 · 396 阅读 · 0 评论 -
MapReduce进阶
一.HDFS数据格式 1.文件格式 2.压缩格式 3.设置mr的输出格式 例子:设置输出格式为gzip shell命令启动时要携带对应的参数: # 命令太长时 可以用 \ 新开一行 yarn jar aaa.jar com.aaa.main.Wordcount \ -Dmapred.output.compress=true \ -Dmapred.output.compression.codec=org.apache.hadoop.io.compressGzipCodec \ 输入路径 输出路径 启动类原创 2021-10-13 16:30:56 · 241 阅读 · 0 评论 -
肝到半夜3点,上亿行数据,豪秒级查询
一个小demo,简单掌握java nio文件随机读写原创 2021-10-12 19:28:35 · 146 阅读 · 0 评论 -
分布式计算框架MapReduce
一.介绍 产生背景: web2.0时代到来,大量的数据需要处理,单机处理已经不能满足需求,分布式存储与计算进入历史舞台 是什么:是一个面向大数据处理的计算框架 基本特点:提供可靠的分布式计算,封装了细节开发流程简单,跨语言 二.运行流程 MapReduce主要流程就两步 任务调度分配 任务执行 map执行(任务打散执行) reduce执行(map执行结果合并) 详细运行流程如下: 三.案例 1.单词统计 需求分析 在 hdfs 目录/tmp/tianliangedu/input/wordcoun原创 2021-10-08 02:24:10 · 324 阅读 · 0 评论 -
分布式存储-HDFS
一.特点 高容错和高可用性 流式数据访问 弹性存储,支持大规模数据集 简答一致性模型(一次写,多次读) 移动计算而非移动数据 协议和接口多样 多样的数据管理功能 二.架构设计 2.1核心组件 NameNode(NN) 元数据管理者,管理NameSpace(文件系统命名空间)记录文件是如何切分并存储在那些节点上的一些信息 NameSpace上任何属性的更改都由NameNode记录,维护整个系统的文件和目录. DataNode(DN) DN是文件系统的工作节点,根据客户端或者NameNode发送的管原创 2021-09-27 15:34:54 · 154 阅读 · 0 评论 -
认识Hadoop
一.起源 起源于搜索引擎 08年成为apache的顶级项目 09-12年 0.x-1.x快速发展,但是超大规模集群和HA等成为瓶颈 13-17年 2.x快速发展,解决了超大集群和HA瓶颈 17年至今 3.x快速发展,主要在提升执行效率(锦上添花) 二.架构 2.1核心组件 HDFS(存储),MapReduce(计算),yarn(任务调度) 2.2其他常用组件 HBase,Hive,Zookeeper,Streaming 2.3架构 2.4组件介绍 HDFS 分布式文件存储系统,高容错,高可用性,流原创 2021-09-27 00:24:31 · 103 阅读 · 0 评论