
大数据
doublejie1001
这个作者很懒,什么都没留下…
展开
-
(6) Hive
https://www.bilibili.com/video/BV1EZ4y1G7iL?from=search&seid=9593247233200036247Hive基础学习 125节课 3天重点是 安装 UDF函数 JVM调优一、 Hive基本概念1 什么是hive2 优缺点3 架构原理4 和其他数据库比较二 Hive安装元数据配置Mysql三 内部表和外部表可以设置互换...原创 2021-09-02 17:54:16 · 157 阅读 · 0 评论 -
(5) YARN
一 理论1 yarn基础架构2 工作机制3 mapreduce/hdfs/yarn配合工作4 yarn调度器和调度算法5 生产环境下的参数解释6 命令行操作yarn二 使用1 生产环境参数配置2 容量调度器生产实现3 yarn公平调度器在生产实现4 yarn的tool接口5 回收站...原创 2021-08-27 11:42:49 · 137 阅读 · 0 评论 -
(4)MapReduce (非重点,生产已经被spark取代)
alt+回车 idea重写方法一 MR概述1 定义2 优缺点3 wordcount案例二 序列化三 核心框架原理1 输入的数据2 shuffle3 输出数据4 Join5 ETL6 总结四 压缩1 各种压缩算法2 各种算法特点3 生产使用情况五 常见的问题解决方案...原创 2021-08-26 17:44:14 · 231 阅读 · 0 评论 -
(3)HDFS全面详细解释 重点
生产环境用HA 高可用 双namenode一 概述1 HDFS产生背景和定义2 优缺点3 组成4文件块大小二 HDFS的shell相关操作(开发重点)上传 put下载 get三 HDFS的客户端api优先级别 最高在右边四 HDFS的读写流程(面试重点)读取数据从block0开始顺序读取五 NN和2NN(了解)六 DataNode工作机制(了解)七 数据完整性...原创 2021-08-25 11:20:15 · 95 阅读 · 0 评论 -
(1)大数据hadoop
来源 非常感谢https://www.bilibili.com/video/BV1Qp4y1n7EN?p=9&spm_id_from=pageDriver共178集 预计一周看完 每天30集大数据特点大量高速多样低价值密度hadoop框架一、 概念1 是什么由apache基金会所开发的分布式系统基础架构主要解决海量的数据的存储和分析计算问题广义上来说是hadoop生态圈,例如hbase hive2 发展历史3 三大版本apache cloudera(CDH)收原创 2021-08-25 09:52:01 · 122 阅读 · 0 评论 -
(2)hadoop集群部署和常见面试题和常见问题
core配置HDFS配置YARNmr配置分发准备启动集群配置workers第一次启动简单测试数据位置数据高可用在三个服务器中都有数据备份配置历史服务器配置历史日志聚集集群启动和停止常见面试题目必须各个节点的datanode进程都删除 ,然后重新格式化,重启集群——————————————————————————————————————————————————————时间同步(看看就行,不需要执行)...原创 2021-08-24 14:19:16 · 175 阅读 · 0 评论