
大数据
文章平均质量分 88
亿钱君
这个作者很懒,什么都没留下…
展开
-
大数据学习总结(2021版)---Zookeeper
Zookeeper第1章 Zookeeper入门第3章 Zookeeper内部原理3.1 选举机制(面试重点)3.2 节点类型(持久、非持久、有无顺序编号)3.3 监听器原理(面试重点)3.4 写数据流程第4章 Zookeeper实战(开发重点)4.1 分布式安装部署4.2 客户端命令行操作4.3 API应用4.3.1 Eclipse环境搭建4.3.2 创建ZooKeeper客户端4.3.3 创建子节点4.3.4 获取子节点并监听节点变化4.3.5 判断Znode是否存在4.4 监听服务器节点动态上下线案例原创 2021-04-13 20:29:57 · 278 阅读 · 0 评论 -
大数据学习总结(2021版)---Yarn(未完)
Yarn第 0 章 开发需重点掌握0.1 队列运行原理0.2 Yarn常用命令0.3 核心参数配置0.4 配置容量调度器和公平调度器。0.5 tool接口使用。第 1 章 Yarn 资源调度器1.1 Yarn 基础架构1.2 Yarn 工作机制1.3 Yarn 调度器和调度算法1.4 Yarn 常用命令第 2 章 Yarn 案例实操2.1 Yarn 生产环境核心参数配置案例2.2 容量调度器多队列提交案例2.3 公平调度器案例2.4 Yarn 的 Tool 接口案例第 0 章 开发需重点掌握0.1 队原创 2021-04-15 11:50:50 · 307 阅读 · 0 评论 -
大数据学习总结(2021版)---MapReduce
这里写目录标题第 1 章 MapReduce 概述1.1 MapReduce 定义1.2 MapReduce 优缺点1.3 MapReduce 核心思想1.4 MapReduce 编程规范(固定写法)1.5 WordCount 案例实操1.5.1 本地测试1.5.2 提交到集群测试第 1 章 MapReduce 概述1.1 MapReduce 定义“分散任务,汇总结果”1.2 MapReduce 优缺点优点MapReduce 易于编程良好的扩展性高容错性适合 PB 级以上海量数据的离线处原创 2021-04-15 11:48:06 · 347 阅读 · 0 评论 -
大数据学习总结(2021版)---HDFS
3.2 HDFS 的 API 案例实操3.2.1 HDFS 文件上传(测试参数优先级)** * @author shkstart * @create 2021-03-19 20:23 */public class HdfsClient { private FileSystem fs; @Before public void init() throws URISyntaxException, IOException, InterruptedException {原创 2021-04-05 10:30:55 · 316 阅读 · 0 评论 -
大数据学习总结(2021版)---Hadoop(入门)
这里写目录标题第 1 章 Hadoop 概述1.1 大数据部门业务流程分析、部门组织结构(重点)1.2 Hadoop 组成(面试重点)1.2.1 HDFS 架构:分布式文件系统1.2.2 YARN:Hadoop 的资源管理器1.2.3 MapReduce 架构:Map(并行处理数据) 和 Reduce(数据结果汇总)1.3 大数据技术生态体系1.4 推荐系统框架图1.5 HDFS、YARN、MapReduce 三者关系第 2 章 Hadoop 运行环境搭建(开发重点)2.1 虚拟机环境准备2.2 克隆虚拟机原创 2021-03-19 15:52:52 · 652 阅读 · 0 评论 -
Hive : 第 2 章 Hive 安装
Hive 安装第 2 章 Hive 安装2.1 Hive 安装地址2.2 Hive 安装部署2.3 MySQL 安装2.4 Hive 元数据配置到 MySQL2.5 使用元数据服务的方式访问 Hive(学习阶段不用配置)2.6 使用 JDBC 方式访问 Hive(学习阶段不用配置)第 2 章 Hive 安装2.1 Hive 安装地址2.2 Hive 安装部署把 apache-hive-3.1.2-bin.tar.gz 上传到 linux 的/opt/software 目录下解压 apache-h原创 2021-04-25 21:00:38 · 130 阅读 · 0 评论 -
Hive:第 8 章 函数
函数1. 系统内置函数2. 常用内置函数2.1 空字段赋值2.2 CASE WHEN THEN ELSE END2.3 行转列(多行变一行)2.4 列转行(一行变多行)2.5 窗口函数(开窗函数)(未弄懂!!!!)2.6 Rank(和开窗函数合用,未弄懂!!!!)2.7 其他常用函数3. 自定义函数3.1 自定义 UDF 函数3.2 自定义 UDTF 函数1. 系统内置函数2. 常用内置函数2.1 空字段赋值NVL:给值为 NULL 的数据赋值,它的格式是 NVL( value,default转载 2021-06-04 14:02:58 · 136 阅读 · 0 评论 -
Hive:第 4 章 DDL 数据定义
第 4 章 DDL 数据定义4.1 创建数据库4.2 查询数据库4.3 修改数据库4.5 创建表(重点!!!)4.5.1 管理表4.5.2 外部表4.5.3 管理表与外部表的互相转换4.6 修改表4.7 删除表4.1 创建数据库1)创建一个数据库,数据库在 HDFS 上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create database db_hive;2)避免要创建的数据库已经存在错误,增加 if not exists 判断。原创 2021-04-26 20:17:05 · 159 阅读 · 0 评论 -
Hive:第 3 章 Hive 数据类型
3.1 基本数据类型(常用)3.2 集合数据类型(不常用)- 1)案例实操(2)基于上述数据结构,我们在 Hive 里创建对应的表,并导入数据。创建本地测试文件 test.txtsongsong,bingbing_lili,xiao song:18_xiaoxiao song:19,hui long guan_beijingyangyang,caicai_susu,xiao yang:18_xiaoxiao yang:19,chao yang_beijing(3)Hive 上创建测试原创 2021-04-26 18:16:20 · 114 阅读 · 0 评论 -
Hive:第 5章 DML 数据操作
DML 数据操作1. 数据导入(1、2常用,其他了解即可)1.1 向表中装载数据(Load)(重点掌握)1.2 通过查询语句向表中插入数据(Insert)(重点掌握)1.3 查询语句中创建表并加载数据(As Select)1.4 Import 数据到指定 Hive 表中2. 数据导出(不重要)2.1 Insert 导出2.2 Hadoop 命令导出到本地2.3 Hive Shell 命令导出2.4 Export 导出到 HDFS 上.2.5 Sqoop 导出2.6 清除表中数据(Truncate)1. 数原创 2021-06-03 14:09:05 · 138 阅读 · 0 评论 -
Hive:第 6 章 查询
查询1. 基本查询(Select…From)1.1 全表和特定列查询1.2 列别名1.3 算术运算符1.4 常用函数1.5 Limit 语句1.6 Where 语句1.7 比较运算符(Between/In/ Is Null)1.8 Like 和 RLike1.9 逻辑运算符(And/Or/Not)2. 分组2.1 Group By 语句2.2 Having 语句3. Join 语句3.1 等值 Join3.2 表的别名3.3 内连接3.4 左外连接3.5 右外连接3.6 满外连接3.7 多表连接3.8 笛卡原创 2021-06-03 14:48:11 · 1307 阅读 · 8 评论 -
Hive:第 10 章 企业级调优
第 10 章 企业级调优1. 执行计划(Explain)2. Fetch 抓取3. 本地模式4. 表的优化4.1 小表大表 Join(MapJOIN)(已优化,无关系了)4.2 大表 Join 大表4.3 Group By4.4 Count(Distinct) 去重统计4.5 笛卡尔积4.6 行列过滤4.7 分区、 分桶5. 合理设置 Map 及 Reduce 数5.1 复杂文件增加 Map 数5.2 小文件进行合并5.3 合理设置 Reduce 数6. 并行执行7. 严格模式8. JVM 重用9. 压缩原创 2021-06-05 13:49:23 · 188 阅读 · 0 评论 -
Hive:第 9 章 压缩和存储
压缩和存储1. Hadoop 压缩配置1.1 MR 支持的压缩编码2. 开启 Map 输出阶段压缩(MR 引擎)3. 开启 Reduce 输出阶段压缩4. 文件存储格式4.1 列式存储和行式存储4.2 TextFile 格式4.3 Orc 格式4.4 Parquet 格式4.5 主流文件存储格式对比实验(常用ORC)5. 存储和压缩结合1. Hadoop 压缩配置1.1 MR 支持的压缩编码2. 开启 Map 输出阶段压缩(MR 引擎)开启 map 输出阶段压缩可以减少 job 中 map 和 Re原创 2021-06-04 15:13:36 · 120 阅读 · 0 评论 -
Hive:第 7 章 分区表和分桶表
第 7 章 分区表和分桶表1. 分区表(生产环境用的非常多)1.1 分区表基本操作1.2 二级分区1.3 动态分区调整2. 分桶表(了解,有印象即可)3. 抽样查询1. 分区表(生产环境用的非常多)1.1 分区表基本操作1)创建分区表语法注意:分区字段不能是表中已经存在的数据,可以将分区字段看作表的伪列。2)加载数据到分区表中注意:分区表加载数据时,必须指定分区3)查询分区表中数据4)增加分区5)删除分区6)查看分区表有多少分区hive> show part原创 2021-06-03 17:58:18 · 161 阅读 · 0 评论 -
HBase
这里写目录标题第 1 章 HBase 原理、简介1.1 HBase 定义1.2 HBase 特点1.3 HBase 基本架构1.3 HBase安装第 2 章 HBase 快速入门2.1 HBase 安装部署2.2 HBase Shell 操作2.2.1 基本操作2.2.2 表的操作第 3 章 HBase数据结构3.1 RowKey:行键3.2 Column Family:列族3.3 Cell、Time Stamp3.4 命名空间第 4 章 HBase原理4.1 读流程4.2 写流程4.3 数据flush过程原创 2021-06-14 08:13:36 · 254 阅读 · 0 评论 -
Kafka
这里写目录标题第 1 章 Kafka 概述1.1 定义1.2 消息队列1.2.1 传统消息队列的应用场景1.2.2 消息队列的两种模式1.3 Kafka 基础架构第 2 章 Kafka 快速入门2.1 安装部署2.1.1 集群规划2.1.3 集群部署2.2 Kafka 命令行操作第 3 章 Kafka 架构深入3.1 Kafka 工作流程及文件存储机制3.2 Kafka 生产者3.2.1 分区策略(封装成ProducerRecord 对象)3.2.2 数据可靠性保证3.2.3 Exactly Once 语义原创 2021-06-08 11:45:32 · 165 阅读 · 0 评论 -
Flume
这里写目录标题第 1 章 Flume 概述第 2 章 Flume 快速入门2.1 Flume 安装部署2.2 Flume 入门案例2.2.1 监控端口数据官方案例2.2.2 实时监控单个追加文件2.2.3 实时监控目录下多个新文件2.2.4 实时监控目录下的多个追加文件第 3 章 Flume 进阶3.1 Flume 事务3.2 Flume Agent 内部原理3.3 Flume 拓扑结构3.4 Flume 企业开发案例3.4.1 复制和多路复用3.4.2 负载均衡和故障转移3.4.3 聚合3.5 自定义 I原创 2021-06-06 17:43:14 · 152 阅读 · 3 评论 -
大数据学习总结(2021版)---shell
shell第1章 Shell概述第2章 Shell解析器第3章 Shell脚本入门第4章 Shell中的变量4.1 系统变量4.2 自定义变量(变量=值,unset 变量)4.3 特殊变量:$n $# $* $@ $?第5章 运算符第6章 条件判断第7章 流程控制(重点)7.1 if 判断7.2 case 语句7.3 for 循环7.4 while 循环第8章 read读取控制台输入第9章 函数(basename、dirname、自定义函数)第10章 Shell工具(重点)10.1 cut10.2 se原创 2021-03-15 22:46:29 · 211 阅读 · 1 评论 -
大数据学习总结(2021版)---Linux
LinuxLinux开门见山本文章Linux 的内容介绍Linux 的学习方向(Linux 运维工程师、Linux 嵌入式开发工程师、在 linux 下做各种程序开发)Linux 的应用领域(个人桌面、服务器、嵌入式)学习 Linux 的阶段(高手进阶过程)第 2 章 基础篇 VM 和 Linux 系统(CentOS)安装Linux开门见山本文章Linux 的内容介绍Linux 的学习方向(Linux 运维工程师、Linux 嵌入式开发工程师、在 linux 下做各种程序开发)Linux 的应原创 2021-03-14 17:10:37 · 680 阅读 · 0 评论 -
大数据学习总结(2021版)---Maven
这里写目录标题1:为什么要使用 Maven?它能帮助我们解决什么问题?2:Maven 如何进行Java 平台的项目构建2.1:何为项目构建2.2:构建过程的几个主要环节及Maven的自动化构建3:Maven九大核心概念约定的目录结构POM坐标依赖仓库生命周期插件和目标继承聚合安装 Maven 核心程序配置本地仓库和阿里云镜像在 Eclipse 中配置 Maven在 Eclipse 中创建 Maven 项目创建父工程1:为什么要使用 Maven?它能帮助我们解决什么问题?①添加第三方 jar 包在今原创 2021-03-11 23:07:19 · 293 阅读 · 0 评论 -
大数据学习总结(2021版)---JDBC
JDBC核心技术第1章:JDBC概述1.1 数据的持久化1.2 Java中的数据存储技术1.3 JDBC介绍1.4 JDBC体系结构1.5 JDBC程序编写步骤第2章:获取数据库 连接2.1 要素一:Driver接口实现类2.1.1 Driver接口介绍2.1.2 加载与注册JDBC驱动2.2 要素二:URL2.3 要素三:用户名和密码2.4 数据库连接方式举例2.4.1 连接方式一2.4.2 连接方式二2.4.3 连接方式三2.4.4 连接方式四2.4.5 连接方式五(最终版,都用这个)第3章:使用Pre翻译 2021-03-11 10:42:18 · 250 阅读 · 0 评论