@从一到无穷大-优快云博客

原创 Hadoop与Spark中的Shuffle过程梳理

hadoop与spark中的shuffle过程梳理

2022-09-09 21:08:14 1924

原创 Linux系统常用指令（六）grep、sed 和 awk

Linux三剑客

2022-05-05 10:02:36 1398

原创大数据技术之HBase（一）HBase简介、HBase快速入门、HBase进阶

文章目录1 HBase 简介1.1 HBase 定义1.2 HBase 数据模型1.2.1 HBase 逻辑结构1.2.2 HBase 物理存储结构1.2.3 数据模型1.3 HBase 基本架构2 HBase 快速入门1.2.3 自定义存储 offset1.3 自定义 Interceptor1.3.1 拦截器原理1.3.2 拦截器案例2 Kafka 监控2.1 Kafka Eagle3 Flume 对接 Kafka4 Kafka 面试题1 HBase 简介1.1 HBase 定义HBase 是一.

2021-09-26 20:37:56 38785 3

原创大数据技术之Kafka（二）Kafka API、Kafka监控、Flume对接Kafka、Kafka面试题

文章目录1 Kafka API1.1 Producer API1.1.1 消息发送流程1.2.1 异步发送 API1.2.2 消息队列的两种模式1.3 Kafka 基础架构2 Kafka 快速入门2.1 安装部署2.2 Kafka 命令行操作3 Kafka 架构深入3.1 Kafka 工作流程及文件存储机制3.2 Kafka 生产者3.2.1 分区策略3.2.2 数据可靠性保证3.2.3 Exactly Once 语义3.3 Kafka 消费者3.3.1 消费方式3.3.2 分区分配策略3.3.3 off.

2021-09-24 17:16:03 748

原创大数据技术之Kafka（一）Kafka概述、Kafka快速入门、Kafka架构深入

文章目录1 Kafka 概述1.1 定义1.2 消息队列1.2.1 传统消息队列的应用场景1.2.2 消息队列的两种模式1.3 Kafka 基础架构2 Kafka 快速入门2.1 安装部署1.3.4 聚合1.4 Flume 企业开发案例1.4.1 复制和多路复用1.4.2 负载均衡和故障转移1.4.3 聚合1.5 自定义 Interceptor1.6 自定义 Source1.7 自定义 Sink2 企业真实面试题2.1 你是如何实现 Flume 数据传输的监控的?2.2 Flume 的 Source，Si.

2021-09-20 15:16:39 672

原创大数据技术之Flume（二）Flume进阶、企业真实面试题

文章目录1 Flume 概述1.1 Flume 定义1.2 Flume 基础架构1.2.1 Agent1.2.2 Source1.2.3 Sink1.2.4 Channel1.2.5 Event2 Flume 快速入门2.1 Flume 安装部署2.1.1 安装地址2.1.2 安装部署2.2 Flume 入门案例2.2.1 监控端口数据官方案例2.2.2 实时监控单个追加文件2.3.3 实时监控目录下多个新文件2.2.4 实时监控目录下的多个追加文件1 Flume 概述1.1 Flume 定义Fl.

2021-09-13 22:20:25 579

原创大数据技术之Flume（一）Flume概述、Flume快速入门

文章目录1 Flume 概述1.1 Flume 定义1.2 Flume 基础架构1.2 Fetch 抓取1.3 本地模式1.4 表的优化1.4.1 小表大表Join（MapJOIN）1.4.2 大表 Join 大表1.4.3 Group By1.4.4 Count(Distinct) 去重统计1.4.5 笛卡尔积1.4.6 行列过滤1.5 合理设置 Map及 Reduce数1.5.1 复杂文件增加 Map 数1.5.2 小文件进行合并1.5.3 合理设置 Reduce 数1.6 并行执行1.7 严格模式2.

2021-09-11 21:27:30 1958

原创大数据技术之Hive（五）企业级调优、Hive实战

文章目录1 企业级调优1.1 执行计划（Explain）1.2 常用内置函数1.2.1 空字段赋值1.2.2 CASE WHEN THEN ELSE END1.2.3 行转列1.2.4 列转行1.2.5 窗口函数（开窗函数）1.2.6 Rank1.3 自定义函数1.4 自定义 UDF函数1.5 自定义 UDTF 函数2 压缩和存储2.1 Hadoop 压缩配置2.2 开启 Map 输出阶段压缩（MR引擎）2.3 开启 Reduce输出阶段压缩2.4 文件存储格式2.5 存储和压缩结合1 企业级调优1.

2021-09-09 23:13:32 905

原创大数据技术之Hive（四）函数、压缩和存储

文章目录1 查询1.1 基本查询（Select...From）1.1.1 全表和特定列查询1.1.2 列别名1.1.3 算术运算符1.1.4 常用函数1.1.5 Limit 语句1.1.6 Where 语句1.1.7 比较运算符（Between / In / Is Null）1.1.8 Like和RLike1.1.9 逻辑运算符（And / Or / Not）1.2 分组1.2.1 Group By 语句1.2.2 Having 语句1.3 Join 语句1.3.1 等值 Join1.3.2 表的别名1..

2021-09-05 15:10:36 793

原创大数据技术之Hive（三）查询、分区表和分桶表

文章目录1 DDL 数据定义1.1 创建数据库1.2 查询数据库1.3 修改数据库1.4 删除数据库1.5 创建表1.5.1 管理表1.5.2 外部表1.5.3 管理表与外部表的互相转换1.6 修改表1.7 删除表2 DML 数据操作2.1 数据导入2.2 数据导出1 DDL 数据定义1.1 创建数据库CREATE DATABASE [IF NOT EXISTS] database_name[COMMENT database_comment][LOCATION hdfs_path][WITH.

2021-09-01 19:41:11 3996

原创大数据技术之Hive（二）DDL数据定义、DML数据操作

文章目录1 DDL 数据定义1.1 创建数据库1.2 查询数据库1.3 修改数据库1.4 删除数据库1.5 创建表1.4 Hive 和数据库比较2 Hive 安装2.1 Hive 安装部署2.2 MySQL 安装2.3 Hive元数据配置到 MySQL2.4 使用元数据服务的方式访问 Hive2.5 使用 JDBC方式访问 Hive2.6 Hive 常用交互命令2.7 Hive 常见属性配置3 Hive 数据类型3.1 基本数据类型3.2 集合数据类型3.3 类型转换1 DDL 数据定义1.1 创建.

2021-08-29 16:42:07 728

原创大数据技术之Hive（一）基本概念、安装、数据类型

文章目录1 基本概念1.1 什么是Hive1.2 Hive的优缺点1.3 Hive架构原理1.4 Hive 和数据库比较2 Zookeeper 安装2.1 本地模式安装部署2.2 配置参数解读3 Zookeeper实战（开发重点）3.1 分布式安装部署3.2 客户端命令行操作3.3 API应用3.4 监听服务器节点动态上下线案例4 Zookeeper 内部原理4.1 节点类型4.2 Stat 结构体4.3 监听器原理（面试重点）4.4 选举机制1 基本概念1.1 什么是Hive（1）Hive是由 .

2021-08-28 21:31:44 732

原创大数据技术之Zookeeper

文章目录1 Zookeeper 入门1.1 概述1.2 Zookeeper 特点1.3 数据结构1.4 应用场景2 Zookeeper 安装2.1 本地模式安装部署2 HDFS—集群压测2.1 测试 HDFS写性能2.2 测试HDFS 读性能3 HDFS—多目录3.1 NameNode 多目录配置3.2 DataNode 多目录配置3.3 集群数据均衡之磁盘间数据均衡4 HDFS—集群扩容及缩容4.1 添加白名单4.2 服役新服务器4.3 服务器间数据均衡4.4 黑名单退役服务器5 HDFS—存储优化5..

2021-08-25 20:43:33 499

原创大数据技术之Hadoop（生产调优手册）

文章目录1 HDFS—核心参数1.1 NameNode 内存生产配置1.2 NameNode 心跳并发配置1.3 开启回收站配置2 HDFS—集群压测1.4.1 先进先出调度器（FIFO）1.4.2 容量调度器（Capacity Scheduler）1.4.3 公平调度器（Fair Scheduler）1.5 Yarn 常用命令1.5.1 yarn application 查看任务1.5.2 yarn logs 查看日志1.5.3 yarn applicationattempt 查看尝试运行的任务1.5..

2021-06-27 10:07:23 771

原创大数据技术之Hadoop（Yarn）资源调度器、案例实操

文章目录1 Yarn 资源调度器1.1 Yarn 基础架构1.2 MapReduce 优缺点1.3 MapReduce 核心思想1.4 MapReduce 进程1.5 官方WordCount 源码1.6 常用数据序列化类型1.7 MapReduce 编程规范1.8 WordCount 案例实操1.8.1 本地测试1.8.2 提交到集群测试2 Hadoop 序列化2.1 序列化概述2.2 自定义 bean对象实现序列化接口（ Writable）2.3 序列化案例实操1 Yarn 资源调度器Yarn是一.

2021-06-24 12:14:57 1280

原创大数据技术之Hadoop（MapReduce）框架原理、数据压缩

文章目录1 MapReduce 框架原理1.1 InputFormat 数据输入1.1.1 切片与 MapTask并行度决定机制1.1.2 Job 提交流程源码和切片源码详解1.3 MapReduce 核心思想1.4 MapReduce 进程1.5 官方WordCount 源码1.6 常用数据序列化类型1.7 MapReduce 编程规范1.8 WordCount 案例实操1.8.1 本地测试1.8.2 提交到集群测试2 Hadoop 序列化2.1 序列化概述2.2 自定义 bean对象实现序列化接口（ .

2021-06-23 10:14:33 983

原创大数据技术之Hadoop（MapReduce）概述、序列化

文章目录1 MapReduce 概述1.1 MapReduce 定义1.2 MapReduce 优缺点1.3 MapReduce 核心思想1.4 MapReduce 进程2 HDFS 的 Shell操作（开发重点）2.1 基本语法2.2 命令大全2.3 常用命令实操3 HDFS 的 API操作3.1 客户端环境准备3.2 HDFS的 API案例实操4 HDFS 的读写流程（面试重点）4.1 HDFS 写数据流程4.1.1 剖析文件写入4.1.2 网络拓扑-节点距离计算4.1.3 机架感知（副本存储节点选择.

2021-06-18 10:08:36 838

原创大数据技术之Hadoop（HDFS）概述、Shell操作、API操作、读写流程、工作机制

文章目录1 HDFS 概述1.1 HDFS 产生背景及定义1.2 HDFS 优缺点1.3 HDFS 组成架构1.4 HDFS 文件块大小（面试重点）2 HDFS 的 Shell操作（开发重点）2.1 基本语法2.2 命令大全2.3 常用命令实操3 HDFS 的 API操作3.1 客户端环境准备1.3.6 推荐系统框架图2 Hadoop 运行环境搭建（开发重点）2.1 模板虚拟机环境准备2.2 克隆虚拟机2.3 在 hadoop102 安装 JDK2.4 在 hadoop102 安装 Hadoop2.5 H.

2021-06-16 21:47:59 1797 3

原创大数据技术之Hadoop（入门）概述、运行环境搭建、运行模式

文章目录1 Hadoop 概述1.1 Hadoop 是什么1.2 Hadoop 优势1.3 Hadoop 组成1.3.1 HDFS 架构概述2 组管理和权限管理2.1 组管理2.2 权限管理3 任务调度1 Hadoop 概述1.1 Hadoop 是什么（1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构（2）主要解决海量数据的存储和海量数据的分析计算问题（3）广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈1.2 Hadoop 优势（1）高可靠性：H.

2021-06-14 18:26:52 173202 26

原创 Python实现txt格式文件转segy格式文件

文章目录1 Segy 格式文件介绍2 Python 编程实现思路3 Python 代码1.引入库2.读入数据总结1 Segy 格式文件介绍地震数据处理常用的文件格式为segy格式。标准segy文件一般包括三部分，第一部分是EBCDIC文件头，长度为3200字节，包括40条记录，每条记录80字节。用来保存一些对地震数据体进行描述的信息；第二部分是二进制文件头，长度为400字节，用来存储描述segy文件的一些关键信息，包括segy文件的数据格式、采样点数、采样间隔、测量单位等一些信息，这些信息一般存.

2021-06-10 15:32:08 3472 4

原创 Shell编程入门

文章目录1 Shell编程简介2 Shell脚本的执行方式3 Shell变量3.1 Shell变量介绍3.2 定义变量的规则3.3 将命令的返回值赋给变量（重点）4 设置环境变量5 位置参数变量6 预定义变量7 运算符8 条件判断8.1 基本介绍8.2 if 判断8.3 case 语句9 循环语句9.1 for 循环9.2 while 循环10 read 读取控制台输入11 函数11.1 系统函数11.2 自定义函数1 Shell编程简介Shell 是一个命令行解释器，它为用户提供了一个向 Linu.

2021-06-06 19:42:35 9262 1

huxili2020的博客

原创数据结构之排序