自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 数据结构之排序

排序算法整理

2022-09-11 18:01:05 792

原创 Hadoop与Spark中的Shuffle过程梳理

hadoop与spark中的shuffle过程梳理

2022-09-09 21:08:14 1807

原创 Linux系统常用指令(六)grep、sed 和 awk

Linux三剑客

2022-05-05 10:02:36 1326

原创 大数据技术之HBase(一)HBase简介、HBase快速入门、HBase进阶

文章目录1 HBase 简介1.1 HBase 定义1.2 HBase 数据模型1.2.1 HBase 逻辑结构1.2.2 HBase 物理存储结构1.2.3 数据模型1.3 HBase 基本架构2 HBase 快速入门1.2.3 自定义存储 offset1.3 自定义 Interceptor1.3.1 拦截器原理1.3.2 拦截器案例2 Kafka 监控2.1 Kafka Eagle3 Flume 对接 Kafka4 Kafka 面试题1 HBase 简介1.1 HBase 定义HBase 是一.

2021-09-26 20:37:56 26873 3

原创 大数据技术之Kafka(二)Kafka API、Kafka监控、Flume对接Kafka、Kafka面试题

文章目录1 Kafka API1.1 Producer API1.1.1 消息发送流程1.2.1 异步发送 API1.2.2 消息队列的两种模式1.3 Kafka 基础架构2 Kafka 快速入门2.1 安装部署2.2 Kafka 命令行操作3 Kafka 架构深入3.1 Kafka 工作流程及文件存储机制3.2 Kafka 生产者3.2.1 分区策略3.2.2 数据可靠性保证3.2.3 Exactly Once 语义3.3 Kafka 消费者3.3.1 消费方式3.3.2 分区分配策略3.3.3 off.

2021-09-24 17:16:03 680

原创 大数据技术之Kafka(一)Kafka概述、Kafka快速入门、Kafka架构深入

文章目录1 Kafka 概述1.1 定义1.2 消息队列1.2.1 传统消息队列的应用场景1.2.2 消息队列的两种模式1.3 Kafka 基础架构2 Kafka 快速入门2.1 安装部署1.3.4 聚合1.4 Flume 企业开发案例1.4.1 复制和多路复用1.4.2 负载均衡和故障转移1.4.3 聚合1.5 自定义 Interceptor1.6 自定义 Source1.7 自定义 Sink2 企业真实面试题2.1 你是如何实现 Flume 数据传输的监控的?2.2 Flume 的 Source,Si.

2021-09-20 15:16:39 567

原创 大数据技术之Flume(二)Flume进阶、企业真实面试题

文章目录1 Flume 概述1.1 Flume 定义1.2 Flume 基础架构1.2.1 Agent1.2.2 Source1.2.3 Sink1.2.4 Channel1.2.5 Event2 Flume 快速入门2.1 Flume 安装部署2.1.1 安装地址2.1.2 安装部署2.2 Flume 入门案例2.2.1 监控端口数据官方案例2.2.2 实时监控单个追加文件2.3.3 实时监控目录下多个新文件2.2.4 实时监控目录下的多个追加文件1 Flume 概述1.1 Flume 定义Fl.

2021-09-13 22:20:25 518

原创 大数据技术之Flume(一)Flume概述、Flume快速入门

文章目录1 Flume 概述1.1 Flume 定义1.2 Flume 基础架构1.2 Fetch 抓取1.3 本地模式1.4 表的优化1.4.1 小表大表Join(MapJOIN)1.4.2 大表 Join 大表1.4.3 Group By1.4.4 Count(Distinct) 去重统计1.4.5 笛卡尔积1.4.6 行列过滤1.5 合理设置 Map及 Reduce数1.5.1 复杂文件增加 Map 数1.5.2 小文件进行合并1.5.3 合理设置 Reduce 数1.6 并行执行1.7 严格模式2.

2021-09-11 21:27:30 1865

原创 大数据技术之Hive(五)企业级调优、Hive实战

文章目录1 企业级调优1.1 执行计划(Explain)1.2 常用内置函数1.2.1 空字段赋值1.2.2 CASE WHEN THEN ELSE END1.2.3 行转列1.2.4 列转行1.2.5 窗口函数(开窗函数)1.2.6 Rank1.3 自定义函数1.4 自定义 UDF函数1.5 自定义 UDTF 函数2 压缩和存储2.1 Hadoop 压缩配置2.2 开启 Map 输出阶段压缩(MR引擎)2.3 开启 Reduce输出阶段压缩2.4 文件存储格式2.5 存储和压缩结合1 企业级调优1.

2021-09-09 23:13:32 827

原创 大数据技术之Hive(四)函数、压缩和存储

文章目录1 查询1.1 基本查询(Select...From)1.1.1 全表和特定列查询1.1.2 列别名1.1.3 算术运算符1.1.4 常用函数1.1.5 Limit 语句1.1.6 Where 语句1.1.7 比较运算符(Between / In / Is Null)1.1.8 Like和RLike1.1.9 逻辑运算符(And / Or / Not)1.2 分组1.2.1 Group By 语句1.2.2 Having 语句1.3 Join 语句1.3.1 等值 Join1.3.2 表的别名1..

2021-09-05 15:10:36 727

原创 大数据技术之Hive(三)查询、分区表和分桶表

文章目录1 DDL 数据定义1.1 创建数据库1.2 查询数据库1.3 修改数据库1.4 删除数据库1.5 创建表1.5.1 管理表1.5.2 外部表1.5.3 管理表与外部表的互相转换1.6 修改表1.7 删除表2 DML 数据操作2.1 数据导入2.2 数据导出1 DDL 数据定义1.1 创建数据库CREATE DATABASE [IF NOT EXISTS] database_name[COMMENT database_comment][LOCATION hdfs_path][WITH.

2021-09-01 19:41:11 3798

原创 大数据技术之Hive(二)DDL数据定义、DML数据操作

文章目录1 DDL 数据定义1.1 创建数据库1.2 查询数据库1.3 修改数据库1.4 删除数据库1.5 创建表1.4 Hive 和数据库比较2 Hive 安装2.1 Hive 安装部署2.2 MySQL 安装2.3 Hive元数据配置到 MySQL2.4 使用元数据服务的方式访问 Hive2.5 使用 JDBC方式访问 Hive2.6 Hive 常用交互命令2.7 Hive 常见属性配置3 Hive 数据类型3.1 基本数据类型3.2 集合数据类型3.3 类型转换1 DDL 数据定义1.1 创建.

2021-08-29 16:42:07 641

原创 大数据技术之Hive(一)基本概念、安装、数据类型

文章目录1 基本概念1.1 什么是Hive1.2 Hive的优缺点1.3 Hive架构原理1.4 Hive 和数据库比较2 Zookeeper 安装2.1 本地模式安装部署2.2 配置参数解读3 Zookeeper实战(开发重点)3.1 分布式安装部署3.2 客户端命令行操作3.3 API应用3.4 监听服务器节点动态上下线案例4 Zookeeper 内部原理4.1 节点类型4.2 Stat 结构体4.3 监听器原理(面试重点)4.4 选举机制1 基本概念1.1 什么是Hive(1)Hive是由 .

2021-08-28 21:31:44 647

原创 大数据技术之Zookeeper

文章目录1 Zookeeper 入门1.1 概述1.2 Zookeeper 特点1.3 数据结构1.4 应用场景2 Zookeeper 安装2.1 本地模式安装部署2 HDFS—集群压测2.1 测试 HDFS写性能2.2 测试HDFS 读性能3 HDFS—多目录3.1 NameNode 多目录配置3.2 DataNode 多目录配置3.3 集群数据均衡之磁盘间数据均衡4 HDFS—集群扩容及缩容4.1 添加白名单4.2 服役新服务器4.3 服务器间数据均衡4.4 黑名单退役服务器5 HDFS—存储优化5..

2021-08-25 20:43:33 446

原创 大数据技术之Hadoop(生产调优手册)

文章目录1 HDFS—核心参数1.1 NameNode 内存生产配置1.2 NameNode 心跳并发配置1.3 开启回收站配置2 HDFS—集群压测1.4.1 先进先出调度器(FIFO)1.4.2 容量调度器(Capacity Scheduler)1.4.3 公平调度器(Fair Scheduler)1.5 Yarn 常用命令1.5.1 yarn application 查看任务1.5.2 yarn logs 查看日志1.5.3 yarn applicationattempt 查看尝试运行的任务1.5..

2021-06-27 10:07:23 676

原创 大数据技术之Hadoop(Yarn)资源调度器、案例实操

文章目录1 Yarn 资源调度器1.1 Yarn 基础架构1.2 MapReduce 优缺点1.3 MapReduce 核心思想1.4 MapReduce 进程1.5 官方WordCount 源码1.6 常用数据序列化类型1.7 MapReduce 编程规范1.8 WordCount 案例实操1.8.1 本地测试1.8.2 提交到集群测试2 Hadoop 序列化2.1 序列化概述2.2 自定义 bean对象实现序列化接口( Writable)2.3 序列化案例实操1 Yarn 资源调度器Yarn是一.

2021-06-24 12:14:57 1121

原创 大数据技术之Hadoop(MapReduce)框架原理、数据压缩

文章目录1 MapReduce 框架原理1.1 InputFormat 数据输入1.1.1 切片与 MapTask并行度决定机制1.1.2 Job 提交流程源码和切片源码详解1.3 MapReduce 核心思想1.4 MapReduce 进程1.5 官方WordCount 源码1.6 常用数据序列化类型1.7 MapReduce 编程规范1.8 WordCount 案例实操1.8.1 本地测试1.8.2 提交到集群测试2 Hadoop 序列化2.1 序列化概述2.2 自定义 bean对象实现序列化接口( .

2021-06-23 10:14:33 838

原创 大数据技术之Hadoop(MapReduce)概述、序列化

文章目录1 MapReduce 概述1.1 MapReduce 定义1.2 MapReduce 优缺点1.3 MapReduce 核心思想1.4 MapReduce 进程2 HDFS 的 Shell操作(开发重点)2.1 基本语法2.2 命令大全2.3 常用命令实操3 HDFS 的 API操作3.1 客户端环境准备3.2 HDFS的 API案例实操4 HDFS 的读写流程(面试重点)4.1 HDFS 写数据流程4.1.1 剖析文件写入4.1.2 网络拓扑-节点距离计算4.1.3 机架感知(副本存储节点选择.

2021-06-18 10:08:36 741

原创 大数据技术之Hadoop(HDFS)概述、Shell操作、API操作、读写流程、工作机制

文章目录1 HDFS 概述1.1 HDFS 产生背景及定义1.2 HDFS 优缺点1.3 HDFS 组成架构1.4 HDFS 文件块大小(面试重点)2 HDFS 的 Shell操作(开发重点)2.1 基本语法2.2 命令大全2.3 常用命令实操3 HDFS 的 API操作3.1 客户端环境准备1.3.6 推荐系统框架图2 Hadoop 运行环境搭建(开发重点)2.1 模板虚拟机环境准备2.2 克隆虚拟机2.3 在 hadoop102 安装 JDK2.4 在 hadoop102 安装 Hadoop2.5 H.

2021-06-16 21:47:59 1590 2

原创 大数据技术之Hadoop(入门)概述、运行环境搭建、运行模式

文章目录1 Hadoop 概述1.1 Hadoop 是什么1.2 Hadoop 优势1.3 Hadoop 组成1.3.1 HDFS 架构概述2 组管理和权限管理2.1 组管理2.2 权限管理3 任务调度1 Hadoop 概述1.1 Hadoop 是什么(1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构(2)主要解决海量数据的存储和海量数据的分析计算问题(3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈1.2 Hadoop 优势(1)高可靠性:H.

2021-06-14 18:26:52 146953 23

原创 Python实现txt格式文件转segy格式文件

文章目录1 Segy 格式文件介绍2 Python 编程实现思路3 Python 代码1.引入库2.读入数据总结1 Segy 格式文件介绍地震数据处理常用的文件格式为segy格式。标准segy文件一般包括三部分,第一部分是EBCDIC文件头,长度为3200字节,包括40条记录,每条记录80字节。用来保存一些对地震数据体进行描述的信息;第二部分是二进制文件头,长度为400字节,用来存储描述segy文件的一些关键信息,包括segy文件的数据格式、采样点数、采样间隔、测量单位等一些信息,这些信息一般存.

2021-06-10 15:32:08 3145 4

原创 Shell编程入门

文章目录1 Shell编程简介2 Shell脚本的执行方式3 Shell变量3.1 Shell变量介绍3.2 定义变量的规则3.3 将命令的返回值赋给变量(重点)4 设置环境变量5 位置参数变量6 预定义变量7 运算符8 条件判断8.1 基本介绍8.2 if 判断8.3 case 语句9 循环语句9.1 for 循环9.2 while 循环10 read 读取控制台输入11 函数11.1 系统函数11.2 自定义函数1 Shell编程简介Shell 是一个命令行解释器,它为用户提供了一个向 Linu.

2021-06-06 19:42:35 8238 1

原创 Linux系统常用指令(五)进程管理&prm和yum

文章目录1 进程管理1.1 进程的基本介绍1.2 显示系统执行的进程1.3 终止进程1.4 磁盘情况查询2 RPM和YUM1 进程管理1.1 进程的基本介绍(1)在 Linux 中,每个执行的程序(代码)都称为一个进程。每一个进程都分配一个 ID 号。(2)每一个进程,都会对应一个父进程,而这个父进程可以复制多个子进程。例如 www 服务器。(3)每个进程都可能以两种方式存在。前台与后台,所谓前台进程就是用户目前的屏幕上可以进行操作的。后台进程则是实际在操作,屏幕上无法看到的进程,通常使用后台.

2021-06-04 15:36:21 729

原创 Linux系统常用指令(四)磁盘分区、挂载&网络配置

文章目录1 磁盘分区、挂载1.1 分区基础知识1.2 Linux 分区1.3 挂载的经典案例2 网络配置2.1 组管理2.2 权限管理3 任务调度1 磁盘分区、挂载1.1 分区基础知识分区的方式mbr 分区:(1)最多支持四个主分区(2)系统只能安装在主分区(3)扩展分区要占一个主分区(4)mbr最大只支持2TB,但拥有最好的兼容性gtp 分区:(1)支持无限多个主分区(但操作系统可能限制,比如 windows 下最多 128 个分区)(2)最大支持 18EB 的大容量(1EB=1.

2021-06-04 10:01:55 331

原创 Linux系统常用指令(三)压缩和解压&组管理和权限管理&crond 任务调度

文章目录1 实用指令1.1 运行级别1.2 帮助指令1.3 文件目录类1.4 时间日期类1.5 搜索查找类1 实用指令1.1 运行级别 运行级别说明:0:关机 shutdown.target1 :单用户【找回丢失密码】emergency.target2:多用户状态没有网络服务 rescure.target3:多用户状态有网络服务 multi-user.target4:系统未使用保留给用户5:图形界面 graphical.target6:系统重启常用运行级别是3和5。CentOS.

2021-06-03 12:20:44 192

原创 Linux系统常用指令(二)运行级别&帮助指令&文件目录&时间日期&搜索查找

文章目录1 实用指令1.1 运行级别1.2 帮助指令1.3 文件目录类2 开机、重启和用户登录注销2.1 关机&重启命令2.2 用户登录和注销3 用户管理3.1 添加用户3.2 给用户指定或者修改密码3.3 删除用户3.4 查询用户信息3.5 切换用户3.6 用户组3.7 配置文件1 实用指令1.1 运行级别 运行级别说明:0:关机 shutdown.target1 :单用户【找回丢失密码】emergency.target2:多用户状态没有网络服务 rescure.target3:.

2021-06-01 11:36:14 301

原创 Linux系统常用指令(一)vim编辑器&开机、重启和用户登录注销&用户管理

文章目录1、vi 和 vim编辑器1.1 vi 和 vim 的三种常见模式二、使用步骤1.引入库2.读入数据总结1、vi 和 vim编辑器所有的 Linux 系统都会内建 vi 文本编辑器。Vim 具有程序编辑的能力,可以看做是 Vi 的增强版本,可以主动的以字体颜色辨别语法的正确性,方便程序设计。代码补完、编译及错误跳转等方便编程的功能特别丰富,在程序员中被广泛使用。1.1 vi 和 vim 的三种常见模式 正常模式二、使用步骤1.引入库代码如下(示例):import numpy a.

2021-05-31 16:09:55 552

转载 Linux系统的目录结构

文章目录前言Linux目录结构具体介绍总结前言linux 的文件系统是采用级层式的树状目录结构,在此结构中的最上层是根目录"/",然后在此目录下再创建其他的目录。在 Linux 世界里,一切皆文件。Linux目录结构具体介绍/bin [ 重点 ] (usr/bin、/usr/local/bin)是Binary的缩写,这个目录存放着经常使用的命令。/sbin (usr/sbin、/usr/local/sbin)s就是Super User的意思,这里存放的是系统管理员使用的系统管理程序。.

2021-05-30 12:27:24 233

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除