- 博客(67)
- 收藏
- 关注

原创 大数据技术目录
HadoopHadoop环境安装HDFS的详细使用MapReduce的详细使用Yarn的详细使用Zookeeper的简单使用Kafka的详细使用Flume的详细使用Sqoop的简单使用HBase的详细使用Hive的详细使用SparkSpark部署SparkCore环境准备SparkSQL的简单使用SparkStreaming的简单使用FlinkFlink的详细使用Flink-TableAPI&SQL快速上手Azkaban的简单使用ClickHouse的详细使用
2021-04-13 17:04:28
478
原创 SparkSQL调优
Spark Shuffle 过程中,shuffle reduce task 的 buffer 缓冲区大小决定了 reduce task 每次能够缓冲的数据量,也就是每次能够拉取的数据量,如果内存资源较为充足,适当增加拉取数据缓冲区的大小,可以减少拉取数据的次数,也就可以减少网络传输的次数,进而提升性能。读取的数据源有很多小文件,会造成查询性能的损耗,大量的数据分片信息以及对应产生的 Task 元信息也会给 Spark Driver 的内存造成压力,带来单点问题。reduce 端数据拉取缓冲区的大小设置,
2024-07-01 19:21:57
1465
原创 修改jar包中class文件并重新打包
修改jar包中class文件并重新打包org.apache.seatunnel.shade.connector.file.org.apache.avro.SchemaParseException: Illegal initial character: $ip使用parquet格式Avro数据序列化过程中报错,报错原因:Avro对字段名有校验,只支持字母和下划线开头[A-Za-z_],本次报错Illegal initial character:` $ip`就是使用了`$ip`字段名,字段名`$`开头所以校
2023-12-13 15:22:01
1584
原创 Mockito简单使用
Mockito 是一款Java类/接口/对象的Mock工具,目前广泛应用于Java应用程序的单元测试中一句话说明功能:你需要什么就可以mock什么。(比如本地没有Redis但是开发时又需要用到,那么就可以mock一个Redis的功能来隔离对Redis的依赖)
2022-12-28 16:10:49
1008
原创 Shell常用功能汇总
Shell常用功能汇总时间时间转换当前时间加减时间指定时间加减时间获取当前应用的pid值获取端口信息删除历史目录或文件awkcutsedsort
2022-12-12 15:42:20
667
原创 Flink-CDC-快速入手(MySQL为例)
官方文档地址上面所用的反序列化器是自带的String字符串序列化器我们可以自定义反序列化器,实现//1.创建执行环境 StreamExecutionEnvironment env = StreamExecutionEnvironment . getExecutionEnvironment();
2022-09-13 16:28:45
2349
原创 Flink-CEP快速入门
所谓 CEP,其实就是“复杂事件处理(Complex Event Processing)”的缩写;而 Flink CEP,就是 Flink 实现的一个用于复杂事件处理的库(library)把事件流中的一个个简单事件,通过一定的规则匹配组合起来,这就是“复杂事件”;然后基于这些满足规则的一组组复杂事件进行转换处理,得到想要的结果进行输出。
2022-09-09 17:09:30
1657
原创 Flink-TableAPI&SQL快速上手
0. 程序流程1. 创建表环境2. 创建表连接器表(Connector Tables)虚拟表(Virtual Tables)3. 表的查询执行 SQL 进行查询调用 Table API 进行查询4. 输出表5. 表和流的相互转换流转换成表(fromDataStream)调用 fromDataStream 方法调用 fromChangelogStream ()方法调用 createTemporaryView() 方法表转换成流调用 toDataStream() 方法
2022-09-06 16:03:03
2007
原创 JMockit简单使用
参考文档http://www.jmockit.cn/index.htm是什么?简介JMockit是一款Java类/接口/对象的Mock工具,目前广泛应用于Java应用程序的单元测试中一句话说明功能:你需要什么就可以mock什么。(比如本地没有Redis但是开发时又需要用到,那么就可以mock一个Redis的功能来隔离对Redis的依赖)基本流程record(录制)---- replay(回放) ---- verify(验证)1、record : 设置将要被调用的方法和返回值。Expect
2022-03-20 14:23:48
4586
原创 Flink-DataStream快速上手
Flink的详细使用1. 安装部署安装第一步:将 flink-1.10.1-bin-scala_2.12.tgz 上传到服务器中并解压缩第二步:修改 conf/flink-conf.yaml 文件# 修改 jobmanager.rpc.address 参数,修改为 jobmanager 的机器jobmanager.rpc.address: hadoop151第三步:修改 conf/slaves 文件# slave 机器hadoop152hadoop153第四步:将
2021-10-11 16:24:21
3823
原创 Hive的详细使用
Hive文章目录Hive1、Hive安装部署安装Hive安装MySQLHive元数据配置到MySQL访问Hive的方式使用元数据服务的方式访问 Hive使用 JDBC 方式访问 HiveHive 常见属性配置运行日志信息配置打印 当前库 和 表头2、Hive 数据类型基本数据类型集合数据类型类型转化3、DDL 数据定义数据库数据表4、DML 数据操作数据导入(五种)数据导出清除表中的数据(truncate)5、查询普通查询排序全局排序(order by)每个Reduce内部排序(Sort By)分区(Di
2021-08-09 19:11:25
1759
原创 HBase的详细使用
HBase文章目录HBase1、安装2、shell命令基本操作表的操作数据的操作3、API准备环境表操作API(DDL)判断表是否存在创建表删除表创建命名空间数据操作API(DML)插入数据获取数据(get)获取数据(scan)删除数据MapReduce环境准备官方案例自定义Hbase-MapReduce将 HDFS 中的数据写入到 Hbase 表中(打成jar包上传到服务器运行)将一张表中的部分数据通过 MR 迁入到另一张表中(在本地运行)4、优化高可用预分区(四种方式)基础优化1、安装第一步:
2021-08-09 19:11:11
2569
原创 Yarn的详细使用
Yarn文章目录Yarn1、常用命令查看任务(yarn application)查看日志(yarn logs)查看尝试运行的任务(yarn applicationattempt)查看容器(yarn container)查看节点状态(yarn node)查看队列(yarn queue)2、生产环境核心参数3、Yarn 案例实操Yarn 生产环境核心参数配置案例容量调度器多队列提交案例公平调度器案例1、常用命令查看任务(yarn application)列出所有 Applicationyarn a
2021-08-09 19:10:37
762
原创 MapReduce的详细使用
MapReduce文章目录MapReduce1、常用数据序列化类型2、编程规范(三个阶段)Mapper阶段Reducer阶段Driver阶段3、编程环境准备4、简单案例(单词统计)5、序列化序列化概述自定义 bean 对象实现序列化接口(Writable)步骤程序(序列化接口)6、InputFormat 数据输入TextInputFormat(默认)CombineTextInputFormat7、Shuffle 机制Partition 分区自定义Partitioner步骤Job驱动类 示例分区总结Writ
2021-08-09 19:10:05
2420
原创 HDFS的详细使用
HDFS文章目录HDFS1、Shell 操作上传下载直接操作(和Linux命令功能一样)2、API 操作准备工作文件上传文件下载修改文件名称删除文件和目录文件详情查看文件和文件夹判断修改参数方法参数优先级1、Shell 操作上传-moveFromLocal:从本地剪切粘贴到 HDFShadoop fs -moveFromLocal 本地文件 HDFS目录-copyFromLocal:从本地文件系统中拷贝文件到 HDFS 路径去hadoop fs -copyFromLocal 本地文件
2021-08-09 19:09:36
642
原创 Hadoop环境安装
Hadoop分布式环境文章目录Hadoop分布式环境0、前期准备创建普通用户ssh免密登录1、分布式基本环境搭建集群部署规划环境搭建步骤启动集群2、配置历史服务器和日志的聚集环境搭建启动3、集群启动/停止方式总结各个模块分开启动/停止(配置ssh 是前提)各个服务组件逐一启动/停止4、编写 Hadoop 集群常用脚本Hadoop 集群启停脚本查看三台服务器 Java 进程脚本5、常用端口号说明6、高可用环境搭建(HA)集群规划配置 HDFS-HA 集群配置Zookeeper集群配置 HDFS-HA 集群配
2021-08-09 19:09:17
1032
原创 Flume的详细使用
Flume文章目录Flume1、简介2、快速入门安装3、配置及简单使用配置source配置(常用)sink配置(常用)channel配置(常用)使用监控端口数据到控制台(netcat-memeory-logger)实时监控单个追加文件到控制台(exec-memeory-logger)实时监控单个追加文件到HDFS(exec-memeory-hdfs)实时监控目录下多个新文件(spooldir-memory-hdfs)实时监控目录下的多个追加文件(taildir-memory-hdfs)Flume对接Kaf
2021-08-09 19:08:49
2126
原创 ClickHouse的详细使用
ClickHouse文章目录ClickHouse1、安装2、数据类型整型浮点型布尔型Decimal 型字符串时间类型数组3、表引擎TinyLog(不适用)Memory(不适用)MergeTree(推荐)手动合并二级索引数据 TTLReplacingMergeTreeSummingMergeTree4、SQL 操作5、副本配置步骤6、分片集群简介3 分片 2 副本共 6 个节点集群配置配置三节点版本集群及副本1、安装第一步:修改 /etc/security/limits.conf 文件并同步到其他服
2021-08-09 19:07:58
1652
原创 Azkaban的简单使用
Azkaban文章目录Azkaban1、安装集群部署规划安装步骤一、配置MySQL二、配置Executor Server三、配置Web Server2、Work Flow 案例执行单个作业依赖自动失败重试3、Azkaban 进阶JavaProcess 作业类型条件工作流运行时参数预定义宏案例邮件报警1、安装集群部署规划hadoop151hadoop152hadoop153Web Server√Executor Server√√√安装步骤一、配置My
2021-08-09 19:07:09
1275
原创 Presto的环境安装
Presto文章目录Presto1、安装Server安装命令行Client安装可视化Client安装1、安装Server安装第一步:将 presto-server-0.196.tar.gz 上传到服务器并解压第二步:在 presto 目录下创建存储数据和配置文件文件夹# 创建存储数据文件夹mkdir data# 创建存储配置文件文件夹mkdir etc第三步:配置在 etc 目录下添加 jvm.config 配置文件-server-Xmx16G-XX:+UseG1G
2021-08-06 09:56:27
295
原创 SparkCore的简单使用
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合弹性存储的弹性:内存与磁盘的自动切换;容错的弹性:数据丢失可以自动恢复;计算的弹性:计算出错重试机制;分片的弹性:可根据需要重新分片。分布式:数据存储在大数据集群不同节点上数据集:RDD 封装了计算逻辑,并不保存数据数据抽象:RDD 是一个抽象类,需要子类具体实现。
2021-08-06 09:54:41
502
原创 SparkSQL的简单使用
SparkSQL文章目录SparkSQL1、简介DataFrameDataSet2、Shell命令DataFrameDataSet3、IDEA开发环境准备RDD、DataFrame、DataSet 三者相互转换自定义函数UDFUDAF4、加载和保存方式加载数据保存数据APIMySQLHive1、简介DataFrame在 Spark 中,DataFrame 是一种以 RDD 为基础的分布式数据集,类似于传统数据库中的二维表格。DataFrame 与 RDD 的主要区别在于,前者带有 schema 元
2021-08-06 09:53:37
1485
原创 SparkStreaming的简单使用
SparkStreaming文章目录SparkStreaming1、环境准备2、创建DStream监听端口RDD 队列Kafka自定义3、DStream 转换无状态转化操作Transformjoin有状态转化操作UpdateStateByKeyWindowOperations4、DStream 输出5、优雅关闭1、环境准备导入依赖(pom.xml)<dependency> <groupId>org.apache.spark</groupId> &l
2021-08-06 09:51:30
725
原创 Spark部署
Spark部署文章目录Spark部署1、Local 模式2、Standalone模式集群模式高可用模式3、Yarn 模式4、Windows模式5、部署模式对比1、Local 模式第一步:将 spark-3.0.0-bin-hadoop3.2.tgz 文件上传到服务器并解压第二步:启动 Local 环境bin/spark-shell第三步:提交应用# --class :表示要执行程序的主类,此处可以更换为咱们自己写的应用程序# --master local[2] :部署模式,默认
2021-08-06 09:46:12
354
原创 Sqoop的简单使用
sqoop文章目录sqoop1、安装2、导入MySQL数据准备从 MySQL 导入到 HDFS全部导入查询导入导入指定列使用sqoop关键字筛选查询导入数据从 MySQL 导入到 Hive从 MySQL 导入到 HBase3、导出HIVE/HDFS到MySQL4、常用命令常用命令列举命令&参数详解数据库连接importexporthive1、安装第一步:将 sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 上传到服务器并解压第二步:将 sqoop-
2021-08-06 09:43:28
374
原创 Superset安装
Superset文章目录Superset1、安装一、安装Python环境二、Superset部署三、启动Superset启动(确保当前conda环境为superset)停止shell启动、停止 脚本1、安装一、安装Python环境第一步:下载Miniconda(Python3版本),(Miniconda3-latest-Linux-x86_64.sh),上传到服务器并运行# 下载地址https://repo.anaconda.com/miniconda/Miniconda3-latest-L
2021-08-06 09:41:16
361
原创 Zabbix的安装
Zabbix文章目录Zabbix1、安装集群部署规划安装启动停止Zabbix启动停止连接Zabbix_Web数据库1、安装集群部署规划进程hadoop151节点hadoop152节点hadoop153节点zabbix-agent√√√zabbix-server√MySQL√zabbix-web√安装第一步:关闭SELinux(修改 /etc/selinux/config )vim /etc/selinux/config
2021-08-06 09:39:09
276
原创 Zookeeper的简单使用
Zookeeper文章目录Zookeeper1、配置参数解读2、分布式安装3、命令行操作4、API使用环境准备创建节点判断节点是否存在获取子节点(不监听)获取子节点(监听)1、配置参数解读tickTime =2000:通信心跳数,Zookeeper服务器与客户端心跳时间,单位毫秒Zookeeper使用的基本时间,服务器之间或客户端与服务器之间维持心跳的时间间隔,也就是每个tickTime时间就会发送一个心跳,时间单位为毫秒。它用于心跳机制,并且设置最小的session超时时间为两倍心跳时间。(
2021-08-06 09:37:01
593
原创 SpringBoot整合ShardingSphere
文章目录SpringBoot整合ShardingSphere1、Sharding-JDBC(配置文件可参考官网)分表分库(包括分表)2、Sharding-ProxySpringBoot整合ShardingSphere官网:http://shardingsphere.apache.org/1、Sharding-JDBC(配置文件可参考官网)分表第一步:创建数据库和表数据库:test数据表:user_0, user_1第二步:创建SpringBoot项目并导入依赖(pom.xml)
2021-03-26 18:05:16
2863
原创 MongoDB的简单使用
typora-copy-images-to: imagestypora-root-url: imagesMongoDB官网:https://www.mongodb.com/中文网:https://www.mongodb.org.cn/1、简介介绍MongoDB是一个开源、高性能、无模式的文档型数据库,当初的设计就是用于简化开发和方便扩展,是NoSQL数据库产品中的一种。是最像关系型数据库(MySQL)的非关系型数据库。它支持的数据结构非常松散,是一种类似于 JSON 的 格式叫BSON.
2021-03-20 10:18:00
274
原创 MySQL高级知识
文章目录MySQL高级1、Linux 下的 MySQL(5.7)修改字符集乱码字符集乱码原因永久修改设置大小写不敏感MyISAM 和 InnoDB 对比2、索引简介Mysql 索引分类索引的创建时机3、索引优化单表使用索引关联查询优化order by优化group by 优化4、Explain 性能分析5、查询分析慢查询日志介绍使用日志分析工具 mysqldumpslowshow profile6、MySQL锁机制表锁行锁页锁7、主从复制基本原理基本原则配置步骤(一主一从)主机修改从机修改停止主从复制M
2020-12-19 13:57:54
652
1
原创 ActiveMQ详细使用(含高级篇)
ActiveMQ文章目录ActiveMQ1、概述2、使用安装启动&停止3、Java编码实现ActiveMQ通讯环境搭建点对点的消息传递域——队列(Queue)消息生产者消息消费者方式一:阻塞式消费者(receive)方式二:异步监听式消费者(监听器onMessage())发布订阅消息传递域——主题(topic)发布主题生产者订阅主题消费者方式一:阻塞式消费者(receive)方式二:异步监听式消费者(监听器onMessage())总结4、JMS规范和落地产品简介JMS的组成结构和特点JMS Pro
2020-12-11 09:38:16
5193
1
原创 ElasticSearch的详细使用
typora-copy-images-to: imagesElasticSearch文章目录ElasticSearch1、ElasticSearch 安装及可视化(Windows)2、启动 ElasticSearch3、IK 分词器ik_smartik_max_word添加分词器4、简单语句使用增加(PUT)修改(POST)删除(DELETE)查询(GET)初始数据简单查询复杂查询(bool查询)匹配多个条件精确查询高亮查询5、集成 SpringBoot环境搭建(两步)索引 API 的简单使用文档 .
2020-09-27 22:58:42
144
原创 数据结构与算法
数据结构与算法文章目录数据结构与算法1、数据结构(DataStructurs)树二叉树哈夫曼树二叉排序树平衡二叉树(AVL树)图图的创建和显示深度优先搜索(DFS)广度优先搜索(BFS)2、算法(Algorithms)二分查找算法分治算法(DivideAndConquer)动态规划算法(Dynamic Programming)贪心算法(Greedy)回溯算法KMP算法普里姆算法(Prim)克鲁斯卡尔算法(Kruskal)迪杰斯特拉算法(Dijkstra)弗洛伊德算法(Floyd)1、数据结构(DataS
2020-09-06 15:20:56
251
原创 NIO的详细使用
NIO文章目录NIO1、概述Java NIO 简介Java NIO 与 IO 的主要区别2、缓冲区(Buffer)简介缓冲区的基本属性Buffer 的常用方法缓冲区的数据操作方法常用方法的使用直接与非直接缓冲区3、通道(Channel)简介Channel 接口提供的最主要实现类获取通道FileChannel 的常用方法通道的数据传输利用通道完成文件的复制使用本地文件进行传输使用TCP进行传输使用直接缓冲区完成文件的复制通道之间的数据传输transferFrom()transferTo()分散(Scatte
2020-08-11 11:48:33
2191
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人