
大数据
javaisGod_s
这个作者很懒,什么都没留下…
展开
-
Flink任务提交流程
Flink任务提交流程原创 2023-04-11 08:30:00 · 1001 阅读 · 0 评论 -
Flink集群有哪些角色?各自有什么作用?
Client是Flink程序提交的客户端,当用户提交一个Flink程序时,会首先创建一个Client,该Client首先会对用户提交的Flink程序进行预处理,并提交到Flink集群中处理,所以Client需要从用户提交的Flink程序配置中获取JobManager的地址,并建立到JobManager的连接,将Flink Job提交给JobManager。Flink 程序在运行时主要有。原创 2023-04-10 16:45:00 · 391 阅读 · 0 评论 -
Flink的组件栈有哪些?
Libraries层:该层称为Flink应用框架层,根据API层的划分,在API层之上构建的满足特定应用的实现计算框架,也分别对应于面向流处理和面向批处理两类。面向流处理支持:CEP(复杂事件处理)、基于SQL-like的操作(基于Table的关系操作);API层:API 层主要实现了面向流(Stream)处理和批(Batch)处理API,其中面向流处理对应DataStream API,面向批处理对应DataSet API,后续版本,Flink有计划将DataStream和DataSet API进行统一。原创 2023-04-10 16:00:00 · 482 阅读 · 0 评论 -
Flink之词频统计案例
【代码】Flink之词频统计案例。原创 2023-04-10 11:05:45 · 937 阅读 · 0 评论 -
sqoop相关命令
sqoop是apache旗下一款Hadoop和关系数据库服务器之间传送数据的工具。简单来说,sqoop就是一款数据导入导出工具。导入:从RDBMS到hadoop生态圈的过程。导出:从hadoop生态圈到RDBMS。底层:将导入导出命令翻译成MR任务,执行在YARN平台上,底层是对MR的输入和输出做了定制化操作。sqoop的使用方式主要有二种:原生API 和hcatalog API(导入到HDFS 采用的原生API,导入到Hive做增量导入,一般使用hcatalog)原创 2023-03-18 16:37:07 · 349 阅读 · 0 评论 -
Kafka的生产者的数据分发策略
Kafka的生产者的数据分发策略原创 2023-03-05 08:56:44 · 240 阅读 · 0 评论 -
Kafka的消息的存储机制
Kafka的消息的存储机制原创 2023-02-25 19:25:51 · 84 阅读 · 0 评论 -
Kafka如何保证数据不丢失
Kafka如何保证数据不丢失原创 2023-02-25 19:22:01 · 405 阅读 · 0 评论 -
Hadoop组件HDFS的secondaryNameNode是如何辅助管理元数据
* 1- SNN会每隔一定的时间, 检测NameNode是否需要进行checkpoint(1个小时/128M)* 2- SNN一旦达到对应阈值, 就会让Namenode执行checkpoint, 滚动形成一个新的edit文件* 3- SNN将之前整个edit文件和对应fsimage通过HTTP请求的方式将其拉取到SNN所在的节点上* 4- 将edits文件和fsimage文件读取到内存中, 进行内存合并操作, 将其合并为一个新的fsimage文件(fsimage.checkpoint)* 5- 将原创 2023-02-23 21:14:37 · 150 阅读 · 0 评论 -
Hadoop组件MR的执行流程
Hadoop组件MR的执行流程原创 2023-02-23 21:12:51 · 324 阅读 · 0 评论 -
Hadoop组件HDFS之读写流程
HDFS读写流程原创 2023-02-23 20:59:06 · 178 阅读 · 0 评论 -
Yarn提交mr的流程和三种调用方案的理解
Yarn提交mr的流程和三种调用方案的理解原创 2023-02-20 21:19:31 · 709 阅读 · 0 评论 -
常用窗口函数总结
常用窗口函数总结原创 2023-02-20 21:13:38 · 328 阅读 · 0 评论 -
Spark是如何读取大量小文件的
Spark是如何读取大量小文件的原创 2023-02-19 16:58:33 · 499 阅读 · 0 评论 -
Spark的宽窄依赖关系
Spark的宽窄依赖关系原创 2023-02-19 16:36:07 · 116 阅读 · 0 评论 -
Spark的shuffle的机制
Spark的shuffle的机制原创 2023-02-17 20:55:03 · 143 阅读 · 0 评论 -
Spark运行流程( RDD 的job调度流程: Driver内部运行流程)
Spark运行流程( RDD 的job调度流程: Driver内部运行流程)原创 2023-02-17 20:48:16 · 242 阅读 · 0 评论 -
Spark和MapReduce的区别
Spark和MapReduce的区别原创 2023-02-17 09:18:42 · 216 阅读 · 0 评论 -
Spark之 RDD的缓存 和 检查点的区别
RDD的缓存 和 检查点的区别原创 2023-02-17 09:16:29 · 161 阅读 · 0 评论 -
spark常用的部署方式
spark常用的部署方式原创 2023-02-17 09:10:30 · 261 阅读 · 0 评论 -
Spark之RDD的五大特点
Spark之RDD的五大特点原创 2023-02-17 09:08:41 · 148 阅读 · 0 评论 -
Hive调优
hive调优原创 2023-02-11 20:44:21 · 124 阅读 · 0 评论