自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 Spark算子

简介Spark 算子大致可以分为以下两类:Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。Action 行动算子:这类算子会触发 SparkContext 提交 Job 作业。Action 算子会触发 Spark 提交作业(Job),并将数据输出 Spark系统。

2020-07-01 11:02:47 4452

转载 十大排序算法

十大排序算法冒泡排序算法描述:比较相邻的元素。如果第一个比第二个大,就交换数据。对每一对相邻元素作同样的工作,从开始第一对到结尾的最后一对。这步做完后,最后的元素会是最大的数。针对所有的元素重复以上的步骤,除了最后一个。持续每次对越来越少的元素重复上面的步骤,直到没有任何一对数字需要比较。动图演示:Java代码:public class BubbleSort impl...

2019-12-09 10:59:51 140

原创 Flink 如何处理离线数据关联(例如和离线数据的关联)

在asyncInvoke方法中,我们通过订单中的productId从缓存中获取对应的产品信息,并将产品名称关联到订单数据中。在processElement方法中,我们通过订单的productId从状态中获取离线数据,并将其关联到订单中。这些案例展示了在Flink中处理离线数据关联的不同方法,您可以根据实际情况选择最适合您的场景的方法,并根据需求进行相应的调优和扩展。步骤1:在任务的Open方法中读取离线的产品信息,并将其存储在本地状态中。步骤3:将关联后的订单流进行后续处理,例如计算、过滤或输出等操作。

2023-06-29 09:49:25 836

原创 Flink的窗口操作和时间处理

Flink作为一个流处理框架,提供了强大的窗口操作和时间处理功能,能够对无限数据流进行有限范围的计算和聚合。本篇博客将介绍Flink的窗口操作和时间处理的概念和用法。

2023-06-07 18:00:00 489

原创 Flink的容错机制

Flink的容错机制是保证数据处理正确性和一致性的关键组成部分。通过配置检查点、选择适当的容错语义和状态后端,以及灵活的容错策略,Flink能够在发生故障时保证流处理的可靠性和高可用性。在下一篇博客中,我们将讨论Flink的窗口操作和时间处理,敬请关注!

2023-06-07 09:00:00 296

原创 CDP集群中的Flink:安装和配置

CDP(Cloudera Data Platform)是一种现代化的数据管理和分析平台,而Flink是CDP生态系统中的关键组件之一,用于实时流处理和批处理。在本系列博客中,我们将探讨Flink在CDP集群中的安装、配置和升级。在之前的博客中,我们已经介绍了Flink的简介和核心概念,包括流式处理框架、事件、作业、数据流、窗口、状态和检查点等。如果您还没有阅读相关内容,请参考博客1:Flink简介和核心概念。

2023-06-03 09:00:00 681

原创 Flink的数据处理模型

Flink的数据处理模型基于流式计算,通过事件时间和处理时间对数据流进行处理。它提供了丰富的转换和计算操作符,支持窗口操作和状态管理,同时提供了容错性和一致性保证的机制。这使得Flink成为一个强大而灵活的数据处理框架,可用于实时分析、流式处理和批处理等场景。在下一篇博客中,我们将深入探讨Flink的窗口操作和状态管理机制。敬请关注!

2023-06-02 10:50:57 755

原创 Flink的流处理与批处理的融合

Flink的流处理与批处理的融合使得用户可以使用统一的编程模型和API来处理无界流和有界数据集。通过将批处理作业转换为流处理作业,并应用批处理优化策略,Flink实现了高效和灵活的数据处理和计算能力。

2023-06-02 10:50:14 510

原创 Flink的状态管理

状态是指在流处理过程中需要保持的数据,它可以是中间计算结果、窗口聚合结果或用户自定义的状态信息。键控状态(Keyed State):根据流数据的键值对进行管理的状态,每个键对应一个状态。操作符状态(Operator State):与算子相关的状态,不依赖于键值对,通常用于维护全局的中间结果。列表状态(List State):维护一组元素的状态,可以添加、删除和更新列表中的元素。联合列表状态(Union List State):用于将多个列表状态合并为一个列表状态。

2023-06-02 10:34:55 370

原创 Flink的数据源和数据接收器

Flink的数据源和数据接收器是实现数据流的输入和输出的关键组件。通过选择合适的数据源和数据接收器,可以将外部数据引入到Flink的数据流中进行处理和分析,同时将计算结果传输到外部系统中展示、存储或进一步处理。在下一篇博客中,我们将介绍Flink的状态管理。敬请关注!

2023-06-02 10:23:55 697

原创 Flink简介和核心概念

Apache Flink是一个分布式流处理和批处理框架,具有强大的容错性和低延迟的特性。它是一个开源项目,旨在处理大规模的实时和批量数据,并提供了灵活且易于使用的API和工具,以支持复杂的数据处理任务。本篇博客将为您介绍Flink的起源、其在实时数据处理和批处理中的优势,以及Flink的核心概念。Apache Flink是一个强大的分布式流处理和批处理框架,具有低延迟、容错性、高吞吐量和灵活的API等优势。理解Flink的起源和核心概念对于使用和开发Flink应用程序至关重要。

2023-06-02 08:57:16 800

原创 Hive优化-SQL调优

Hive优化-SQL调优此博客参考了其他博客:hivesql https://www.cnblogs.com/fnlingnzb-learner/p/13087976.html后续还会继续更新和优化优化的根本思想:尽早尽量过滤数据,减少每个阶段的数据量减少job数解决数据倾斜问题尽早尽量过滤数据,减少每个阶段的数据量列裁剪例如某表有a,b,c,d,e五个字段,但是我们只需要a和b,那么请用select a,b from table 而不是select * from table

2021-08-05 17:25:44 325

原创 Hive优化-参数调优

Hive优化-参数调优​ Hive通过将查询划分成一个或多个MapReduce任务达到并行处理的目的。每个任务都可能具有多个mapper和reducer任务,其中至少有一些是可以并行执行的。确定最佳的mapper个数和reducer个数取决于多个变量,例如输入的数据量大小以及对这些数据执行的操作类型等。启用本地模式对于数据量比较小的操作,可以使用本地模式提交任务。因为在这种情况下,集群执行的话为查询发出执行任务的时间消耗可能会比实际job的执行执行时间要多的多#默认是falsehive&gt

2021-08-05 17:21:24 315

原创 Hive导出MySQL中文乱码问题

Hive导出MySQL中文乱码问题刚开始是认为是Hive和MySQL建表的字符集不匹配修改MySQL的字符编码:alter database xxx character set utf8;alter table xxx character set utf8;修改Hive的字符编码;alter database xxx character set utf8;alter table xxx set serdeproperties('serialization.encoding'='utf8

2021-08-05 17:18:20 968

原创 ActiveMQ安装部署

ActiveMQ部署必须先安装JDK并配置好环境变量ActiveMQ安装(Windows)下载ActiveMQ,地址:http://activemq.apache.org/download-archives.html解压后进入bin目录,发现有win32和win64两个文件夹,这2个文件夹分别对应windows32位和windows64位操作系统的启动脚本。选择对应的脚本,启动activemq.bat。ActiveMQ默认启动8161端口,启动完成后在浏览器地址栏输入:http:/

2020-10-13 11:10:37 532

原创 RocketMQ安装部署

RocketMQ安装(Windows)下载RocketMQ,地址:http://rocketmq.apache.org/release_notes/release-notes-4.3.0/选择‘Binary’进行下载,然后解压工程。配置系统环境变量变量名:ROCKETMQ_HOME变量值:MQ解压路径\MQ文件夹名eg:ROCKETMQ_HOME=D:\develop\rocketmq-all-4.3.0-bin-release启动NAMESERVERcmd命令框执行进入至

2020-10-13 11:05:46 1139 2

原创 RabbitMQ安装部署

RabbitMQ它依赖于Erlang,需要先安装 Erlang。首先确定你的 Windows 电脑是 32 位还是 64 位,以下的安装以 Windows 10(64 位)和 CentOS6(64 位)举例。RabbitMQ安装(Windows)安装Erlang下载Erlang,地址:http://www.erlang.org/downloads运行 Erlang/OTP(otp_win64_21.2.exe),一直下一步即可,记住安装位置。配置系统环境变量变量名:ERLANG_

2020-10-13 10:49:20 245 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除