ShyGlow-优快云博客

原创 Spark算子

简介Spark 算子大致可以分为以下两类:Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会真正触发运算。Action 行动算子：这类算子会触发 SparkContext 提交 Job 作业。Action 算子会触发 Spark 提交作业（Job），并将数据输出 Spark系统。

2020-07-01 11:02:47 4452

转载十大排序算法

十大排序算法冒泡排序算法描述：比较相邻的元素。如果第一个比第二个大，就交换数据。对每一对相邻元素作同样的工作，从开始第一对到结尾的最后一对。这步做完后，最后的元素会是最大的数。针对所有的元素重复以上的步骤，除了最后一个。持续每次对越来越少的元素重复上面的步骤，直到没有任何一对数字需要比较。动图演示：Java代码：public class BubbleSort impl...

2019-12-09 10:59:51 140

原创 Flink 如何处理离线数据关联（例如和离线数据的关联）

在asyncInvoke方法中，我们通过订单中的productId从缓存中获取对应的产品信息，并将产品名称关联到订单数据中。在processElement方法中，我们通过订单的productId从状态中获取离线数据，并将其关联到订单中。这些案例展示了在Flink中处理离线数据关联的不同方法，您可以根据实际情况选择最适合您的场景的方法，并根据需求进行相应的调优和扩展。步骤1：在任务的Open方法中读取离线的产品信息，并将其存储在本地状态中。步骤3：将关联后的订单流进行后续处理，例如计算、过滤或输出等操作。

2023-06-29 09:49:25 836

原创 Flink的窗口操作和时间处理

Flink作为一个流处理框架，提供了强大的窗口操作和时间处理功能，能够对无限数据流进行有限范围的计算和聚合。本篇博客将介绍Flink的窗口操作和时间处理的概念和用法。

2023-06-07 18:00:00 489

原创 Flink的容错机制

Flink的容错机制是保证数据处理正确性和一致性的关键组成部分。通过配置检查点、选择适当的容错语义和状态后端，以及灵活的容错策略，Flink能够在发生故障时保证流处理的可靠性和高可用性。在下一篇博客中，我们将讨论Flink的窗口操作和时间处理，敬请关注！

2023-06-07 09:00:00 296

原创 CDP集群中的Flink：安装和配置

CDP（Cloudera Data Platform）是一种现代化的数据管理和分析平台，而Flink是CDP生态系统中的关键组件之一，用于实时流处理和批处理。在本系列博客中，我们将探讨Flink在CDP集群中的安装、配置和升级。在之前的博客中，我们已经介绍了Flink的简介和核心概念，包括流式处理框架、事件、作业、数据流、窗口、状态和检查点等。如果您还没有阅读相关内容，请参考博客1：Flink简介和核心概念。

2023-06-03 09:00:00 681

原创 Flink的数据处理模型

Flink的数据处理模型基于流式计算，通过事件时间和处理时间对数据流进行处理。它提供了丰富的转换和计算操作符，支持窗口操作和状态管理，同时提供了容错性和一致性保证的机制。这使得Flink成为一个强大而灵活的数据处理框架，可用于实时分析、流式处理和批处理等场景。在下一篇博客中，我们将深入探讨Flink的窗口操作和状态管理机制。敬请关注！

2023-06-02 10:50:57 755

原创 Flink的流处理与批处理的融合

Flink的流处理与批处理的融合使得用户可以使用统一的编程模型和API来处理无界流和有界数据集。通过将批处理作业转换为流处理作业，并应用批处理优化策略，Flink实现了高效和灵活的数据处理和计算能力。

2023-06-02 10:50:14 510

原创 Flink的状态管理

状态是指在流处理过程中需要保持的数据，它可以是中间计算结果、窗口聚合结果或用户自定义的状态信息。键控状态（Keyed State）：根据流数据的键值对进行管理的状态，每个键对应一个状态。操作符状态（Operator State）：与算子相关的状态，不依赖于键值对，通常用于维护全局的中间结果。列表状态（List State）：维护一组元素的状态，可以添加、删除和更新列表中的元素。联合列表状态（Union List State）：用于将多个列表状态合并为一个列表状态。

2023-06-02 10:34:55 370

原创 Flink的数据源和数据接收器

Flink的数据源和数据接收器是实现数据流的输入和输出的关键组件。通过选择合适的数据源和数据接收器，可以将外部数据引入到Flink的数据流中进行处理和分析，同时将计算结果传输到外部系统中展示、存储或进一步处理。在下一篇博客中，我们将介绍Flink的状态管理。敬请关注！

2023-06-02 10:23:55 697

原创 Flink简介和核心概念

Apache Flink是一个分布式流处理和批处理框架，具有强大的容错性和低延迟的特性。它是一个开源项目，旨在处理大规模的实时和批量数据，并提供了灵活且易于使用的API和工具，以支持复杂的数据处理任务。本篇博客将为您介绍Flink的起源、其在实时数据处理和批处理中的优势，以及Flink的核心概念。Apache Flink是一个强大的分布式流处理和批处理框架，具有低延迟、容错性、高吞吐量和灵活的API等优势。理解Flink的起源和核心概念对于使用和开发Flink应用程序至关重要。

2023-06-02 08:57:16 800

原创 Hive优化-SQL调优

Hive优化-SQL调优此博客参考了其他博客：hivesql https://www.cnblogs.com/fnlingnzb-learner/p/13087976.html后续还会继续更新和优化优化的根本思想：尽早尽量过滤数据，减少每个阶段的数据量减少job数解决数据倾斜问题尽早尽量过滤数据，减少每个阶段的数据量列裁剪例如某表有a,b,c,d,e五个字段，但是我们只需要a和b，那么请用select a,b from table 而不是select * from table

2021-08-05 17:25:44 325

原创 Hive优化-参数调优

Hive优化-参数调优 Hive通过将查询划分成一个或多个MapReduce任务达到并行处理的目的。每个任务都可能具有多个mapper和reducer任务，其中至少有一些是可以并行执行的。确定最佳的mapper个数和reducer个数取决于多个变量，例如输入的数据量大小以及对这些数据执行的操作类型等。启用本地模式对于数据量比较小的操作，可以使用本地模式提交任务。因为在这种情况下，集群执行的话为查询发出执行任务的时间消耗可能会比实际job的执行执行时间要多的多#默认是falsehive&gt

2021-08-05 17:21:24 315

原创 Hive导出MySQL中文乱码问题

Hive导出MySQL中文乱码问题刚开始是认为是Hive和MySQL建表的字符集不匹配修改MySQL的字符编码：alter database xxx character set utf8；alter table xxx character set utf8；修改Hive的字符编码；alter database xxx character set utf8;alter table xxx set serdeproperties('serialization.encoding'='utf8

2021-08-05 17:18:20 968

原创 ActiveMQ安装部署

ActiveMQ部署必须先安装JDK并配置好环境变量ActiveMQ安装(Windows)下载ActiveMQ，地址：http://activemq.apache.org/download-archives.html解压后进入bin目录，发现有win32和win64两个文件夹，这2个文件夹分别对应windows32位和windows64位操作系统的启动脚本。选择对应的脚本，启动activemq.bat。ActiveMQ默认启动8161端口，启动完成后在浏览器地址栏输入：http:/

2020-10-13 11:10:37 532

原创 RocketMQ安装部署

RocketMQ安装(Windows)下载RocketMQ，地址：http://rocketmq.apache.org/release_notes/release-notes-4.3.0/选择‘Binary’进行下载，然后解压工程。配置系统环境变量变量名：ROCKETMQ_HOME变量值：MQ解压路径\MQ文件夹名eg：ROCKETMQ_HOME=D:\develop\rocketmq-all-4.3.0-bin-release启动NAMESERVERcmd命令框执行进入至

2020-10-13 11:05:46 1139 2

原创 RabbitMQ安装部署

RabbitMQ它依赖于Erlang,需要先安装 Erlang。首先确定你的 Windows 电脑是 32 位还是 64 位，以下的安装以 Windows 10(64 位)和 CentOS6(64 位)举例。RabbitMQ安装(Windows)安装Erlang下载Erlang，地址：http://www.erlang.org/downloads运行 Erlang/OTP（otp_win64_21.2.exe）,一直下一步即可，记住安装位置。配置系统环境变量变量名：ERLANG_

2020-10-13 10:49:20 245 1

止于终老的博客