hsukk17-优快云博客

原创 Dinky 0.7.3 版本的安装与简单使用

Dinky 是一个开源的流式计算平台，基于 Apache Flink 构建，致力于提供流处理作业的开发、调试、发布、运维一站式服务。它支持 SQL 语法，方便数据开发人员快速上手。在本文中，我们将详细介绍 **Dinky 0.7.3** 版本的安装步骤和简单使用。Dinky 0.7.3 提供了方便的 SQL 流式开发功能，结合 Flink，可以快速实现实时数据处理。通过本教程，你可以快速完成 Dinky 的安装和简单使用。

2024-12-12 11:57:18 1067

原创 Flink 实现超速监控：从 Kafka 读取卡口数据写入 MySQL

通过本文，完整实现了从 Kafka 读取车辆卡口数据，筛选出超速车辆并写入 MySQL 的流程。使用 Flink 和 Kafka 的实时处理能力，可以轻松构建高效的智慧交通系统。处理流数据，可以实时监控车辆通过卡口时的速度，并将超速车辆信息写入数据库供后续分析。在智慧交通项目中，监控车辆是否超速是一个常见的需求。

2024-11-27 20:35:02 1101

原创 Flink 中 JDBC Connector 使用详解

Flink JDBC Connector 是一个简单而高效的工具，适用于实时计算场景下与关系型数据库的交互。无论是数据写入还是读取，都可以通过简单配置快速实现。在实时计算或离线任务中，往往需要与关系型数据库交互，例如 MySQL、PostgreSQL 等。本文将介绍 Flink JDBC Connector 的基础用法、配置方法以及注意事项，帮助开发者更好地集成数据库操作。使用 JDBC Connector 可以实现对数据库的实时写入，也可以用作批量操作的工具。，可以方便地将流式数据写入或读取数据库。

2024-11-27 20:05:57 3403

原创 Flink 热存储维表使用 Guava Cache 减轻访问压力

在实时计算场景中，Flink 应用中经常需要通过维表进行维度数据的关联。为了保证关联的实时性，常将维表数据存储在 Redis 或数据库中。然而，这种方案可能会因高频访问导致存储压力过大，甚至出现性能瓶颈。Guava Cache 本地缓存避免了大量高频查询直接命中外部存储，降低了 Redis、MySQL 等服务的负载。通过在 Flink 中引入 Guava Cache，可以显著降低热存储维表的访问压力，提升系统性能。为了解决这个问题，可以在 Flink 中引入本地缓存。，实现对热存储维表访问的优化。

2024-11-27 19:58:22 1741

原创 Flink Standalone 集群模式安装部署教程

本文将介绍如何在 Linux 环境下部署一个 Flink Standalone 集群，包括安装、配置和启动。本文介绍了如何在 Linux 环境下部署 Flink Standalone 集群，从环境准备、安装配置到集群启动和测试。，可以查看 Flink 的 Flink历史服务器管理界面，及时服务重启，运行过的服务都还在能够访问8082是因为你的历史服务启动着。，可以查看 Flink 的 Web UI 管理界面，监控集群状态和任务运行情况；在 Flink 的 Web 界面中可以查看任务的执行情况。

2024-11-25 20:17:15 1868

原创 String、StringBuffer、StringBuilder的区别

效率低的原因：对于StringBuffer来说更多的考虑到了多线程的情况，在进行字符串操作的时候，它使用了synchronize关键字，对方法进行了同步处理。对于String来说，是把数据存放在了常量池中，因为所有的String，默认都是以常量形式保存，且由final修饰，因此在线程池中它是线程安全的。在进行多线程处理的时候，如果多个线程对于这一个对象同时产生操作，会产生预期之外的结果。我们要创建String的时候，他在常量池中对这些信息进行处理，如果在程序中出现了大量字符串拼接的工作，效率是非常底下的。

2024-11-25 09:25:37 579

原创 JAVA面试题

1、hashmap的底层设计原理以及扩容规则，是否线程安全，如何线程安全。2、八大基本数据类型以及长度。3、多线程创建四种方式，以及callable和runnable的区别，如何获取返回值

2024-11-21 20:40:26 504

原创解决 redis.exceptions.ReadOnlyError: You can‘t write against a read only replica 问题

错误通常是由于写操作指向了只读的从节点引起的。为了解决这个问题，必须确保写操作只在主节点进行。如果你的系统中使用了 Redis 集群或负载均衡，建议使用支持主从切换的客户端库来确保高可用性和正确性。

2024-11-18 20:33:39 5940

原创 Kafka Offset 自动提交和手动提交 - 漏消费与重复消费

在 Kafka 中，配置项决定是否开启自动提交。当设置为true时，Kafka Consumer 会定期（由配置项指定的时间间隔）自动提交当前的 Offset。自动提交的优点是实现简单，使用方便，但缺点是可能会导致漏消费或重复消费的问题。

2024-11-18 10:47:09 2040 1

原创 Kafka Eagle 安装教程

Kafka Eagle 是一款开源的 Kafka 管理和监控工具，可以帮助用户管理 Kafka 集群、监控集群状态、管理 Topic、消费组等信息。本文将详细介绍如何在 Linux 系统上安装和配置 Kafka Eagle。

2024-11-11 20:15:38 1593

原创 Kafka 安装教程

Kafka 是一种高性能、分布式的消息队列系统，广泛应用于大数据实时处理场景中。本文将详细介绍如何在 Linux 环境中安装和配置 Kafka，希望对初学者有所帮助。至此，我们成功在 Linux 系统上安装并配置了 Kafka，并进行了简单的消息收发测试。

2024-11-11 19:40:11 1686

原创 Hive 查询用户连续三天登录的所有记录

本文将介绍如何使用 Hive SQL 查询出用户连续三天登录的记录。我们将通过一个示例表 user_log 来说明实现步骤，包括如何拆分数据、判断连续性、以及最终生成符合条件的完整结果。

2024-11-07 20:20:23 1477

原创 Hive 查询各类型专利 Top 10 申请人及对应的专利申请数

通过本文，我们学习了如何使用 Hive 的 SQL 来拆分多值字段并进行分组统计和排名。该方法适用于类似包含多值字段的分析需求，能够帮助我们快速得到各类型专利的 Top 10 申请人，为数据分析和决策提供支持。

2024-11-07 19:57:50 1006

原创 MySQL 批量删除海量数据的几种方法

可以将批量删除逻辑封装成存储过程，利用存储过程自动控制批量删除过程。方法适用场景优点缺点LIMIT分批删除需要简单分批删除逻辑简单，减少锁表时间需循环操作主键范围分批删除有连续主键的表高效，无偏移开销需手动指定范围自定义批量删除存储过程小批量删除自动化操作需要数据库支持存储过程临时表替换删除数据量非常大避免锁表，减少日志开销需要额外磁盘空间根据不同的业务场景和需求，选择合适的批量删除方式可以提高 MySQL 的删除效率，减少对数据库的影响。

2024-11-06 20:13:06 7041

原创在 Hive SQL 中判断字段是否包含指定字符串的几种方法

在SQL中，判断一个字段是否包含特定数据的方法有很多，常见的方式有LIKE、IN、FIND_IN_SET（MySQL）等。

2024-11-05 10:32:57 2239

原创 PySpark Yarn集群模式

随着大数据的普及，Spark作为主流的分布式计算框架，在大数据处理中扮演着重要角色。YARN（Yet Another Resource Negotiator）作为资源调度和管理框架，与Spark结合后可以更好地管理和调度资源。本篇文章将详细介绍如何在YARN集群模式下运行PySpark应用程序，适合有一定Spark基础的开发者。PySpark是Spark的Python API，支持使用Python编写代码并提交到Spark集群运行。

2024-11-04 16:03:38 1643

原创 group by | order by| distribute by| sort by| cluster by | partition by 的区别

partition by 出镜率挺高，首先和group by 相比，它经常和开窗函数配合使用，和 distribute by 相比，它的使用频率高，一般可以替换，但是partition by 经常和 order by 一起使用，而distribute by 和 sort by 搭班使用。cluster by 是distribute by + sort by的复合操作，就是说当开窗函数中分组字段和排序字段是一个字段时，可以直接使用cluster by。）也是和开窗函数一起使用的。

2024-11-03 22:33:42 1016

原创 PySpark Standalone 集群部署教程

以下是关于如何在Standalone模式下部署Apache Spark集群的教程

2024-10-31 13:42:01 1209

原创 PySpark单机模式安装教程

至此，您已经成功在单机模式下安装并运行了Spark。这种模式适合小规模数据处理和学习实验。对于更高的性能需求，建议使用集群模式。

2024-10-31 12:05:59 1942

原创一文搞懂常见的加密算法

加密算法在互联网技术领域中几乎是无处不在，而密码学也是网络安全的重要基础，这篇文章我们就一起来学习下常见的加密算法。

2024-10-31 06:00:00 1188

原创案例—扑克牌（Python）

模拟一个斗地主发牌程序，使用Python实现对三个玩家进行手牌的派发。

2024-10-22 12:09:43 808

原创 finebi的20个面试题

1. 可以用来导出数据库明细的报表是哪个图表？2. FineBI的参数样式是什么？3. 模板单元格中，左侧下方有黄色三角形，表示什么意思？4. 模板页面已经引用数据集ds1的字段内容，后面将ds1名字改成ds2，模板主体内容会自动变成引用ds2。 (判断题)5. 制作多层饼图用哪个图表？6. 创建自助数据集左右合并有几种方式？(多选题)7. 以下哪个属于决策报表的预览方式？8. 以下哪些能作为时间过滤组件筛选数据？(多选题)9. JavaScript脚本可在以下哪些情况中使用？(多选题)

2024-10-13 18:08:15 826

原创 ETLCloud 在 Linux 上的安装与使用指南

ETLCloud 是一个开源的大数据集成平台，专注于数据的提取、转换、加载（ETL）过程。本文将详细介绍如何在 Linux 环境下安装 ETLCloud，并演示一些简单的使用方法，包括数据源管理、作业创建和任务调度。通过 ETLCloud，用户可以轻松创建和管理 ETL 作业任务、工作流，实现从数据源到目标系统的数据迁移、清洗和转换，支持多种数据源和调度机制，适用于复杂的大数据集成项目。

2024-10-08 10:08:33 1954

原创 DolphinScheduler 无法创建租户问题的原因分析与解决方案

DolphinScheduler 无法创建租户的问题通常由权限、数据库配置或版本不兼容等原因引起。通过排查用户权限、配置文件、数据库表结构和日志，可以定位问题并采取相应的措施解决。如果使用的是较老版本的 DolphinScheduler，建议升级到最新的稳定版本。如果使用的版本较旧，可能存在 Bug 导致无法创建租户。DolphinScheduler 的配置文件中可能存在错误配置，特别是与租户管理相关的配置项未正确启用或配置错误。如果表已经存在，但数据无法写入，可以检查数据库日志是否存在相关的错误。

2024-09-25 12:07:55 2298

原创解决 Sqoop 导入 Hive 时时间字段精度丢失问题

在 Sqoop 导入数据时，可以指定 Hive 中的目标表字段类型。例如，可以在 Sqoop 导入时明确将 MySQL 的。通过正确处理时间字段类型映射，可以避免 Hive 中精度丢失的问题，从而确保导入的数据精确和可用。参数指定字段的类型映射，强制 MySQL 的。：可以在 Sqoop 命令中使用。类型，这样可以保留完整的时间信息。字段转换为 Hive 支持的。字段映射为 Hive 中的。

2024-09-24 20:42:12 1264

原创数仓项目环境搭建

搭建数仓项目环境涉及多个组件和工具的安装与配置，每个步骤都至关重要。本文介绍了从JDK安装、Hadoop、Hive的搭建，到数据采集工具Flume、数据同步工具DataX以及调度工具DS的完整流程。通过这些工具的协同工作，可以实现高效稳定的数据仓库环境。

2024-09-18 11:39:25 1648 1

原创 Redis 集群搭建教程

Redis 集群是一种去中心化的架构，每个节点既可以作为主节点（Master），也可以有对应的从节点（Slave）。通过哈希槽（Hash Slot）机制，Redis 集群将数据分片存储在不同的主节点上，实现分布式存储和负载均衡。数据分片：数据通过哈希槽自动分配到不同的节点。高可用性：当主节点发生故障时，集群会自动提升对应的从节点为新的主节点，保证服务持续可用。去中心化架构：Redis 集群中没有单点故障，每个节点相互通讯，共同维护集群状态。

2024-09-14 11:26:55 1733 1

原创 Redis 哨兵模式配置教程

Redis 哨兵模式通过提供自动监控和故障转移机制，实现了 Redis 集群的高可用性。通过部署多个哨兵节点和主从复制，系统能够有效应对主节点的故障并自动恢复，减少人工干预。

2024-09-14 11:09:26 2253

原创 Redis 主从复制配置教程

Redis 主从复制（Master-Slave Replication）允许一个 Redis 实例作为主节点（Master），多个 Redis 实例作为从节点（Slave），从节点会自动同步主节点的数据，并在主节点发生写操作时实时更新。主节点：处理所有写操作，数据变更会同步到从节点。从节点：接收并同步主节点的所有数据，处理只读请求。

2024-09-14 11:03:08 1217

原创 Redis 5.0.4 安装教程

Redis 是一个高性能的键值对存储系统。

2024-09-14 10:55:25 1210

原创 Windows中Kettle常见报错及解决方法总结

Kettle在Windows环境下广泛使用，但可能会因为系统配置、权限问题或作业配置不当而遇到各种错误。本文总结了一些常见的错误及解决方法，希望能帮助用户快速排查和解决问题。

2024-09-12 19:41:35 5458

原创 Redis常见报错及解决方法总结

Redis作为高效的内存数据库，在实际使用过程中不可避免会遇到一些问题和报错。为了帮助大家更好地应对这些问题，我将常见的Redis报错及其解决方法进行总结，并提供具体的操作步骤。Redis在高性能、高并发场景下广泛使用，但在实际运行过程中也可能遇到各种问题。通过本文对常见报错的详细解析和解决方案的提供，希望可以帮助开发者在遇到这些问题时，快速排查并解决故障，确保Redis服务的稳定运行。

2024-09-12 18:53:11 5832

原创 Kettle（PDI）安装及入门教程

Kettle，全称为Pentaho Data Integration（PDI），是一款开源的ETL工具。它能够轻松地从各种数据源抽取、转换和加载数据，帮助用户高效处理复杂的数据集成任务。启动Kettle后，进入主界面。工具栏：包含了常用功能，如新建转换、作业、保存、运行等。资源库：用来管理项目中的各种资源，如转换、作业等。设计面板：设计数据转换逻辑的主要区域。日志面板：显示运行过程中产生的日志信息。Kettle作为一款功能强大的ETL工具，能够帮助我们轻松完成复杂的数据集成任务。

2024-09-11 16:00:00 1863

原创 Hadoop-HDFS安装及分布式集群搭建详解

本文介绍了如何在Linux环境下安装Hadoop HDFS，并进行了简单的单节点和多节点分布式集群搭建。通过配置Hadoop的核心文件、格式化NameNode、启动HDFS集群，我们可以顺利搭建一个高可用、高容错的HDFS分布式文件系统。HDFS是Hadoop生态系统的基石，熟练掌握其安装及配置是大数据处理的基础。

2024-09-11 06:00:00 3273

原创 Linux自定义实用脚本

需要有一个服务rsync，在所有的分发的电脑上安装 rsync。（赋权限：chmod u+x xsync.sh）集群文件分发脚本（scp -r 文件或者文件夹 root@主机名:/路径）(所有的自定义的脚本文件，存放在/usr/local/bin 下面)命令同步执行脚本（赋权限：chmod u+x xcall.sh）查看整个集群的服务启动情况。

2024-09-10 16:00:00 533

原创 SQL笔试题

题目 1：输出一张搞笑品类 dws 表，用于分析作者近 3 条视频情况：输出每个视频创建者 user_id 最近发布的 3 个视频，在过去一周内的曝光，点赞总数；需要产出字段：视频创建者 user_id，曝光用户数，点赞用户数，曝光次数、点赞次数

2024-09-10 11:27:45 524

原创 DolphinScheduler：大数据任务调度利器

在大数据场景中，任务调度器是必不可少的工具，用于协调多个数据处理任务的执行顺序、调度时间和依赖关系。是 Apache 开源的一款分布式、大数据任务调度系统，致力于解决复杂的任务依赖管理，并提供简单易用的可视化操作界面。本文将介绍 DolphinScheduler 的主要特性、架构以及使用场景。DolphinScheduler 作为 Apache 旗下的开源项目，凭借其强大的任务调度能力、友好的可视化操作界面以及分布式架构，在大数据任务调度领域有着广泛的应用。

2024-09-09 20:16:09 1544

原创 Kettle 数据集成工具简介及应用场景

Kettle 是一款开源的 ETL（Extract, Transform, Load）工具，主要用于数据集成。Kettle 全称为，由 Pentaho 公司开发。其主要功能是将数据从不同的数据源抽取出来，经过转换后再加载到目标数据库中。Kettle 提供了丰富的图形化界面和可视化设计工具，可以极大简化数据处理流程。Spoon：用于图形化设计数据处理流程。Pan：用于执行通过 Spoon 设计的转换任务。Kitchen：用于调度和执行 Spoon 设计的作业。Carte。

2024-09-09 19:44:26 695

原创 Sqoop 使用过程中的常见报错及解决方案

Sqoop 是一个用来在 Hadoop 和关系型数据库（如 MySQL、PostgreSQL、Oracle）之间传输数据的工具。在使用 Sqoop 进行数据导入或导出时，常常会遇到各种错误。在使用 Sqoop 的过程中，常见的报错大多与数据库连接、权限配置、HDFS 目标目录和内存不足等问题相关。检查 Sqoop 命令中的参数是否完整，尤其是数据库连接信息和目标目录等关键参数。Sqoop 在导入数据时发现 HDFS 目标目录已经存在，无法覆盖已有数据。2. 确保 Sqoop 命令中的表名拼写正确。

2024-09-08 19:00:00 2543

原创 Flume 使用过程中的常见报错及解决方案

Apache Flume 是一个分布式、可靠且高度可用的服务，用于有效地从多个数据源收集、聚合和传输大量数据。在使用 Flume 的过程中，可能会遇到各种错误，比如连接问题、权限问题、配置错误等。本文将分享 Flume 使用中的一些常见报错及其解决方案。

2024-09-08 14:16:05 1973

空空如也

空空如也