自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 【Flink】普通 API 的使用

Apache Flink 是一个分布式流处理框架,用于处理实时数据流。数据流处理被划分为三个主要阶段:Source、Transformation和Sink。这三个阶段共同构成了Flink程序的基本结构,使得数据流能够从源头被读取、经过一系列转换处理,并最终输出到目标系统。

2024-12-10 19:32:35 806

原创 【Kafka】命令大全操作系统

【代码】【Kafka】命令大全操作系统。

2024-12-01 19:26:00 388

原创 【Kafka】Kafka-Eagle 和 Kafka-UI 的安装使用

Kafka Eagle 提供了完善的管理页面,可以监控 Kafka 集群的整体运行情况,很方便的去管理和可视化 Kafka 集群的一些信息,例如 Broker 详情、性能指标趋势、Topic 集合、消费者信息等,在生产环境中经常使用。

2024-11-30 20:07:38 1717 1

原创 【Flink】集群环境下的搭建(Standalone 模式)

Flink是目前开源社区中唯一一套集高吞吐、低延迟、高性能三者于一身的分布式流式数据处理框架,支持多种安装部署模式。主要包括以下几种‌1‌.Standalone 模式‌:这是独立运行的模式,不依赖任何外部的资源管理平台,只需要运行所有Flink组件服务。这种模式适合开发和测试环境‌。2‌.YARN 模式。

2024-11-28 20:59:52 1474 1

原创 【PySpark】本地开发环境的搭建

在 Windows 上可以利用 Py4j 库来让 Python 程序调用 Spark 的 Java 接口来运行 PySpark 进行开发,下面我们来梳理一下这个过程。

2024-11-23 17:34:21 1089

原创 【Spark】Exception: Java gateway process exited before sending its port number

1. 检查服务器上的配置文件没有问题;2. 检查本地 Windows 上 Anaconda 的安装没有问题;3. 检查 Anaconda 中 PySpark 的安装没有问题;4. 检查 Pycharm 创建项目时的环境选择没有问题;5. 检查 PySpark 代码没有问题。

2024-11-13 20:48:41 649

原创 【Spark】集群环境下的搭建(Yarn 模式)

Spark有五种运行模式‌,分别是Local模式、Standalone模式、YARN模式、Mesos模式和Kubernetes模式‌。Local 模式(本地)Local模式是Spark运行在本地机器上,利用本地资源进行计算。这种模式通常用于测试和调试,因为它不需要其他节点资源,适合在开发环境中使用‌。Standalone 模式(集群)Standalone模式是Spark自带的资源调度系统,支持完全分布式。在这种模式下,Spark有自己的Master和Worker节点,负责资源的调度和管理。

2024-11-12 20:49:33 1521

原创 【Spark】集群环境下的搭建(Standalone 模式)

Spark有五种运行模式‌,分别是Local模式、Standalone模式、YARN模式、Mesos模式和Kubernetes模式‌。Local 模式(本地)Local模式是Spark运行在本地机器上,利用本地资源进行计算。这种模式通常用于测试和调试,因为它不需要其他节点资源,适合在开发环境中使用‌。Standalone 模式(集群)Standalone模式是Spark自带的资源调度系统,支持完全分布式。在这种模式下,Spark有自己的Master和Worker节点,负责资源的调度和管理。

2024-11-09 17:44:59 1315

原创 【Spark】本地环境下的搭建(单机模式)

Spark有五种运行模式‌,分别是Local模式、Standalone模式、YARN模式、Mesos模式和Kubernetes模式‌。Local 模式(本地)Local模式是Spark运行在本地机器上,利用本地资源进行计算。这种模式通常用于测试和调试,因为它不需要其他节点资源,适合在开发环境中使用‌。Standalone 模式(集群)Standalone模式是Spark自带的资源调度系统,支持完全分布式。在这种模式下,Spark有自己的Master和Worker节点,负责资源的调度和管理。

2024-11-09 11:49:43 1868

原创 【Kafka】集群安装部署

Kafka是由Apache软件基金会开发的开源流处理平台最初由LinkedIn(领英)公司发布,使用Scala语言编写,于2010年12月份开源,成为Apache的顶级项目,Kafka是一个高吞吐量的、持久性的、分布式发布订阅消息系统‌,能够处理活跃live的所有动作流数据,如网页浏览、搜索等,作为消息队列中间件,在分布式系统中扮演着重要角色,通过异步处理提高系统性能,降低系统耦合性,实现系统解耦和流量削峰填谷‌。在大数据技术中,Kafka属于实时计算架构中的一员悍将!

2024-11-08 13:53:40 853

原创 【Hive SQL】如何判断一个字段是否包含某个特定的值

在Hive SQL中,如果你需要判断一个字段是否包含某个特定的值,你可以使用 LIKE或 RLIKE关键字来进行字符串匹配。此外,Hive也支持一些字符串函数,如 INSTR和 LOCATE,这些都可以用于不同的需求场景。

2024-11-07 16:26:29 1108

原创 WARN hive.TableDefWriter: Column your_column had to be cast to a less precise type in Hive

在导入数据之前,先在Hive中创建好表结构,并明确指定每个列的数据类型,这样可以确保数据的精度和完整性得到保护。

2024-09-25 16:25:28 550 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除