自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(108)
  • 收藏
  • 关注

原创 【Kettle的安装与使用】使用Kettle实现mysql和hive的数据传输(使用Kettle将mysql数据导入hive、将hive数据导入mysql)

Kettle的安装与使用、使用Kettle实现mysql和hive的数据传输(使用Kettle将mysql数据导入hive、将hive数据导入mysql)

2024-10-30 20:34:48 1477 2

原创 Paimon(数据湖框架)概述

Paimon(数据湖框架)概述

2025-02-20 14:05:55 721

原创 Flink中常用物理分区(区别和用法)算子以及Sink(JDBC Connector、Kafka Connector以及自定义Sink)

Flink中常用物理分区(区别和用法)算子以及Sink(JDBC Connector、Kafka Connector以及自定义Sink)

2024-12-10 15:43:09 916

原创 Flink一些常用API的使用(Flink中的Source以及Flink中的一些常用算子)

基于本地集合的source(Collection-based-source)【测试】1.env.fromElements(可变参数);2.env.fromColletion(各种集合);3.env.fromSequence(开始,结束);基于文件的source(File-based-source)env.readTextFile(文件系统路径,包括hdfs路径);基于网络套接字(socketTextStream)【测试】

2024-12-10 15:38:43 680

原创 如何在虚拟机中安装python 和 jupyter,并且启动运行Delta Lake,以及解决一下启动过程中出现的错误(保姆级教程)

如何在虚拟机中安装python 和 jupyter,并且启动运行Delta Lake,以及解决一下启动过程中出现的错误(保姆级教程)

2024-12-02 11:36:02 426

原创 什么是Delta Lake(数据湖框架),以及Delta Lake特性和如何使用

什么是Delta Lake(数据湖框架),以及Delta Lake特性和如何使用

2024-11-29 13:47:43 849 1

原创 数据分析流程中的Lambda架构,以及数据湖基于Hadoop、Spark的实现

数据分析流程中的Lambda架构,以及数据湖基于Hadoop、Spark的实现

2024-11-29 13:37:17 739

原创 数据湖的概念(包含数据中台、数据湖、数据仓库、数据集市的区别)--了解数据湖,这一篇就够了

了解数据湖,这一篇就够了:数据湖的概念(包含数据中台、数据湖、数据仓库、数据集市的区别)

2024-11-27 18:19:46 1550 1

原创 Kafka面试题(五)--内含面试重点

Kafka高频重点面试题

2024-11-27 11:42:08 906

原创 Kafka面试题(四)-- 内含面试重点

Kafka的高频面试题

2024-11-27 11:35:15 946

原创 Kafka面试题(三)-- 内含面试重点

Kafka面试题(三)-- 内含面试重点

2024-11-27 11:25:04 713

原创 Flume和kafka的整合:使用Flume将日志数据抽取到Kafka中

Flume和kafka的整合:使用Flume将日志数据抽取到Kafka中

2024-11-25 18:51:16 941

原创 使用Java代码操作Kafka(五):Kafka消费 offset API,包含指定 Offset 消费以及指定时间消费

Kafka消费 offset API,包含指定 Offset 消费以及指定时间消费

2024-11-25 18:47:33 1214

原创 使用Java代码操作Kafka(四):Kafka消费 offset API,包含消费者自动提交 offset以及手动提交 offset(手动提交包含异步和同步)

Kafka消费 offset API,包含消费者自动提交 offset以及手动提交 offset(手动提交包含异步和同步)

2024-11-25 18:43:46 305

原创 gradle 的安装与配置、gradle 的版本选择

gradle 的安装与配置、gradle 的版本选择

2024-11-23 12:45:39 1697

原创 python如何使用spark操作hive

使用pyspark操作hive

2024-11-22 15:41:49 714

原创 RDD触发算子:collectAsMap以及foreachParition的语法以及举例使用

collectAsMap算子以及foreachParition算子的功能、语法以及举例使用

2024-11-22 15:32:02 531

原创 Flink安装之Standalone集群模式的安装与部署

Flink安装:flink的Standalone集群模式的安装与部署

2024-11-21 11:22:00 1248

原创 flink-1.13.6 的安装包下载 和 flink所需jar包(flink-shaded-hadoop-2-uber-2.7.5-10.0.jar)下载链接

flink-1.13.6 的安装包下载 和 flink所需jar包(flink-shaded-hadoop-2-uber-2.7.5-10.0.jar)下载链接

2024-11-21 11:06:00 324

原创 使用Java代码操作Kafka(三):Kafka消费者 API,包含订阅主题、订阅分区以及消费者组案例

使用Java代码操作Kafka:Kafka消费者 API,包含订阅主题、订阅分区以及消费者组案例

2024-11-20 16:26:01 283

原创 使用Java代码操作Kafka(二):生产者同步发送 API

使用Java代码操作Kafka:生产者同步发送 API,包含生产者发送消息流程,以及同步和异步的区别

2024-11-20 16:21:01 230

原创 使用Java代码操作Kafka(一):生产者异步发送API,包含普通异步发送以及带回调函数的异步发送

Kafka生产者异步发送API,包含普通异步发送以及带回调函数的异步发送(Java版)

2024-11-20 16:14:47 542

原创 RDD触发算子:TopN算子(top算子、takeOrdered算子)

RDD触发算子:TopN算子(top算子、takeOrdered算子)

2024-11-19 09:00:00 172

原创 RDD触发算子:一些常用的触发算子(take、collect、reduce)

RDD触发算子:一些常用的触发算子(take、collect、reduce)

2024-11-18 17:57:25 223

原创 RDD触发算子:一些常用的触发算子(count、foreach、saveAsTextFile、first)

RDD触发算子:一些常用的触发算子(count、foreach、saveAsTextFile、first)

2024-11-18 17:56:08 346

原创 RDD转换算子:join方面的算子(leftOuterJoin、rightOuterJoin、fullOuterJoin)

RDD转换算子:join方面的算子(leftOuterJoin、rightOuterJoin、fullOuterJoin)

2024-11-18 17:46:16 433

原创 pyspark充当Kafka消费者时报错: java.lang.ClassNotFoundException: org.apache.spark.kafka010.KafkaConfigUpdater

pyspark充当Kafka消费者时报错:pyspark.sql.utils.IllegalArgumentException:One of the following options must be specified for Kafka source: subscribe, subscribepattern, assign. See the docs for more details. 的解决方案

2024-11-14 19:29:34 469

原创 pyspark充当Kafka消费者时报错ClassNotFoundException:org.apache.kafka.common.serialization.ByteArraySerializer

pyspark充当Kafka消费者时报错:py4j.protocol.Py4JJavaError: An error occurred while calling o29.load.: java.lang.NoClassDefFoundError: org/apache/kafka/common/serialization/ByteArraySerializer

2024-11-14 19:21:31 224

原创 pyspark充当Kafka消费者时报错:Failed to find data source:Structured Streaming + Kafka Integration Guide

pyspark充当Kafka消费者时报错:pyspark.sql.utils.AnalysisException: Failed to find data source: kafka. Please deploy the application as per the deployment section of "Structured Streaming + Kafka Integration Guide".

2024-11-14 19:12:39 338

原创 Kafka一些常用的命令行操作【包含主题命令、生产者和消费者命令】

Kafka一些常用的命令行操作【包含主题命令、生产者和消费者命令】:kafka-topics.sh、kafka-console-producer.sh、kafka-console-consumer.sh

2024-11-14 14:15:34 1198

原创 Kafka面试题(二)

第一种情况:当kafka应答级别设置为1时(生产者发送过来的数据,Leader收到数据后应答):生产者将数据发送给kafka的Leader,Leader保存成功后,在将数据备份给Follower时挂掉此时Follower的数据没有同步过来就成为了Leader,就会造成消息丢失。2、如果没有指定分区,指定了Key值,那么对Key进行Hash,再对分区数取模后,得到哪个分区,就使用哪个分区。acks=-1,生产者发送过来数据Leader和ISR队列里面所有Follwer应答,可靠性高,效率低;

2024-11-11 18:42:05 390

原创 Kafka面试题(一)

Kafka的设计架构、Kafka消息发送流程、Kafka分区的目的

2024-11-11 18:37:57 590

原创 Kafka集群的安装与部署

Kafka集群的安装与部署

2024-11-08 12:51:53 1401

原创 【Hive sql 面试题】现有用户登录记录表,请查询出用户连续三天登录的所有数据记录(难)

【Hive sql 面试题】现有用户登录记录表,请查询出用户连续三天登录的所有数据记录(难)

2024-11-07 19:58:07 479

原创 【Hive sql 面试题】求出各类型专利top 10申请人,以及对应的专利申请数(难)

【Hive sql 面试题】求出各类型专利top 10申请人,以及对应的专利申请数(难)

2024-11-07 19:05:05 461 1

原创 RDD转换算子:【mapValues、mapPartitions】

RDD转换算子:mapValues、mapPartitions的介绍以及举例使用

2024-11-06 19:16:46 458

原创 RDD转换算子:【keys、values】

RDD转换算子:keys、values的介绍和举例使用

2024-11-06 17:36:04 351

原创 RDD转换算子:重分区算子:【repartition、coalesce】

RDD重分区算子(转换算子):repartition、coalesce的介绍与使用案例

2024-11-05 15:37:30 324

原创 RDD转换算子:排序算子:【sortBy、sortByKey】

RDD排序算子:sortBy,sortByKey的介绍和用法举例

2024-11-05 12:10:41 212

原创 RDD转换算子:分组聚合算子:【groupByKey、 reduceByKey】

RDD转换算子 之 分组聚合算子:groupByKey、 reduceByKey的使用

2024-11-04 19:31:28 393

commons-pools2和spark-token-provider-kafka jar包下载

pyspark充当kafka消费者时报错 :pyspark.sql.utils.IllegalArgumentException:One of the following options must be specified for Kafka source: subscribe, subscribepattern, assign. See the docs for more details. 所缺少的jar包

2024-11-14

kafka-clients-3.0.0.jar

pyspark充当Kafka消费者时报错:py4j.protocol.Py4JJavaError: An error occurred while calling o29.load. : java.lang.NoClassDefFoundError: org/apache/kafka/common/serialization/ByteArraySerializer 所缺少的jar包

2024-11-14

spark-sql-kafka-0-10-2.12-3.1.2.jar

pyspark充当kafka消费者时报错:pyspark.sql.utils.AnalysisException: Failed to find data source: kafka. Please deploy the application as per the deployment section of "Structured Streaming + Kafka Integration Guide". 错误所缺少的jar包

2024-11-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除