lzhlizihang-优快云博客

原创【Kettle的安装与使用】使用Kettle实现mysql和hive的数据传输（使用Kettle将mysql数据导入hive、将hive数据导入mysql）

Kettle的安装与使用、使用Kettle实现mysql和hive的数据传输（使用Kettle将mysql数据导入hive、将hive数据导入mysql）

2024-10-30 20:34:48 1566 2

原创 Paimon（数据湖框架）概述

Paimon（数据湖框架）概述

2025-02-20 14:05:55 1516

原创 Flink中常用物理分区（区别和用法）算子以及Sink（JDBC Connector、Kafka Connector以及自定义Sink）

Flink中常用物理分区（区别和用法）算子以及Sink（JDBC Connector、Kafka Connector以及自定义Sink）

2024-12-10 15:43:09 1055

原创 Flink一些常用API的使用（Flink中的Source以及Flink中的一些常用算子）

基于本地集合的source（Collection-based-source）【测试】1.env.fromElements(可变参数);2.env.fromColletion(各种集合);3.env.fromSequence(开始,结束);基于文件的source（File-based-source）env.readTextFile(文件系统路径，包括hdfs路径);基于网络套接字（socketTextStream）【测试】

2024-12-10 15:38:43 734

原创如何在虚拟机中安装python 和 jupyter，并且启动运行Delta Lake，以及解决一下启动过程中出现的错误（保姆级教程）

如何在虚拟机中安装python 和 jupyter，并且启动运行Delta Lake，以及解决一下启动过程中出现的错误（保姆级教程）

2024-12-02 11:36:02 516

原创什么是Delta Lake（数据湖框架），以及Delta Lake特性和如何使用

什么是Delta Lake（数据湖框架），以及Delta Lake特性和如何使用

2024-11-29 13:47:43 1028 1

原创数据分析流程中的Lambda架构，以及数据湖基于Hadoop、Spark的实现

数据分析流程中的Lambda架构，以及数据湖基于Hadoop、Spark的实现

2024-11-29 13:37:17 858

原创数据湖的概念（包含数据中台、数据湖、数据仓库、数据集市的区别）--了解数据湖，这一篇就够了

了解数据湖，这一篇就够了：数据湖的概念（包含数据中台、数据湖、数据仓库、数据集市的区别）

2024-11-27 18:19:46 1673 1

原创 Kafka面试题（五）--内含面试重点

Kafka高频重点面试题

2024-11-27 11:42:08 946

原创 Kafka面试题（四）-- 内含面试重点

Kafka的高频面试题

2024-11-27 11:35:15 967

原创 Kafka面试题（三）-- 内含面试重点

Kafka面试题（三）-- 内含面试重点

2024-11-27 11:25:04 754

原创 Flume和kafka的整合：使用Flume将日志数据抽取到Kafka中

Flume和kafka的整合：使用Flume将日志数据抽取到Kafka中

2024-11-25 18:51:16 1054

原创使用Java代码操作Kafka（五）：Kafka消费 offset API，包含指定 Offset 消费以及指定时间消费

Kafka消费 offset API，包含指定 Offset 消费以及指定时间消费

2024-11-25 18:47:33 1432

原创使用Java代码操作Kafka（四）：Kafka消费 offset API，包含消费者自动提交 offset以及手动提交 offset（手动提交包含异步和同步）

Kafka消费 offset API，包含消费者自动提交 offset以及手动提交 offset（手动提交包含异步和同步）

2024-11-25 18:43:46 437

原创 gradle 的安装与配置、gradle 的版本选择

gradle 的安装与配置、gradle 的版本选择

2024-11-23 12:45:39 2566

原创 python如何使用spark操作hive

使用pyspark操作hive

2024-11-22 15:41:49 836

原创 RDD触发算子：collectAsMap以及foreachParition的语法以及举例使用

collectAsMap算子以及foreachParition算子的功能、语法以及举例使用

2024-11-22 15:32:02 564

原创 Flink安装之Standalone集群模式的安装与部署

Flink安装：flink的Standalone集群模式的安装与部署

2024-11-21 11:22:00 1306

原创 flink-1.13.6 的安装包下载和 flink所需jar包（flink-shaded-hadoop-2-uber-2.7.5-10.0.jar）下载链接

flink-1.13.6 的安装包下载和 flink所需jar包（flink-shaded-hadoop-2-uber-2.7.5-10.0.jar）下载链接

2024-11-21 11:06:00 438

原创使用Java代码操作Kafka（三）：Kafka消费者 API，包含订阅主题、订阅分区以及消费者组案例

使用Java代码操作Kafka：Kafka消费者 API，包含订阅主题、订阅分区以及消费者组案例

2024-11-20 16:26:01 357

原创使用Java代码操作Kafka（二）：生产者同步发送 API

使用Java代码操作Kafka：生产者同步发送 API，包含生产者发送消息流程，以及同步和异步的区别

2024-11-20 16:21:01 277

原创使用Java代码操作Kafka（一）：生产者异步发送API，包含普通异步发送以及带回调函数的异步发送

Kafka生产者异步发送API，包含普通异步发送以及带回调函数的异步发送（Java版）

2024-11-20 16:14:47 617

原创 RDD触发算子：TopN算子（top算子、takeOrdered算子）

RDD触发算子：TopN算子（top算子、takeOrdered算子）

2024-11-19 09:00:00 195

原创 RDD触发算子：一些常用的触发算子（take、collect、reduce）

RDD触发算子：一些常用的触发算子（take、collect、reduce）

2024-11-18 17:57:25 292

原创 RDD触发算子：一些常用的触发算子（count、foreach、saveAsTextFile、first）

RDD触发算子：一些常用的触发算子（count、foreach、saveAsTextFile、first）

2024-11-18 17:56:08 366

原创 RDD转换算子：join方面的算子（leftOuterJoin、rightOuterJoin、fullOuterJoin）

RDD转换算子：join方面的算子（leftOuterJoin、rightOuterJoin、fullOuterJoin）

2024-11-18 17:46:16 467

原创 pyspark充当Kafka消费者时报错： java.lang.ClassNotFoundException: org.apache.spark.kafka010.KafkaConfigUpdater

pyspark充当Kafka消费者时报错：pyspark.sql.utils.IllegalArgumentException:One of the following options must be specified for Kafka source: subscribe, subscribepattern, assign. See the docs for more details. 的解决方案

2024-11-14 19:29:34 572

原创 pyspark充当Kafka消费者时报错ClassNotFoundException：org.apache.kafka.common.serialization.ByteArraySerializer

pyspark充当Kafka消费者时报错：py4j.protocol.Py4JJavaError: An error occurred while calling o29.load.: java.lang.NoClassDefFoundError: org/apache/kafka/common/serialization/ByteArraySerializer

2024-11-14 19:21:31 305

原创 pyspark充当Kafka消费者时报错：Failed to find data source:Structured Streaming + Kafka Integration Guide

pyspark充当Kafka消费者时报错：pyspark.sql.utils.AnalysisException: Failed to find data source: kafka. Please deploy the application as per the deployment section of "Structured Streaming + Kafka Integration Guide".

2024-11-14 19:12:39 467

原创 Kafka一些常用的命令行操作【包含主题命令、生产者和消费者命令】

Kafka一些常用的命令行操作【包含主题命令、生产者和消费者命令】：kafka-topics.sh、kafka-console-producer.sh、kafka-console-consumer.sh

2024-11-14 14:15:34 1280

原创 Kafka面试题（二）

第一种情况：当kafka应答级别设置为1时（生产者发送过来的数据，Leader收到数据后应答）：生产者将数据发送给kafka的Leader，Leader保存成功后，在将数据备份给Follower时挂掉此时Follower的数据没有同步过来就成为了Leader，就会造成消息丢失。2、如果没有指定分区，指定了Key值，那么对Key进行Hash，再对分区数取模后，得到哪个分区，就使用哪个分区。acks=-1，生产者发送过来数据Leader和ISR队列里面所有Follwer应答，可靠性高，效率低；

2024-11-11 18:42:05 409

原创 Kafka面试题（一）

Kafka的设计架构、Kafka消息发送流程、Kafka分区的目的

2024-11-11 18:37:57 619

原创 Kafka集群的安装与部署

Kafka集群的安装与部署

2024-11-08 12:51:53 1559

原创【Hive sql 面试题】现有用户登录记录表，请查询出用户连续三天登录的所有数据记录（难）

【Hive sql 面试题】现有用户登录记录表，请查询出用户连续三天登录的所有数据记录（难）

2024-11-07 19:58:07 525

原创【Hive sql 面试题】求出各类型专利top 10申请人，以及对应的专利申请数（难）

【Hive sql 面试题】求出各类型专利top 10申请人，以及对应的专利申请数（难）

2024-11-07 19:05:05 505 1

原创 RDD转换算子：【mapValues、mapPartitions】

RDD转换算子：mapValues、mapPartitions的介绍以及举例使用

2024-11-06 19:16:46 526

原创 RDD转换算子：【keys、values】

RDD转换算子：keys、values的介绍和举例使用

2024-11-06 17:36:04 377

原创 RDD转换算子：重分区算子：【repartition、coalesce】

RDD重分区算子（转换算子）：repartition、coalesce的介绍与使用案例

2024-11-05 15:37:30 383

原创 RDD转换算子：排序算子：【sortBy、sortByKey】

RDD排序算子：sortBy，sortByKey的介绍和用法举例

2024-11-05 12:10:41 288

原创 RDD转换算子：分组聚合算子：【groupByKey、 reduceByKey】

RDD转换算子之分组聚合算子：groupByKey、 reduceByKey的使用

2024-11-04 19:31:28 443

commons-pools2和spark-token-provider-kafka jar包下载

pyspark充当kafka消费者时报错：pyspark.sql.utils.IllegalArgumentException:One of the following options must be specified for Kafka source: subscribe, subscribepattern, assign. See the docs for more details. 所缺少的jar包

2024-11-14

kafka-clients-3.0.0.jar

pyspark充当Kafka消费者时报错：py4j.protocol.Py4JJavaError: An error occurred while calling o29.load. : java.lang.NoClassDefFoundError: org/apache/kafka/common/serialization/ByteArraySerializer 所缺少的jar包

2024-11-14

spark-sql-kafka-0-10-2.12-3.1.2.jar

pyspark充当kafka消费者时报错：pyspark.sql.utils.AnalysisException: Failed to find data source: kafka. Please deploy the application as per the deployment section of "Structured Streaming + Kafka Integration Guide". 错误所缺少的jar包

2024-11-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人