- 博客(108)
- 收藏
- 关注

原创 【Kettle的安装与使用】使用Kettle实现mysql和hive的数据传输(使用Kettle将mysql数据导入hive、将hive数据导入mysql)
Kettle的安装与使用、使用Kettle实现mysql和hive的数据传输(使用Kettle将mysql数据导入hive、将hive数据导入mysql)
2024-10-30 20:34:48
1477
2
原创 Flink中常用物理分区(区别和用法)算子以及Sink(JDBC Connector、Kafka Connector以及自定义Sink)
Flink中常用物理分区(区别和用法)算子以及Sink(JDBC Connector、Kafka Connector以及自定义Sink)
2024-12-10 15:43:09
916
原创 Flink一些常用API的使用(Flink中的Source以及Flink中的一些常用算子)
基于本地集合的source(Collection-based-source)【测试】1.env.fromElements(可变参数);2.env.fromColletion(各种集合);3.env.fromSequence(开始,结束);基于文件的source(File-based-source)env.readTextFile(文件系统路径,包括hdfs路径);基于网络套接字(socketTextStream)【测试】
2024-12-10 15:38:43
680
原创 如何在虚拟机中安装python 和 jupyter,并且启动运行Delta Lake,以及解决一下启动过程中出现的错误(保姆级教程)
如何在虚拟机中安装python 和 jupyter,并且启动运行Delta Lake,以及解决一下启动过程中出现的错误(保姆级教程)
2024-12-02 11:36:02
426
原创 什么是Delta Lake(数据湖框架),以及Delta Lake特性和如何使用
什么是Delta Lake(数据湖框架),以及Delta Lake特性和如何使用
2024-11-29 13:47:43
849
1
原创 数据分析流程中的Lambda架构,以及数据湖基于Hadoop、Spark的实现
数据分析流程中的Lambda架构,以及数据湖基于Hadoop、Spark的实现
2024-11-29 13:37:17
739
原创 数据湖的概念(包含数据中台、数据湖、数据仓库、数据集市的区别)--了解数据湖,这一篇就够了
了解数据湖,这一篇就够了:数据湖的概念(包含数据中台、数据湖、数据仓库、数据集市的区别)
2024-11-27 18:19:46
1550
1
原创 Flume和kafka的整合:使用Flume将日志数据抽取到Kafka中
Flume和kafka的整合:使用Flume将日志数据抽取到Kafka中
2024-11-25 18:51:16
941
原创 使用Java代码操作Kafka(五):Kafka消费 offset API,包含指定 Offset 消费以及指定时间消费
Kafka消费 offset API,包含指定 Offset 消费以及指定时间消费
2024-11-25 18:47:33
1214
原创 使用Java代码操作Kafka(四):Kafka消费 offset API,包含消费者自动提交 offset以及手动提交 offset(手动提交包含异步和同步)
Kafka消费 offset API,包含消费者自动提交 offset以及手动提交 offset(手动提交包含异步和同步)
2024-11-25 18:43:46
305
原创 RDD触发算子:collectAsMap以及foreachParition的语法以及举例使用
collectAsMap算子以及foreachParition算子的功能、语法以及举例使用
2024-11-22 15:32:02
531
原创 flink-1.13.6 的安装包下载 和 flink所需jar包(flink-shaded-hadoop-2-uber-2.7.5-10.0.jar)下载链接
flink-1.13.6 的安装包下载 和 flink所需jar包(flink-shaded-hadoop-2-uber-2.7.5-10.0.jar)下载链接
2024-11-21 11:06:00
324
原创 使用Java代码操作Kafka(三):Kafka消费者 API,包含订阅主题、订阅分区以及消费者组案例
使用Java代码操作Kafka:Kafka消费者 API,包含订阅主题、订阅分区以及消费者组案例
2024-11-20 16:26:01
283
原创 使用Java代码操作Kafka(二):生产者同步发送 API
使用Java代码操作Kafka:生产者同步发送 API,包含生产者发送消息流程,以及同步和异步的区别
2024-11-20 16:21:01
230
原创 使用Java代码操作Kafka(一):生产者异步发送API,包含普通异步发送以及带回调函数的异步发送
Kafka生产者异步发送API,包含普通异步发送以及带回调函数的异步发送(Java版)
2024-11-20 16:14:47
542
原创 RDD触发算子:一些常用的触发算子(take、collect、reduce)
RDD触发算子:一些常用的触发算子(take、collect、reduce)
2024-11-18 17:57:25
223
原创 RDD触发算子:一些常用的触发算子(count、foreach、saveAsTextFile、first)
RDD触发算子:一些常用的触发算子(count、foreach、saveAsTextFile、first)
2024-11-18 17:56:08
346
原创 RDD转换算子:join方面的算子(leftOuterJoin、rightOuterJoin、fullOuterJoin)
RDD转换算子:join方面的算子(leftOuterJoin、rightOuterJoin、fullOuterJoin)
2024-11-18 17:46:16
433
原创 pyspark充当Kafka消费者时报错: java.lang.ClassNotFoundException: org.apache.spark.kafka010.KafkaConfigUpdater
pyspark充当Kafka消费者时报错:pyspark.sql.utils.IllegalArgumentException:One of the following options must be specified for Kafka source: subscribe, subscribepattern, assign. See the docs for more details. 的解决方案
2024-11-14 19:29:34
469
原创 pyspark充当Kafka消费者时报错ClassNotFoundException:org.apache.kafka.common.serialization.ByteArraySerializer
pyspark充当Kafka消费者时报错:py4j.protocol.Py4JJavaError: An error occurred while calling o29.load.: java.lang.NoClassDefFoundError: org/apache/kafka/common/serialization/ByteArraySerializer
2024-11-14 19:21:31
224
原创 pyspark充当Kafka消费者时报错:Failed to find data source:Structured Streaming + Kafka Integration Guide
pyspark充当Kafka消费者时报错:pyspark.sql.utils.AnalysisException: Failed to find data source: kafka. Please deploy the application as per the deployment section of "Structured Streaming + Kafka Integration Guide".
2024-11-14 19:12:39
338
原创 Kafka一些常用的命令行操作【包含主题命令、生产者和消费者命令】
Kafka一些常用的命令行操作【包含主题命令、生产者和消费者命令】:kafka-topics.sh、kafka-console-producer.sh、kafka-console-consumer.sh
2024-11-14 14:15:34
1198
原创 Kafka面试题(二)
第一种情况:当kafka应答级别设置为1时(生产者发送过来的数据,Leader收到数据后应答):生产者将数据发送给kafka的Leader,Leader保存成功后,在将数据备份给Follower时挂掉此时Follower的数据没有同步过来就成为了Leader,就会造成消息丢失。2、如果没有指定分区,指定了Key值,那么对Key进行Hash,再对分区数取模后,得到哪个分区,就使用哪个分区。acks=-1,生产者发送过来数据Leader和ISR队列里面所有Follwer应答,可靠性高,效率低;
2024-11-11 18:42:05
390
原创 【Hive sql 面试题】现有用户登录记录表,请查询出用户连续三天登录的所有数据记录(难)
【Hive sql 面试题】现有用户登录记录表,请查询出用户连续三天登录的所有数据记录(难)
2024-11-07 19:58:07
479
原创 【Hive sql 面试题】求出各类型专利top 10申请人,以及对应的专利申请数(难)
【Hive sql 面试题】求出各类型专利top 10申请人,以及对应的专利申请数(难)
2024-11-07 19:05:05
461
1
原创 RDD转换算子:【mapValues、mapPartitions】
RDD转换算子:mapValues、mapPartitions的介绍以及举例使用
2024-11-06 19:16:46
458
原创 RDD转换算子:重分区算子:【repartition、coalesce】
RDD重分区算子(转换算子):repartition、coalesce的介绍与使用案例
2024-11-05 15:37:30
324
原创 RDD转换算子:分组聚合算子:【groupByKey、 reduceByKey】
RDD转换算子 之 分组聚合算子:groupByKey、 reduceByKey的使用
2024-11-04 19:31:28
393
commons-pools2和spark-token-provider-kafka jar包下载
2024-11-14
kafka-clients-3.0.0.jar
2024-11-14
spark-sql-kafka-0-10-2.12-3.1.2.jar
2024-11-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人