- 博客(5)
- 收藏
- 关注
原创 Flink总结
实时数据计算Flink 同时支持流式及批量分析应用,这就是我们所说的批流一体。Flink 承担了数据的实时采集、实时计算和下游发送。Flink 在实时数仓和实时 ETL 中有天然的优势:状态管理,实时数仓里面会进行很多的聚合计算,这些都需要对于状态进行访问和管理,Flink 支持强大的状态管理;丰富的 API,Flink 提供极为丰富的多层次 API,包括 Stream API、Table API 及 Flink SQL;生态完善,实时数仓的用途广泛,Flink 支持多种存储(HDFS、ES 等)
2025-11-10 20:44:08
958
原创 使用记录型信号量实现读写问题、生产者消费者问题
1.①实现生产者—消费者问题的模拟,以便更好的理解此经典进程同步问题。生产者-消费者问题是典型的PV操作问题,假设系统中有一个比较大的缓冲池,生产者的任务是只要缓冲池未满就可以将生产出的产品放入其中,而消费者的任务是只要缓冲池未空就可以从缓冲池中拿走产品。缓冲池被占用时,任何进程都不能访问。②每一个生产者都要把自己生产的产品放入缓冲池,每个消费者从缓冲池中取走产品消费。在这种情况下,生产者消费者进程同步,因为只有通过互通消息才知道是否能存入产品或者取走产品。
2024-05-12 21:15:28
1388
1
原创 Spark编程基础:(实验四)Sark SQL**编程初级实践**
spark = SparkSession.builder.appName("RDD转换成DataFrame").config(conf=SparkConf()).getOrCreate()(2)进入saprk,配置 Spark通过 JDBC 连按数据库 MySQL,编程实现利用 DataFrame 插入数据到 MySQL 中,最后打印出 age 的最大值和 age 的总和。(8)查询所有记录的 name 列,并为其取别名为 userame;(2)查询所有数据,并去除重复的数据;
2024-05-12 21:08:31
1190
3
原创 使用Java API操作HDFS
使用Java API操作HDFS的实验原理如下:配置Hadoop环境:首先需要配置Hadoop的环境,包括设置Hadoop的安装路径、配置core-site.xml和hdfs-site.xml等文件,以便Java程序能够连接到HDFS。引入Hadoop依赖:在Java项目中,需要引入Hadoop的相关依赖,包括hadoop-common、hadoop-hdfs等依赖,以便能够使用Hadoop提供的API。
2023-11-02 15:55:44
5741
6
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅