- 博客(4)
- 收藏
- 关注
原创 Flink -- 批流一体
-spark和Flink都是粗粒度资源调度(在任务提交之前,将任务资源全部申请下来,这样会节约了任务开始执行时资源申请的时间,但是会浪费资源 -- 和mapreduce(细资源调度)比较)-- 在流出模式中使用常规的关联方式,flink会将两个表的数据一直保持在状态中,状态会越来越大 -- 可以设置状态过期时间,一段时间清理状态,比如值保留最近一天的状态。kv1:KeyValue(word=yujie, num=1) -- kv1中存储的是之前计算的结果,也就是状态(第一条数据除外)
2023-12-06 10:58:23
1401
1
原创 进程和线程到底是什么?
进程的本质:PCB(Process Control Block),类似于java中的类,每一个PCB对象就代表着一个实实在在运行着的程序,也就是进程。它被包含在进程中,是进程中实际运行的单位。6.CPU利用率不同:进程的CPU利用率较低,因为上下文切换开销较大,而线程的CPU的利用率较高,上下文的切换速度快。1.PID:进程ID,是进程的唯一身份标识,但是它不是固定不变的,是每次启动进程时动态分配的。4.拥有资源不同:每个进程有自己的内存和资源,一个进程中的线程会共享这些内存和资源。
2023-11-28 17:01:46
388
原创 spark -- 数据计算框架
spark作为大数据组件中不可或缺的一大部分 是我们学习和了解大数据的过程中必须要经历和学习的部分 本人将自己当初学习大数据的一点点心得和体会作为笔记 希望可以给同样在学习大数据同学提供一点点的帮助 同时也希望可以得到大家的指正。
2023-11-28 15:24:43
1090
2
原创 HIVE学习之路
可以看出,删除内部表的时候,表中的数据(HDFS上的文件)会被同表的元数据一起删除删除外部表的时候,只会删除表的元数据,不会删除表中的数据(HDFS上的文件)一般在公司中,使用外部表多一点,因为数据可以需要被多个程序使用,避免误删,通常外部表会结合location一起使用外部表还可以将其他数据源中的数据 映射到 hive中,比如说:hbase,ElasticSearch…3.因为Hive为了能操作HDFS上的数据集,那么他需要知道数据的切分格式,如行列分隔符,存储类型,是否压缩,数据的存储地址等信息。
2023-11-28 15:09:17
962
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人