YF_raaiiid-优快云博客

原创 spark任务动态资源分配

dynamical resource allocation

2022-07-05 09:48:17 1732

原创 Spark_on_k8s开发说明文档

spark on k8s部署模式实测

2022-07-05 09:47:20 888

原创 Spark内核原理和Spark on yarn

spark内核原理理解和spark on yarn部署模式的原理理解

2022-07-05 09:44:46 791

B-Tree：B树数据结构中的B树MySQL中的B树Innodb 页结构Page的作用，减少磁盘IO，一次读取一页到内存中再取出来比较，比读取磁盘中n条数据相比，降低了磁盘IO。【前者1次磁盘IO，后者n次IO】page 页是逻辑结构，一页16KB页目录的每一条记录，存用户数据区域中每一个组的第一行数据的地址问题：页目录：为了加快页内，用户数据区域遍历，找到指定元素。【将用户数据区域的数据分组】（上图）索引页：为了减少页的遍历，每次找一个页都要将其从磁盘取出来，这样

2022-03-23 23:36:33 886

原创一文理解【同步&异步&并行&并发】的概念

1）同步和异步**同步：**就是指一个进程在执行某个请求的时候，若该请求需要一段时间才能返回信息，那么这个进程将会一直等待下去，直到收到返回信息才继续执行下去；**异步：**是指进程不需要一直等下去，而是继续执行下面的操作，不管其他进程的状态。当有消息返回时系统会通知进程进行处理，这样可以提高执行的效率。2）并行和并发并发：两个队列交替使用一台咖啡机（cpu）并行：两个队列同时使用两台咖啡机（cpu）思考问题[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(

2022-03-03 10:14:20 845

原创 Hadoop：MapReduce总结

MapReduce1、架构MR AppMaster：负责整个成都的过程调度及状态协调；MapTask：负责map阶段的整个数据处理流程；ReduceTask：负责reduce阶段的整个数据处理流程；2、数据类型除了String对应Hadoop Writable类型为Text以外，其他基本都是类似boolean -> BooleanWritable3、Hadoop序列化4、InputFormat 数据输入Job提交流程流程总结建立连接，创建Job提交的代理类，并判断该Job的

2022-02-27 18:59:41 1730

原创 Hive优化的基本思路

一、开头好好理解Map-Reduce过程，多看看执行计划【explain 查询语句】，就会更帮帮地理解咯二、Hive-SQL语句转化成MapReduce1）Join的实现原理select u.name, o.orderid from order o join user u on o.uid = u.uid;2）Group By的实现原理将GroupBy的字段组合为map的输出key值，利用MapReduce的排序，在

2022-02-26 15:11:22 3027

原创 Hadoop：HDFS总结

Hadoop：HDFS总结HDFS架构NameNode(nn): 管理文件的元数据，如文件名、文件目录结构、文件属性等信息【NN运行时，元数据是存储在内存中，从而保证响应时间】元数据只保留在内存中是非常不可靠的，所以也需要持久化到磁盘。NN内部有两类文件用于持久化元数据：fsimage文件，以fsimage_为前缀，是序列化存储的元数据的整体快照；edits文件(又称edit log)，以edits_为前缀，是顺序存储的元数据的增量修改(即客户端写入操作)日志。DataNode(dn)

2022-02-20 11:27:21 3546 2

原创剑指offer30天重刷

剑指offer

2022-02-19 10:01:18 365

qq_45749457的博客

原创 Flink关于算子状态笔记