- 博客(9)
- 收藏
- 关注
原创 Yarn基本知识总结
AM挂掉 RM负责重启 AM会保存已完成的Task AM需要处理内部任务的问题 如Task Failure。NM挂掉之后 如果Task挂掉 AM负责处理 如果AM挂掉 RM重启一个新的container运行AM。但是存在单点故障和限制区群扩充的问题、资源和计算也没有很好的解耦。RM为任务分配一个container,并与NM通信,要求启动AM。负责监控AM 当AM挂掉之后在NM上启动该AM。AM向RM注册 RM就可以直接看到作业的运行状况。AM申请到资源后 和NM通信 请求启动任务。
2022-11-21 20:37:13
172
原创 Redis的删除和淘汰策略
周期性的访问redis,才用随机抽样的方式,用过期数据占比来控制删除频率。当数据没有过期或者不带有时效性,全是永久性数据,存储时内存不足会执行淘汰策略。Key设置的有过期时间,当过期了定时任务执行删除。挑选最近最少使用的、最近使用最少的、快要过期的和随机淘汰。redis数据存在内存中,已经过期的数据不会立即删除。CPU压力大,影响服务器的响应时间和吞吐量。内存占用大,如一直不适用一直占用,浪费内存。当过期时不处理,下次访问到的时候处理。挑选最近最少使用的、最近使用最少的和随机淘汰。频度高,拿时间换空间。
2022-11-21 15:44:09
492
原创 Redis的持久化RDB和AOF
AOF中有个重写的概念,AOF采用文件追加文件的方式,文件会越来越大,当超过规定的阈值后会进行压缩,只保留能恢复数据的最小指令集。最后一次持久化后的数据可能丢失,fork的时候内存被克隆一份,需要考虑两倍的膨胀性。已日志的形式来记录操作,所有指令都会记录下来,只许追加文件但是不可以修改文件。redis重启的时候会把日志的指令从前到后执行一次来进行恢复工作。需要对大规模数据进行恢复,并且对数据恢复的完整性不是很敏感。当持久化结束后,用这个文件代替上次持久化的文件。文件大、恢复速度慢、对性能影响大。
2022-11-21 15:26:34
180
原创 关系型数据库和非关系型数据库
非关系型数据库又称为nosql(not only sql),通常以对象的形式存储在数据库中,关系由每个对象自 身的属性来决定。关系型数据库是建立在关系模型基础上的数据库,是由多张能互相连接的表组成的数据库。不节省空间,字段为空也要分配空间。格式多样,可以使kv,文档,图片。扩展性强,高并发,高稳定,成本低。读写能力较差,不适用于海量数据。不支持sql 学习成本高。使用sql语言,使用方便。可以实现数据的分布式处理。功能没有关系型数据库多。表结构固定 灵活性低。关系型数据库和非关系型数据库。
2022-11-21 15:01:17
247
原创 hive的开窗函数
lag(列名,n,默认值) 求窗口往上N行 如果为null时显示默认值 默认值默认是null。里面写 partition by语句 是哦哦哦用一个或者多个原始数据类型的列。可以和标准的聚合函数 count、sum、min、max、avg一起用。row_number 不关心是否相等 直接 1,2,3,4,5。dense_rank 不会留下空位 1,2,2,3,3。rank 关心相等 会留下空位 1,2,2,4,5。可以和分析窗口一起用 rank()over()lead(列名,n,默认值) 求窗口往下N行。
2022-11-19 15:21:33
567
原创 优化sql查询效率的几个方法
6.检查子查询 考虑SQL子查询是否可以用简单连接的方式进行重新书写。2.建表能用char就不用varchar。5.使用union all。1.不用select *3.建立索引不要大量字段。4.善用where筛选。
2022-11-19 14:50:03
651
原创 Kafka高吞吐量的原因
分区 每次操作都是对一小部分进行 并行操作能力强。顺序读写 不需要硬盘磁道的寻道时间 远快于随机读写。批量发送 消息可以缓存在本地 到条件了再发送。数据压缩 支持压缩 可以减轻网络传输压力。零拷贝 跳过用户缓冲区的拷贝。kafka高吞吐量的原因。
2022-11-18 21:13:24
629
原创 HDFS基础知识
NameNode创建HDFS文件时 会计算每个数据的校验并存储 存入新数据后,比较校验的结果。Client与DateNode交互 读取block块的信息 并行读取 最后客户端合并数据。Client获取到位置信息后开始写入DateNode,以package包的形式依次写入。Client向NameNode发送请求,寻找可以写入block块的机器信息。Client向NameNode发送请求,寻找到数据块的位置信息。移动大文件的时候 可以减少网络的拥塞和提高系统的吞吐量。删除的文件会放入 /trash 定时清空。
2022-11-18 15:00:33
672
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人