- 博客(5)
- 收藏
- 关注
原创 MapReduce 数据倾斜问题
数据倾斜指分布式计算中,数据分布不均或任务负载不均衡,致部分 Task 执行时间远超其他 Task 的现象。数据倾斜可能出现在 Map 端、Shuffle 阶段或 Reduce 端,如 Reduce 端某 Key 数据量过大,会使对应 Reduce Task 数据量、计算量过大,进而引发数据倾斜。return 1;设置后,框架按方法返回值分配数据至不同 Reduce Task,避免部分 Task 负载过高。
2025-10-03 20:48:20
336
原创 关于mysql锁的一些总结
全局锁:对数据库进行加锁。表锁:对数据表加锁,MyISAM主要用的就是表锁页锁:对数据库的一个数据页(通常是固定大小,如16KB)进行加锁,其粒度介于表锁和行锁之间。行锁:对数据行加锁,InnoDB主要用的就是行锁。以上四个锁的粒度从大到小:全局锁>表锁>页锁>行锁而并发度和系统开销与粒度大小负相关。这很好理解,因为粒度越大,所支持的并发事务数就越少,mysql需要做的事就越少,开销就小。如果查询条件中没有使用到索引,那么InnoDB将对整个表进行加锁(实际上是锁住所有行和间隙,效果类似表锁)。
2025-09-26 17:12:51
1493
原创 关于mysql索引的一些总结
在mysql5.6之前,当有多个索引列过滤条件时,mysql只会在查询索引表时同时执行部分过滤条件,提前筛出部分数据,然后再回表查一查这些数据中满足其他过滤条件的数据,相当于进行了多步回表查询。:通常都是主键或者满足唯一值的列作为索引列,主键索引就是特殊的聚簇索引,是InnoDB存储引擎的默认索引方式,叶子节点存在完整的数据行。:需要查询的列不是在索引表中存储的,那么找到目标列所在行的索引指标后,需要回到表中找一找,这里就会多一些磁盘IO,自然性能低一些。那么联合索引就是多个列配一个指针。
2025-09-25 21:48:41
1512
原创 Hive动态分区错误解决方案
控制),默认上限为100分区/节点。但当前操作需要同时写入的分区数超过此限制(例如101个),触发错误。错误表明可能由分区问题引起,常见于动态分区操作。具体原因:Hive限制每个节点的动态分区数量(由。根据需求选择以下任一方案,两者均需确保设置。从上述报错信息中找到关键信息。编辑Hive配置文件。
2025-09-19 23:21:53
714
原创 DolphinScheduler 3.1.9 单机版(standalone)重启后,项目、流程定义等数据全部丢失
4.这里采用SnakeYAML解析yaml文件,所以一定要保证缩进正确,最好每次改动备份文件前都备份配置文件。DolphinScheduler 3.1.9 单机版(standalone)重启后,项目、流程定义等数据全部丢失。1. 将其中url修改成自己的 mysql 主机名,数据库名(不建议修改),其余不变。3. schema-locations后其实h2修改为了mysql,这里直接粘贴就行。,数据仅保存在内存中,重启后失效。
2025-09-15 20:25:25
378
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅