
自优化记录
在工作中不断地发现自己之前思维的欠缺,不断地更新思维优化实现
誓约·追光者
积土成山,风雨兴焉;积水成渊,蛟龙生焉;积善成德,而神明自得,圣心备焉。故不积跬步,无以至千里;不积小流,无以成江海。骐骥一跃,不能十步;驽马十驾,功在不舍。锲而舍之,朽木不折;锲而不舍,金石可镂。
展开
-
时空碰撞系列·终
我决定放弃所有花里胡哨的发言,就简单直接的上干货吧①业务场景:1.需要计算时间和空间都在一定范围内的数据对,数据来源可能有多种类型,人、车、码等2.单机计算,数据量上亿②当前方案:拆分join流程,把三个维度拆成2+1,先用in逻辑过滤一部分数据,再扩充一次,再join③当前痛点:1.步骤过于繁琐,会重复调用全量数据2.join的时候是按时空块join的,按块join会导致每个join成功的块中数据量较大,集群版无所谓,单机版计算上亿数据量shuffle会比...原创 2020-11-30 15:53:46 · 533 阅读 · 0 评论 -
时空碰撞优化系列·二
优化源于痛点(┬_┬)有没有痛点取决于业务场景的需求;有多痛取决于当前方案对业务的契合度让我们从业务场景①、当前方案②切入,联立①②来推导当前痛点③吧!话不多说,开始分析①业务场景:1.需要计算时间和空间都在一定范围内的数据对,数据来源可能有多种类型,人、车、码等2.计算需要并行进行,每次计算一天的数据量,大约亿级②当前方案:按照时间、经度、纬度三个维度扩充27倍数据,然后join③当前痛点:1.27倍太大了,从执行计划上来看,是真的扩了27倍的数据...原创 2020-09-22 20:51:42 · 293 阅读 · 0 评论 -
时空碰撞优化系列·一
优化源于痛点(┬_┬)有没有痛点取决于业务场景的需求;有多痛取决于当前方案对业务的契合度让我们从业务场景①、当前方案②切入,联立①②来推导当前痛点③吧!话不多说,开始分析①业务场景:1.需要计算时间和空间都在一定范围内的数据对,数据来源可能有多种类型,人、车、码等2.计算需要并行进行,每次计算一天的数据量,大约亿级②当前方案:先按照前文的同行从时间上划分,然后按照geohash从空间上划分,在边界点处理上用的是先计算好所有数据的geohash映射,然后广播到所有节..原创 2020-09-22 17:44:13 · 517 阅读 · 0 评论