
奠没有机会上线的优化崽崽们
我是一个很活泼好动的人,喜欢结合业务做各种各样的优化,我的理念是:只要这个问题有解,给定足够的信息我就一定能找出一线生机。在漫长的工作历程中,我做出了各种各样的优化,然而,它们都因为种种原因没有机会大放光明...至少,在这里为它们立下一片墓碑吧
誓约·追光者
积土成山,风雨兴焉;积水成渊,蛟龙生焉;积善成德,而神明自得,圣心备焉。故不积跬步,无以至千里;不积小流,无以成江海。骐骥一跃,不能十步;驽马十驾,功在不舍。锲而舍之,朽木不折;锲而不舍,金石可镂。
展开
-
同行分析优化
优化源于痛点(┬_┬)有没有痛点取决于业务场景的需求;有多痛取决于当前方案对业务的契合度让我们从业务场景①、当前方案②切入,联立①②来推导当前痛点③吧!话不多说,开始分析①业务场景:1.同一时间段内出现在同一摄像头下的用户即为同行关系(不需要两个人同步出现在摄像头下,因为我司暂不支持在一张图片内一次性提取两个人,处理逻辑太麻烦了,还不如后面分析)2.计算需要并行进行,每次计算一天的数据量,大约千万级②当前方案:将全部数据拉到内存,全局排序后按照时间段大小分块,然后..原创 2020-08-17 21:03:53 · 318 阅读 · 0 评论 -
hive拉链表优化·百亿量级数据支持准实时更新
业务场景:1.表的数据量很大,时间长了可能会到百亿级的数据2.表中的部分字段需要更新3.需要查看历史变更记录4.对表的更新数量很低,但频率可能比较高当前方案:采用了hive的拉链表,讲这个的博客比较多,具体技术我不予赘述,只讲一讲操作。我们现在是每天指定时间执行一次拉链表的操作,更改全部走kafka,从接口读到更新后存入kafka等待明日执行更新当前缺陷:1.操作数据量太大,每天都要执行百亿级的数据清洗,非常浪费算力2.无法实现准实时,因为接口可能会被一天调用..原创 2020-08-11 20:34:49 · 1870 阅读 · 0 评论