- 博客(7)
- 收藏
- 关注
原创 水塘采样(Reservoir Sampling)——固定样本数的流式随机抽样算法
特性描述目标从无法存储的无限数据流中抽取 k 个样本空间复杂度O(k)时间复杂度O(1) 每元素核心优势精确等概率、无需存储全部数据关键思想概率递减 + 随机替换水塘采样是流式数据分析中最基础、最重要的算法之一。很多高级算法(例如在线学习采样、分布式采样)实际上都是它的变体和扩展。
2025-11-06 20:43:52
282
原创 在 DSMS 中的传统算法 — DGIM
输入:一个无限长度的数据流,每个元素为 0 或 1目标:估计最近 N 个比特中 1 的数量要求:快速更新、低内存、允许小误差。
2025-11-04 15:27:36
545
原创 LZW 压缩算法深入解析
五、输出编码序列 根据上表输出: 84, 79, 66, 69, 79, 82, 78, 79, 84, 256, 258, 260, 265, 259, 261, 263 也就是: T, O, B, E, O, R, N, O, T, TO, BE, OR, TOB, EO, RN, OT。四、压缩过程详解(逐步匹配) 我们从头扫描字符串,每次找“最长匹配的字符串 w”,输出其编码,并将“w + 下一个字符”加入字典。用较短的编码(整数索引)替代重复出现的字符串模式,通过动态构建字典实现压缩。
2025-10-11 20:40:46
396
原创 BWT 编码与解码详解:让压缩更高效的魔法重排算法
排序后序号旋转结果最后一列字符1$bananaa2a$banann3ana$bann4anana$bb5banana$a6na$banaa7nana$baaBWT 编码结果(最后一列)是:**annb$aa最终输出:BWT("banana$") = "annb$aa"
2025-10-11 20:39:25
637
原创 火焰图(最好用的性能分析工具)
火焰图(Flame Graph)是一种用于可视化软件性能剖析数据的工具,它提供了一种直观的方式来理解代码的执行时间和调用关系。由Brendan Gregg首次提出,并成为分析性能问题的强大工具。读懂火焰图X轴:有多个方块组成,一个方块代表一个函数函数,在x轴占的宽度越宽,表示他被采样到的次数越多,可以简单的粗暴的近似理解为执行时间Y轴:表示函数调用栈,调用栈越深,火焰就越高顶部是CPU正在执行的函数,下方都是他的父函数什么时候使用 On-CPU 火焰图?什么时候使用 Off-CPU 火焰图呢?
2024-08-16 20:54:12
1756
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅