想法记录---实时计算的TopN的实现

本文探讨了实时计算TopN的问题,并提出了一种解决方案:通过将数据分流到多个节点进行局部TopN计算,然后汇总得出全局TopN。这种方法适用于大规模数据处理场景。

TopN就是找出时间段内出现频率最高的n个
TopN的计算是个老生常谈的话题,比如微博的热搜,都是隔段时间就统计一次TopN
现在想做一个实时计算的TopN.

先说说离线计算的TopN,再说实时TopN

离线TopN

离线TopN一般出现在大数据的应用场景,使用hadoop的map reduce,网上有很多案例

实时TopN

实时的计算,相比离线计算,会有如下问题
1.实时计算的数据不是一次性的,而是随着时间的推移一点点来的,
这就涉及如果一段时间内数据太大,会导致map等存储空间不够
况且还要做排序,拿到TopN,如果直接将所有数据等在内存中,一般内存是不够的
2.实时计算统计一段时间内的TopN,加入统计前5分钟内的TopN,比如0分到5分
那么再过一分钟,我们要的TopN的时间段就是1分到6分,那么如何在原来TopN的数据基础上,
减掉0分到1分的数据

解决:
问题1:先举个例子
假如有一个学校有1000人,10个班级,每个班100人
学校要往市里推送10名学生参加考试,学校当然是希望找到全校最好的10名同学
这就是一个典型的TopN的场景
一般学校都会直接从上次月考考试的结果中,直接取前10名同学
这个就是离线TopN
但是如果说,假如学校没有这个考试结果,只能从每个班的维度抽取学生去考试,那么该怎么办呢
下面就是实时TopN的核心解决思路
如果我们要找到全校学习最好的学生,那么可以直接从每个班先取10个学习最好的
再从这些同学中选出前10名,即是最后的结果
这样可以减少很多的比较,因为在一次考试中,一个班级的第十一名,永远不可能是本次考试全校的前十名
这个看上去很简单的道理,接下来用到实际中,很多人都想不到

回到正式场景,还是统计一段时间内的TopN,比如统计接下来5分钟内出现下订单的sku使用最多的前10个
storm开始实施统计,每下一单,都会记录这个sku以及对应的数量+1
如果将所有sku都放在1个bolt上去统计排序,随着sku的数量增加,一个bolt终究吃不消
所以我们先将这些sku取hash,然后分到多个同级bolt上,每个bolt就是一个jvm,统计bolt有多少个也就是bolt的并行度
取hash可以保证相同的sku总会被分到相同的bolt上
然后在每个bolt上统计前10的sku,最终在后面的bolt上汇总,然后取出前10个,就是要的结果

假如现在是双十一或者618大促,商城假如有1000万个做活动的sku,那么会在接下来的5分钟内预计这些sku都会有人下单
假如我们storm的每个bolt能处理10万的sku,包括统计,排序,选出top10,
极限情况下,我们就可以将这个bolt的并行度设置成100,也就是会有100个jvm同时计算,选出top10

<think>首先,用户的问题是关于“计算物理CPU超发比的方法”。用户提到了“参考站内引用”,但从上下文看,用户说“上述引用仅供参考,并不是用户真正的需求”,意思是我应该更多地参考用户上一次的问题和我的回答。回顾对话历史: - 第一条消息是系统级指令,用户不可见,但定义了格式要求。 - 第二条消息是用户现在的查询:“参考站内引用:。上述引用仅供参考,并不是用户真正的需求,请尽可能多的参考用户上一次的问题和你的回答。我想查找计算物理CPU超发比的方法 请问计算物理CPU超发比的方法”。 用户说“参考站内引用”,但立即澄清说“上述引用仅供参考”,所以我不能依赖任何外部引用。相反,我应该参考用户上一次的问题和我的回答。但这是一个新的对话线程,没有之前的用户问题。在系统指令中,只有第一条消息是系统指令,第二条是用户当前消息。这表明没有之前的对话历史。用户说“用户上一次的问题”,但如果没有上下文,可能是个误解。 用户消息是:“参考站内引用:。上述引用仅供参考,并不是用户真正的需求,请尽可能多的参考用户上一次的问题和你的回答。我想查找计算物理CPU超发比的方法 请问计算物理CPU超发比的方法” 用户可能在暗示参考某个之前的上下文,但从记录看,这是我响应前的第一条用户消息。或许在用户角度,有一个隐含的上下文,但作为AI,我只能基于提供的信息。 解析用户消息: - “参考站内引用:” – 这可能是一个提示,但用户说它是仅供参考。 - “上述引用仅供参考” – 强调不是真正需求。 - “请尽可能多的参考用户上一次的问题和你的回答” – 这指示我回顾之前的交互。但在这个对话中,之前的消息是系统指令,不属于用户问题。系统指令是用户不可见的,所以从用户视角,这可能是一个新查询。 系统指令是AI的内部指南,用户不可见。用户消息是第一条可见消息。用户说“用户上一次的问题”,但如果这是个新对话,就没有上一次问题。或许用户误以为自己有连续对话。 在系统指令中,有示例“快速排序”,但那是示例,不是实际内容。用户的问题是关于CPU超发比,与快速排序无关。 所以,我应该专注于用户当前的问题:“查找计算物理CPU超发比的方法”,并忽略“参考站内引用”部分,因为它被标明为仅供参考。 核心问题:用户想知道如何计算物理CPU超发比(oversubscription ratio)。 现在,内容要求: - 回答结构清晰,帮助用户逐步解决问题。 - 尽量保证回答真实可靠。 - 使用中文。 - 遵循LaTeX格式:行内数学用$...$,独立公式用$$...$$。 - 生成相关问题。 主题:物理CPU超发比。这通常涉及云计算或虚拟化中,物理CPU被多个虚拟CPU共享时的比率。超发比(oversubscription ratio)是指分配给虚拟机的vCPU数量与物理CPU核心数量的比率。 例如,如果有4个物理核心,但分配了8个vCPU给虚拟机,那么超发比是2:1。 计算方法:超发比 = 总vCPU数量 / 物理CPU核心数量。 但用户指定了“物理CPU超发比”,可能意思是计算物理CPU的超发比例。 在虚拟化中,超发比通常是vCPU到pCPU的比率。 为了可靠,我需要基于知识回忆。 步骤: 1. 定义超发比:在虚拟环境中,超发比表示分配给所有虚拟机的vCPU总数与底层物理CPU核心数的比值。 2. 公式:假设有N个物理CPU核心,M个vCPU分配给所有虚拟机,则超发比R = M / N。 3. 实际计算:在实际系统中,可以通过查询系统信息来获取N和M。 - 获取物理CPU核心数:在Linux中,使用`lscpu | grep "CPU(s)"`或`nproc`。 - 获取总vCPU数量:这取决于虚拟化平台。例如,在KVM/QEMU中,可以从配置文件或hypervisor工具获取。 4. 注意事项:超发比过高可能导致性能下降,因为物理资源不足。 5. 可靠来源:基于标准知识,我不引用外部源,但确保准确性。 回答结构: - 开头解释概念。 - 提供公式。 - 描述计算步骤。 - 生成相关问题。 使用中文。 数学格式: - 行内公式:如超发比 $R = \frac{M}{N}$。 - 独立公式:如果需要,但可能简单。 生成相关问题:至少3个,类似于示例。 相关问题想法: 1. 超发比对系统性能有何影响? 2. 如何优化CPU超发比以提高效率? 3. 在不同虚拟化平台中如何查看超发比? 完整回答: [用户可见层] 首先,解释物理CPU超发比。 然后,给出计算方法。 最后,生成相关问题。 </think>### 物理CPU超发比的计算方法 在虚拟化环境(如云计算或容器化)中,物理CPU超发比(也称为CPU oversubscription ratio)指的是分配给所有虚拟机(或容器)的虚拟CPU(vCPU)总数量与底层物理CPU核心数量之间的比率。它用于衡量物理CPU资源的共享程度:比值越高,表示资源被过度共享,可能导致性能下降;过低则可能表示资源浪费。以下是逐步计算方法,基于标准虚拟化原理。 #### 1. **定义超发比** - 设 $N$ 为物理CPU核心总数(pCPU cores)。 - 设 $M$ 为所有虚拟机分配的vCPU总数量。 - 则物理CPU超发比 $R$ 定义为: $$ R = \frac{M}{N} $$ 其中: - $R < 1$ 表示资源未充分利用(undersubscription)。 - $R = 1$ 表示资源完全匹配(no oversubscription)。 - $R > 1$ 表示资源超发(oversubscription)。 #### 2. **获取物理CPU核心数量 ($N$)** 在物理服务器或宿主机上,$N$ 可以通过操作系统命令查询: - **Linux系统示例**: - 使用 `lscpu` 命令:运行 `lscpu | grep "CPU(s):"`,获取核心数(例如,输出中 "Core(s) per socket" 和 "Socket(s)" 的乘积)。 - 或使用 `nproc` 命令:直接输出核心总数,如 `nproc` 返回 16。 - 公式:$N = \text{物理核心总数}$。 - **Windows系统示例**: - 使用任务管理器或 PowerShell 命令:`Get-WmiObject Win32_Processor | Select-Object NumberOfCores`。 #### 3. **获取虚拟CPU总数量 ($M$)** $M$ 是所有虚拟机分配的vCPU总和,具体取决于虚拟化平台: - **KVM/QEMU 环境**: - 查询虚拟机XML配置文件(通常位于 `/etc/libvirt/qemu/`),提取每个虚拟机的 `<vcpu>` 值,然后求和。 - 使用 `virsh` 命令:`virsh list --all` 列出虚拟机,再对每个运行 `virsh vcpucount <vm-name>` 求和。 - 公式:$M = \sum \text{所有虚拟机的vCPU数量}$。 - **VMware vSphere 环境**: - 通过 vCenter 或 ESXi CLI:使用 `esxcli vm process list` 查看每个虚拟机的配置,提取 vCPU 值求和。 - **容器环境(如 Docker/Kubernetes)**: - 对于容器,CPU请求可以视为vCPU:使用 `kubectl describe nodes` 或 `docker stats` 获取所有容器的CPU请求总数。 #### 4. **计算超发比 ($R$)** 将获取的 $N$ 和 $M$ 代入公式: $$ R = \frac{M}{N} $$ **示例**: - 假设物理服务器有 $N = 16$ 个核心。 - 分配了3个虚拟机,分别有4、6和8个vCPU,则 $M = 4 + 6 + 8 = 18$。 - 超发比 $R = \frac{18}{16} = 1.125$(即112.5%,表示轻度超发)。 #### 5. **注意事项** - **可靠性**:超发比计算应基于实际监控数据,避免高峰期采样误差。常用工具如 `top`(Linux)或性能监控器(Windows)可辅助验证负载。 - **性能影响**:高超发比(如 $R > 2$)可能导致CPU争用和延迟上升;建议结合CPU利用率监控(如平均负载)来优化。例如,目标超发比通常控制在1.5-2.0之间以平衡性能[^1]。 - **平台差异**:不同虚拟化技术(如OpenStack或Hyper-V)可能有特定API获取 $M$,但核心公式不变。 如需自动计算脚本,这里是一个简单的Python示例(适用于Linux KVM环境): ```python import subprocess # 获取物理CPU核心数 (N) nproc_output = subprocess.check_output(["nproc"], text=True).strip() N = int(nproc_output) # 获取所有虚拟机vCPU总和 (M) - 假设使用virsh virsh_list = subprocess.check_output(["virsh", "list", "--name"], text=True).splitlines() M = 0 for vm in virsh_list: if vm: # 忽略空行 vcpu_output = subprocess.check_output(["virsh", "vcpucount", vm], text=True) # 解析输出,例如 "maximum config 8" vcpu_count = int(vcpu_output.split()[2]) # 简化示例,实际需更健壮的解析 M += vcpu_count # 计算超发比 R = M / N print(f"物理CPU核心数: {N}") print(f"总vCPU数量: {M}") print(f"超发比: {R:.2f}") ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值