聊聊基于敏捷的度量指标设计

这是鼎叔的第一百一十五篇原创文章。行业大牛和刚毕业的小白,都可以进来聊聊。

欢迎关注本专栏和微信公众号《敏捷测试转型》,星标收藏,大量原创思考文章陆续推出。本人新书《无测试组织-测试团队的敏捷转型》已出版(机械工业出版社),文末有链接。

前文聊聊效能度量的作弊经济学 ,列举了传统度量的问题和对于度量的种种误解,让我们结合敏捷理念的深入理解,看看该如何设计基于敏捷的度量指标体系。

敏捷度量体系的特质

面向敏捷团队,度量工作要能真正被支持,推动大家往前跑,其体系应该具备这样一些特质。

公开性和简洁性:在公开的区域,用醒目的格式,让大家一眼就看就清楚,字面意思能自解释,这样才能被所有成员关注。记忆负担和实施成本可以尽量下降。

有效性和可靠性:指标要有用,且在长时间内靠谱。当大家发现指标异常并采取行动时,如果有较大概率发现是误报,会打击大家关注这些指标的意愿。

优先全局指标:度量首先要聚焦在牵引全局成功的指标上。局部指标是当全局指标出现风险时,再进行拆解分析的。在项目整体视图中,避免过多的局部指标数据干扰成员的判断。

谁度量,谁受益:为了让度量投入能健康持续的进行,参与贡献数据的角色一定要有明确的收益,比如通过度量能提升自己的能力,能挖掘出自己的盲区,有利于获得更好的认可。如果参与度量只是为了让QA能完成汇报任务,甚至还会因为自己度量的数据被老板批评,这种体验是难以持续支撑度量效果的。

尽可能自动化度量:既然度量是长期持续的行为,且耗费成本,肯定应该尽量自动化进行。但是确实有一些关键指标的元数据不是自动产生的,可以依托众包平台或者问卷调研平台的录入数据,实现及时的自动呈现。

趋势可能比数值更重要:很多指标的动态趋势可能比静态数值更应该引起重视,对此工程师不应该只停留在对大小的监控预警,而是应该实现一定时间周期内的趋势(突增突降,连续多次增或降)监控预警。比如每日新报告缺陷的趋势,每日完成故事点数的趋势(燃尽图)。趋势图也能看出哪个测试阶段被“卡”住了,急需采取紧急动作。

实验性:既然敏捷的原则就是快速试错,不断改进。那么把度量指标认为是“权威”和“必备的考核目标”的看法,显然和敏捷原则背道而驰的。即使团队对度量指标的价值和定义达成了共识,也需要在实践中观察是否合理或精准。可以考虑对指标进行一段时期灰度实验或者AB测试,挑选出更符合团队实际情况的改进指南指标。

以上是度量指标本身应该具有的特性。

度量指标体系的分层

如果从整个度量指标的体系设计的内容分层来看,至上而下可以分为下面三个层次,围绕不同的层次和受众去呈现关键指标。

一 面向商业组织层面的度量

组织,尤其高级管理者,关注的是经营的成功,因此度量整体效益(利润和成本),规模增长速度,用户满意度和NPS指数,这几类指标一定是最重要的,代表团队现在是否健康,未来是否有更多商业机会,是否受市场欢迎。

针对组织的度量比较敏感,会受到组织结构和利益角色的挑战,应当基于高层的支持,聚焦在市场客观反馈的北极星指标(即唯一关键指标)。

二 面向具体产品层面的度量

这个层面的度量是关注具体产品项目交付的效益和口碑,是否达成既定目标。比如需求交付周期、发布频率、项目成本、产品体验关键指标、线上缺陷、投诉率和解决率等等。这个层面的度量指标需要产品人员和技术人员达成一致,共同关注,共同改进。

产品整体性度量指标最好能被进一步拆解,便于团队分模块识别可改进的抓手,同时避免遗漏。

对于不太熟悉的新产品或新价值领域,也可以先选取一个达成共识的单一重要指标,在深刻理解和应用之后,不断扩展指标的覆盖范围或相关类型。

三 面向研发能力层面的度量

这块通常是实时呈现的研发质量及效率指标,可以立刻采取具体的改进行动。比如日构建次数、单元测试通过率、接口测试覆盖率、App崩溃率、首页流畅度等。

“效能”和“敏捷”的定义

这些年来,很多公司言必称效能,但是大家对“效能”这个新词与“敏捷”这个老词的理解是含糊不清的,它们是同一个意思么?

本人拙见,敏捷是原则、价值观和方法论指导框架,效能是衡量研发产出效益的客观数据结果。敏捷是内功,效能是表象。正确坚定地实践敏捷方法,应该逐步带来效能的明显提升;但反之则不然,效能指标提升,不一定代表我们采纳了正确的敏捷措施,需要进一步分析。

软件交付的北极星指标

需求交付效能的提升,是由两个闭环驱动的。左环由产品团队主导,决定做什么,为什么做,为谁做。右环由开发团队主导,实现怎么做。(参考《持续交付2.0》一书)

左环往往是更漫长的,它有大量的调查,实验,选择和决策过程。如果要驱动产品团队提高左环的效率,需要强化“精益需求实践方法论,见聊聊精益需求管理(合辑共九篇)”,提升产品和研发的敏捷设计能力。

研发团队更多是主导右环的顺利交付。

之前几篇文章也提到过(聊聊需求的工作量估算),对于一个产研团队而言,最关键的北极星指标就是需求交付周期(Lean Time),从明确产品的用户需求,到代码最终发布到用户手上。

我们可以把完整的需求交付周期拆分为三个串行的阶段:需求设计阶段,需求研发阶段,需求上线阶段

  • 需求设计阶段。从用户需求明确,到产品需求规格明确(PRD)。 用户需求一个是来自于业务侧,一般通过BRD规格文档梳理。另一个是来自于产品团队或者技术团队,来源可以是用户反馈和竞争力发展。

  • 需求研发阶段。需求评审+开发设计+开发编码+开发自测+需求测试在联调环境通过 需求评审环节建议在需求研发阶段度量,因为澄清需求工作量和发布内容的取舍,就能让迭代交付时间可控。

  • 需求发布阶段。包括UAT测试验收+灰度+全量发布 在行业中,对于不需要正式UAT,发布成本极低的产品,这个阶段如果耗时很小,则不需要专门度量。

其中,作为技术部门可控的需求交付周期,是需求研发&发布阶段的总周期。如果业务风险大,UAT和发布成本高,发布阶段的耗时长,就需要专项优化。

行业敏捷团队的需求研发周期推荐指标是28天(阿里巴巴集团推荐值),即在4周一个迭代内完成。杰出团队平均能在18天完成需求研发。

为什么选择这个北极星指标?

因为需求交付周期决定了最终用户满意度,而且它可以驱动其他所有的效能指标。

只要交付快起来,需求就会被合理拆解,质量风险就会下降,自动化建设、工程成熟度就会提升,流程就会优化。

北极星指标就意味着只有一个指标,指引所有人。目前暂时也没看到更有说服力的单一指标可以替代北极星指标的位置。

结语

针对整个软件生命周期,鼎叔见过形形色色的度量指标KPI,其中有不少是“伪敏捷”的,会让团队走向“虚假繁荣”,对于“短期成功”的原因一知半解。有些指标是需要组合分析,才能识别风险究竟在哪里。

鼎叔认为,每个团队可以有自己的自主风格和不同成熟度阶段。过段时间,本公众号会结合个人心得,推荐一些敏捷团队可以好好挖掘的拆解指标。

<think>好的,我现在需要帮用户详细聊聊评估指标设计,特别是在AI产品经理和算法团队在预训练模型微调阶段的合作中的角色。用户之前已经问过AI产品经理在微调阶段的作用和如何与算法团队配合,现在想更深入地了解评估指标设计部分。 首先,我需要回顾之前的对话,确保这次回答连贯。之前我提到了评估指标设计是产品经理的核心作用之一,需要与算法团队共同制定符合业务目标的评估体系。现在用户希望更详细地了解这一部分,可能需要分步骤说明,涵盖评估指标的类型、设计流程、注意事项以及案例分析。 用户可能的深层需求是希望了解如何具体操作,比如如何选择适合的指标,如何避免常见陷阱,或者如何在实际项目中应用这些指标。因此,我需要结构清晰,分点阐述,可能包括指标的分类(通用指标、业务指标、人工评估)、设计步骤、设计原则、常见误区、案例分析等部分。 需要注意使用用户之前提到的格式要求:行内数学公式用$...$,独立公式用$$...$$,但用户这次的问题可能不需要太多公式,不过如果有的话需要正确使用LaTeX。比如在提到准确率、F1值等时,可能需要公式,比如准确率是$\frac{TP+TN}{TP+TN+FP+FN}$,F1是$\frac{2 \times Precision \times Recall}{Precision + Recall}$等。 还需要考虑用户可能是AI产品经理或相关角色,希望了解实际操作中的评估指标设计,所以内容需要实用,结合案例,避免过于理论化。同时,可能需要提醒产品经理在指标设计时与算法团队沟通的重要性,以及如何平衡不同指标之间的冲突,比如准确率与响应时间的权衡。 可能的误区包括过度依赖单一指标、忽略业务场景的特殊性、未考虑数据分布等,这些都需要在回答中提及。此外,案例分析部分可以举一个具体的例子,比如在客服系统中如何设计指标,或者在内容审核中的多维度评估。 最后,总结部分需要强调评估指标设计的重要性,以及产品经理在其中起到的桥梁作用,确保技术指标与业务目标一致。同时,可以建议定期复审指标,根据业务变化调整评估体系。</think>以下是关于评估指标设计的详细解析,结合业务场景与技术实现,分步骤说明其核心逻辑及实操方法: --- ### **一、评估指标的核心价值** 评估指标是衡量模型效果的“尺子”,需同时满足两个目标: 1. **技术可量化**:能被算法团队用于优化模型(如损失函数、准确率)。 2. **业务可感知**:能直接反映业务效果(如用户留存率、审核通过率)。 --- ### **二、评估指标的分类与设计方法** #### **1. 通用技术指标(算法团队主导)** 用于基础模型性能评估,需与产品经理对齐业务权重: - **分类任务** - 准确率:$\text{Accuracy} = \frac{TP+TN}{TP+TN+FP+FN}$(适用于类别均衡场景) - F1值:$\text{F1} = \frac{2 \times \text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}$(平衡精确率与召回率) - AUC-ROC曲线:衡量排序能力,适合点击率预测等场景。 - **生成任务** - BLEU:基于n-gram匹配,常用在机器翻译(需注意对长文本的局限性)。 - ROUGE:关注召回率,适合文本摘要评估。 - 人工评估:通过众包标注判断生成内容的流畅性、相关性。 - **其他任务** - 目标检测:mAP(mean Average Precision) - 推荐系统:NDCG(归一化折损累积增益) **设计要点**: - 明确指标缺陷(如BLEU无法评估语义正确性) - 多指标组合(例:F1值+人工审核通过率) #### **2. 业务定制指标(产品经理主导)** 需将业务目标转化为可量化公式: - **客服对话系统** - 问题解决率 = $\frac{\text{用户未转人工的会话数}}{\text{总会话数}}$ - 平均对话轮次:反映效率(值过低可能说明模型未理解用户意图) - **内容审核模型** - 漏杀率 = $\frac{\text{未识别违规内容数}}{\text{总违规内容数}}$ - 误杀率 = $\frac{\text{误判正常内容数}}{\text{总正常内容数}}$ - **平衡策略**:设置阈值使漏杀率≤1%且误杀率≤5%(需与风控团队协商) - **电商推荐模型** - 购买转化率 = $\frac{\text{点击后购买的用户数}}{\text{总点击用户数}}$ - 长尾商品覆盖率 = $\frac{\text{被推荐的长尾商品SKU数}}{\text{总长尾商品SKU数}}$ **设计要点**: - 定义指标时需明确统计口径(如“长尾商品”的具体定义) - 区分核心指标与观察指标(例:核心指标是漏杀率,观察指标是响应延迟) #### **3. 人工评估体系** 当自动指标无法覆盖复杂场景时使用: - **评分维度设计**(以生成任务为例): ```markdown | 维度 | 评分标准 | 权重 | |------------|-----------------------------------|------| | 相关性 | 回答是否与问题直接相关(1-5分) | 40% | | 事实准确性 | 是否存在事实错误(1-5分) | 30% | | 可读性 | 语句是否通顺、符合语法(1-3分) | 20% | | 价值观安全 | 是否包含敏感/偏见内容(一票否决) | 10% | ``` - **操作规范**: - 提供标注手册(例:如何界定“中性评论”) - 使用Kappa系数检验标注一致性(通常要求>0.6) --- ### **三、评估指标设计流程** 1. **需求拆解** - 与业务方确认核心目标(例:风控场景“宁可错杀不可漏杀”) - 识别约束条件(如模型延迟必须≤300ms) 2. **指标候选集构建** - 技术指标:从算法论文/实践中选择(如目标检测用mAP) - 业务指标:通过用户调研、历史数据分析提取(例:发现客服对话中70%的用户问题集中在5类意图) 3. **指标权重分配** - 使用层次分析法(AHP)量化优先级: - 业务专家对指标两两比较重要性 - 计算权重向量(需通过一致性检验) 4. **基线设定与迭代** - 基于当前业务表现设定基线(例:现有规则引擎漏杀率3%,目标微调后降至1%) - 动态调整:当业务场景变化(如新增商品品类)时重新校准指标 --- ### **四、常见误区与解决方案** | 误区类型 | 典型案例 | 解决方案 | |-------------------------|-----------------------------------|-------------------------------| | **指标与业务目标脱节** | 优化翻译模型的BLEU值,但实际用户更关注术语准确性 | 增加术语准确率专项评估 | | **单一指标过拟合** | 为提升F1值过度调整阈值,导致用户体验下降 | 加入人工评估或满意度调查 | | **忽略数据分布影响** | 在类别不均衡数据中使用准确率(如欺诈检测) | 改用F1值或AUC-ROC | | **评估场景覆盖不全** | 只测试高频case,未覆盖边缘场景(如方言识别) | 构建包含长尾case的测试集 | --- ### **五、典型案例分析** #### **案例:智能客服意图识别微调** - **业务需求**:减少转人工率(当前30% → 目标15%) - **指标设计过程**: 1. 拆解技术指标: - 意图分类准确率(F1值) - 未知意图检测召回率(识别用户问题是否超出预设范围) 2. 定制业务指标: - 转人工率 = $\frac{\text{主动请求人工的会话数}}{\text{总会话数}}$ - 问题解决率(通过用户反馈按钮统计) 3. 人工评估规则: - 抽样检查模型是否将“我要退订套餐”错误归类为“查询套餐” --- ### **六、协作关键点** 1. **指标透明化**:向算法团队解释为何选择特定指标(例:为何不用准确率而用F1值) 2. **工具共建**:开发自动化评估脚本(如定期运行测试集生成指标报告) 3. **冲突调解**:当技术指标提升但业务指标下降时,推动根因分析(如模型过度压缩导致效果损失) 通过科学设计评估指标,AI产品经理能有效引导算法优化方向,避免“模型表现好但业务价值低”的常见困局。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值