Transformer——Q95 分析多假设生成(Multiple Hypotheses Generation)的多样性度量公式

该问题归类到Transformer架构问题集——解码策略——采样与可控性。请参考LLM数学推导——Transformer架构问题集

1. 引言

在大语言模型(LLM)的生成场景中,多假设生成(MHG)如同为问题配备的 “智囊团”—— 机器翻译需要多版译文对比,故事创作需要多情节分支拓展,代码生成需要多种实现路径备选。然而,如何评估这些候选集合的多样性,始终是优化生成效果的关键课题。本文将从技术原理、数学理论、实战应用到代码实现,逐层解析多样性度量的核心公式,揭示如何让 AI 生成的 “智囊团” 既百花齐放又精准有效。

2. 技术原理:多样性度量的三层透视镜

多假设生成的核心目标,是在合规性基础上追求候选集合的 “差异化价值”。这种价值体现在三个维度,对应三类度量方法:

2.1 表面结构:看得见的差异

  • 编辑距离(Edit Distance):通过插入、删除、替换操作的最小次数,量化序列表面差异。例如 “猫坐在沙发上” 与 “猫趴在沙发上” 的编辑距离为 1(替换 “坐” 为 “趴”),反映词汇层差异。这种度量直接作用于文本符号空间,适合快速判断句式、用词的变化幅度,就像用放大镜观察文字的细微差别。
  • n-gram 重叠率:统计候选间共享的 n 元语法比例。如两句共享的 3-gram 越少,说明句式结构差异越大,适合机器翻译中评估译文的句式多样性。例如 “主谓宾” 与 “宾谓主” 结构的 3-gram 重叠率低,表明译文在语法结构上具有创新性。

2.2 语义空间:看不见的分野

  • 余弦相似度(Cosine Similarity):借助 BERT 等模型将文本转为语义向量,向量夹角越小,语义越接近。例如 “快速排序” 与 “冒泡排序” 的向量夹角较大,说明算法原理差异显著。这种度量深入语义层面,能够捕捉文本背后的概念差异,如同用 CT 扫描透视文字背后的意义骨架。
  • 互信息(Mutual Information):衡量候选在语义空间的依赖程度。低互信息意味着候选更独立,如故事的 “悲剧结局” 与 “喜剧结局” 应具有低互信息,避免情节重复。互信息低的候选集合,就像不同频道的电视节目,各自聚焦不同主题,为用户提供多元选择。

2.3 分布特性:全局的均衡感

  • 熵(Entropy):若候选得分均匀分布(如各占 25%),熵值高,说明模型对不同假设的 “信心” 均衡;若某候选独得 80% 得分,熵值低,反映多样性不足。熵值就像天平的平衡指针,稳定在中间位置时,意味着模型对各个候选的偏好较为平均,避免 “一家独大” 的生成偏差。
  • 涵盖率(Coverage):评估候选对有效解空间的覆盖度。例如代码生成中,若候选覆盖了冒泡排序、快速排序、归并排序,则涵盖率高,反之则可能陷入单一解法。涵盖率是对生成全面性的宏观检验,确保 “智囊团” 没有遗漏重要的解决方案方向。

3. 数学理论:从局部到全局的度量公式

3.1 局部差异:平均成对差异(APD)

设候选集合为 \mathcal{H} = \{h_1, h_2, ..., h_m\},构建差异矩阵  D ,其中 D_{i,j} 表示 h_i 与 h_j 的差异(如归一化编辑距离或 1 - 余弦相似度)。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

墨顿

唵嘛呢叭咪吽

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值