该问题归类到Transformer架构问题集——解码策略——采样与可控性。请参考LLM数学推导——Transformer架构问题集。
1. 引言
在大语言模型(LLM)的生成场景中,多假设生成(MHG)如同为问题配备的 “智囊团”—— 机器翻译需要多版译文对比,故事创作需要多情节分支拓展,代码生成需要多种实现路径备选。然而,如何评估这些候选集合的多样性,始终是优化生成效果的关键课题。本文将从技术原理、数学理论、实战应用到代码实现,逐层解析多样性度量的核心公式,揭示如何让 AI 生成的 “智囊团” 既百花齐放又精准有效。
2. 技术原理:多样性度量的三层透视镜
多假设生成的核心目标,是在合规性基础上追求候选集合的 “差异化价值”。这种价值体现在三个维度,对应三类度量方法:
2.1 表面结构:看得见的差异
- 编辑距离(Edit Distance):通过插入、删除、替换操作的最小次数,量化序列表面差异。例如 “猫坐在沙发上” 与 “猫趴在沙发上” 的编辑距离为 1(替换 “坐” 为 “趴”),反映词汇层差异。这种度量直接作用于文本符号空间,适合快速判断句式、用词的变化幅度,就像用放大镜观察文字的细微差别。
- n-gram 重叠率:统计候选间共享的 n 元语法比例。如两句共享的 3-gram 越少,说明句式结构差异越大,适合机器翻译中评估译文的句式多样性。例如 “主谓宾” 与 “宾谓主” 结构的 3-gram 重叠率低,表明译文在语法结构上具有创新性。
2.2 语义空间:看不见的分野
- 余弦相似度(Cosine Similarity):借助 BERT 等模型将文本转为语义向量,向量夹角越小,语义越接近。例如 “快速排序” 与 “冒泡排序” 的向量夹角较大,说明算法原理差异显著。这种度量深入语义层面,能够捕捉文本背后的概念差异,如同用 CT 扫描透视文字背后的意义骨架。
- 互信息(Mutual Information):衡量候选在语义空间的依赖程度。低互信息意味着候选更独立,如故事的 “悲剧结局” 与 “喜剧结局” 应具有低互信息,避免情节重复。互信息低的候选集合,就像不同频道的电视节目,各自聚焦不同主题,为用户提供多元选择。
2.3 分布特性:全局的均衡感
- 熵(Entropy):若候选得分均匀分布(如各占 25%),熵值高,说明模型对不同假设的 “信心” 均衡;若某候选独得 80% 得分,熵值低,反映多样性不足。熵值就像天平的平衡指针,稳定在中间位置时,意味着模型对各个候选的偏好较为平均,避免 “一家独大” 的生成偏差。
- 涵盖率(Coverage):评估候选对有效解空间的覆盖度。例如代码生成中,若候选覆盖了冒泡排序、快速排序、归并排序,则涵盖率高,反之则可能陷入单一解法。涵盖率是对生成全面性的宏观检验,确保 “智囊团” 没有遗漏重要的解决方案方向。
3. 数学理论:从局部到全局的度量公式
3.1 局部差异:平均成对差异(APD)
设候选集合为 ,构建差异矩阵 D ,其中
表示
与
的差异(如归一化编辑距离或 1 - 余弦相似度)。

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



