忠实度 Faithfulness
忠实度是指答案应基于给定的上下文。这对于避免幻觉至关重要,同时也能确保检索到的上下文可作为生成答案的依据。实际上,检索增强生成(RAG)系统常用于对生成文本与事实来源的一致性要求很高的应用场景,例如在信息不断更新的法律等领域。
如果答案as(q)a_{s}(q)as(q)中的主张能够从上下文c(q)c(q)c(q)中推断出来,我们就认为该答案忠实于上下文c(q)c(q)c(q)。为了评估忠实度,我们首先使用大语言模型(LLM)提取一组陈述S(as(q))S(a_{s}(q))S(as(q)) 。这一步的目的是将较长的句子分解为更简短、更聚焦的断言/陈述 statement。我们在这一步使用以下提示词:
给定一个问题和答案,从给定答案的每个句子中创建一个或多个陈述。
问题:[问题]
答案:[答案]
其中,[问题]和[答案]指的是给定的问题和答案。对于集合SSS中的每个陈述sis_{i}si,大语言模型会使用验证函数v(si,c(q))v(s_{i}, c(q))v(si,c(q))来判断sis_{i}si是否能从c(q)c(q)c(q)中推断出来。这个验证步骤使用以下提示词:
考虑给定的上下文和以下陈述,然后判断这些陈述是否能从上下文中的信息得到支持。在得出结论(是/否)之前,对每个陈述进行简要解释。最后按照给定的格式依次给出每个陈述的最终结论。不要偏离指定的格式。
陈述:[陈述1]
……
陈述:[陈述n]
最终的忠实度得分FFF的计算方式为F=∣V∣∣S∣F=\frac{|V|}{|S|}F=∣S∣∣V∣,其中∣V∣|V|∣V∣是根据大语言模型判断得到支持的陈述数量,∣S∣|S|∣S∣是陈述的总数。
这是测试数据
answer = "美国最高法院关于堕胎的裁决具有重要的全球影响。该裁决导致在堕胎访问受到限制的州,三分之一的生育年龄女性和女孩无法获得堕胎服务。那些州的母婴健康支持也较弱,母亲死亡率较高,儿童贫困率也较高。此外,裁决的影响超出了国界,由于美国在全球的地缘政治和文化影响力,这一裁决也产生了跨国影响。全球的组织和活动家担心这一裁决可能会激励其他国家出台反堕胎的立法和政策。裁决还妨碍了某些非洲国家的进步法律改革和堕胎指南的实施。此外,该裁决在国际政策领域造成了寒蝉效应,使得反堕胎的力量能够削弱人权保护。"
docs = [
"- 2022年,美国最高法院作出裁决,推翻了50年的判例法,取消了宪法堕胎权。\n- 这一裁决产生了巨大影响:三分之一的生育年龄女性和女孩现在生活在堕胎服务几乎完全无法获得的州。\n- 这些堕胎法律最为严格的州,母婴健康支持最为薄弱,母亲死亡率较高,儿童贫困率较高。\n- 美国最高法院的裁决还通过美国在全球的地缘政治和文化影响力,超越国界产生了影响。\n- 全球的SRR组织和活动家对这一裁决可能为其他国家的反堕胎立法和政策攻击铺路表示担忧。\n- 观察者还注意到该裁决对某些非洲国家的进步法律改革产生了影响,导致堕胎指导方针的 adoption 和执行停滞不前。\n- 该裁决在国际政策领域产生了寒蝉效应,助长了反堕胎的国家和非国家行为体破坏人权保护的势头。",
"美国最高法院的堕胎裁决不仅在国内引发了激烈的辩论和讨论,也在全球范围内引发了广泛关注。许多国家将美国视为法律和社会问题的领导者,因此这一裁决可能会影响其他

最低0.47元/天 解锁文章
4915

被折叠的 条评论
为什么被折叠?



