SPICE是一种文本生成的评价方法. SPICE 使用基于图的语义表示来编码 caption 中的 objects, attributes 和 relationships。首先,它将待评价的captions和参考captions通过一种名为概率上下文无关文法(Probabilistic Context-Free Grammar, PCFG)依赖解析器(dependency parser)解析成句法的依赖关系树(syntactic dependencies trees),然后利用基于规则的方法把dependencies tree映射成场景图。具体地,生成依赖关系树之后,通过3个后处理步骤(分别用于简化定量修饰符、解析代词和处理复数名词),然后根据九种简单的语言规则对生成的树结构进行解析,以提取对象、关系和属性,它们共同构成场景图。最后计算待评价的 caption 中 objects, attributes 和 relationships 的 F-score 值。

假设ccc是一条待评价标注,称为候选标注,sss是一条参考标注。上图中左下角是5条参考标注。通过候选标注生成场景图记为G(c)G(c)G(c),所有的参考标注sss组成参考标注集合SSS,通过SSS生成的场景图记为G(S)G(S)G(S)。T(⋅)T(\cdot)T(⋅) 表示将一个场景图转换成一系列元组(tuple)的集合。
其中G(c)=<O(c),E(c),K(c)> G(c)=\quad<O(c),E(c),K(c)>G(c)=<O(c),E(c),K(c)>元组的形式为T(G(c))⇔O(c)∪E(c)∪K(c)T(G(c))\hArr O(c)\cup E(c)\cup K(c)T(G(c))⇔O(c)∪E(c)∪K(c)
O(c)⊆CO(c)\sube C<
从文本生成场景图(1)——SPICE:Semantic Propositional Image Caption Evaluation
最新推荐文章于 2025-09-17 02:04:28 发布
SPICE是一种基于图的语义表示方法,用于评价文本生成的caption。它通过PCFG依赖解析器将caption转化为场景图,并计算objects、attributes和relationships的F-score。该方法考虑了依赖关系树的简化、代词解析和复数处理,最终通过F1分数评估候选caption的质量。METEOR作为补充,关注词序和匹配的一元组数量。

最低0.47元/天 解锁文章
2万+

被折叠的 条评论
为什么被折叠?



