认知可信表征与伦理考量
1. 迈向认知可信表征
当前对于认知可信表征的研究,需超越静态概念知识,以更好捕捉动词和副词的表征动态及其在程序处理中的作用。例如,观察用户在受控环境中的行为,可用于改进模型生成的指令消息;反之,用户也会根据观察到的多模态行为调整对模型的指令。
在多模态场景中,眼动追踪数据可作为人类注意力的代理,用于研究人类如何选择性地关注视觉线索,并将其无缝整合到联合解释中。相关研究如下:
- 图像描述生成 :研究人员记录参与者为屏幕上图像生成字幕时的眼动情况,并将这些眼动追踪信息添加到字幕生成模型的内部表征中,从而使图像描述更加自然和多样化。
- 视觉问答任务 :多模态模型的注意力与人类注视模式之间的高相关性,是视觉问答任务性能的重要预测指标,表明模型可从认知可信表征中受益。
- 信息检索 :整合注视信息有助于确定文档的相关性,但关键在于识别合适的表征合并操作。目前,这些特定任务的发现能否推广到更广泛的场景,仍是一个有待研究的问题。
2. 认知基础
在自然语言处理的多模态模型中,通常是将文本和视觉模态相结合。认知驱动的方法则提议将认知信号作为额外的模态,并重新利用现有的多模态架构。不过,认知数据的计算建模研究仍处于早期发展阶段。
2.1 信号融合
- 早期融合 :分别获取每种模态的表征,然后直接将它们连接起来,作为神经模型的输入表征。例如,用眼动追踪特征的向量表征增强句子的语言模型表征,可提高实体识别、词性标注、
超级会员免费看
订阅专栏 解锁全文
21

被折叠的 条评论
为什么被折叠?



