2021SC@SDUSC
由于源代码分析较为困难且工作量巨大,原本的“中文信息抽取”课题对于我们这个仅仅只有两个人的小组而言恐难以维系。因此,我们将课题更换成了“基于通用知识的推理问题”,接下来我们会展开对于这个课题的一些理解,阐述我们小组对此的分工,以及对于部分源代码的分析。
一、小组分工
“基于通用知识的推理问题”课题共有两个参考模型,分别是ACP和openOSR,以下是我们小组对这两个模型的代码分析分工情况。
由我负责分析OpenOSR模型,而梁同学则负责分析ACP模型。
二、有关课题的一些理解
由于是刚刚接手新课题不到一周的时间,因此对于课题的了解并不算十分深刻。以下仅仅只是粗浅地谈一谈自己对于课题中所使用的模型及其原理的认识,如有不当之处还请指正。
我们的课题名字是“基于通用知识的推理问题”,而我负责的模型是OpenCSR,即“开放式常识推理”。在讲解这个模型之前,首先需要了解的是推理问题的类型。问题一般分为两种,一种是场景中有候选答案的推理问题,另一种则是场景中没有候选答案的推理问题。粗浅地看,即是将问题分为了选择题和填空题这两种(暂不涉及推理过程),区别仅在于二者的选择范围不同。毫无疑问,“填空题”形式的选择范围,或者说决策空间更为巨大,最终的结果也不像选择题那样唯一或个数限定。这也正是这个课题的难点所在。
接下来谈谈所用到模型的思想。由于本人数学能力一般,因此对于模型思想没有办法用最精确的数学语言来呈现,只能从算法角度来剖析一下模型的内核。
2.1 相关数据结构
模型中首先初始给定两个数据结构:
- 存放有事实知识的语料库F,该集合中每个元素均描述了一段客观事实;
- 存放有语料库中处理得到的概念的集合V,该集合中每个元素均表述了一个名词或名词短语。