摘要:分享YodaQA问答的代码实现流程,解析问题分析(Question Analysis)的代码实现。
问题分析:生成词性标注(POS)标签和依存句法分析结果,识别出命名实体;生成若干QA特征:线索、焦点、LAT。
-
线索(Clue):问题内容的中心词,用于查询候选答案。可以是多种成分,如名词短语、名词标记、选择动词、命名实体、问题句主题等,不同成分对应的权重存在差异。如果线索对应于enwiki文章题目或者重定向别名,那么它的权重会被提升。
-
焦点(Focus):问题句子的中心点,指示被查询对象。基于依存句法分析的结果,使用简单启发式规则抽取6个要素,按照规定格式构成焦点。
-
LAT(Lexical Answer Type,词汇答案类型):描述和问题相匹配的答案类型,它不是预先定义的类别,可以是任意英语名词。
-
生成LAT方法:将单词映射为名词(从“where”到“location”),将副词归一化(从“hot”到“temperature”)。