文本索引、本体设计与实体识别技术解析
1 文本索引策略
在进行搜索索引时,我们仅对主要的常见问题解答(FAQ)问题以及从答案中确定为有信息价值的部分所获得的替代问题进行索引,并将这些数据放入索引 IndexNucleus 中。搜索时,首先针对该索引运行查询。替代问题技术对诸如 Microsoft QnA Maker 等问答工具起到补充作用,这些工具原本每个答案仅对应一个问题,而实际上应采用多个替代问题以确保合理的召回率。只有在搜索 IndexNucleus 未获得结果时,才会退回到传统的基线搜索索引 IndexA,它为搜索应用程序提供默认功能。
1.1 修辞结构理论(RST)与文本连贯性
RST 对文本的逻辑组织进行建模,它依赖于文本各部分之间的关系,通过话语树(DT)形成文本的层次化、连接结构,以此模拟文本(尤其是答案)的连贯性。修辞关系分为并列和从属两类,这些关系存在于两个或多个文本跨度(EDU)之间。相邻的 EDU 通过连贯关系(如归因、序列)连接,形成更高级别的话语单元。通过关系连接的 EDU 会根据其相对重要性进行区分:核心部分是关系的核心,而卫星部分则是外围部分。
1.2 话语树指示索引内容
以一个问答对及答案的 DT 为例进行分析。问题是“如何规划支付转换为罗斯个人退休账户(Roth IRA)所产生的税款?”答案中,有些子句对回答问题的相关性更强。例如,“通常是个好主意”对答案的贡献不大,而“考虑不使用转换所得款项”则能为提出原始问题的用户提供信息。因此,像“通常什么是好主意?”这样的一般性问题,该答案并不适用;而“是否应考虑不使用转换所得款项?”则可以用这个答案很好地回答。
我们假设只有修辞关系核
超级会员免费看
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



