深入解读文本背后的隐含信息挖掘
1. 从文本中提取隐含信息挖掘(RBL)结果
在文本分析中,话语分析有助于发现那些可能形成有前景的候选RBL结果的基本话语单元(EDU)。默认的修辞关系,如阐述(Elaboration)和联合(Joint),往往不太能带来有价值的信息。我们期望的RBL结果是那些不同寻常、出人意料且具有涌现性的内容。像归因(Attribution)、条件(Condition)和背景(Background)等修辞关系,能指示潜在有信息价值的EDU。而对比(Contrast)、原因(Cause)和解释(Explanation)等关系,则能引入那些超出人们常规认知的事实和观察,是最佳的候选RBL结果。
此外,附着在对话树(DT)边缘的交际行为(形成交际对话树CDT),也是判断一个EDU对于形成RBL结果是否有趣的重要指标。如果某句话通过特定的交际方式(如不同意或确认)从一个人传递给另一个人,那么在大多数情况下,交际行为的主题可以作为很好的RBL候选。例如,在图16的顶部,交际行为表达式“ought(person, strive(person, consistent(person, [word, action])))”附着在从第二个阐述节点(从顶部开始)引出的边缘上。嵌套的交际行为强烈表明了最内层主题的重要性,如“consistent(person, [word, action])”。
2. 困难的RBL案例
在某些文本中,RBL虽然至关重要,但却难以自动化实现。以GPT - 2模型的介绍为例:“我们的模型GPT - 2,只是被训练来预测40GB互联网文本中的下一个单词。由于我们担心该技术的恶意应用,我们不会发布训练好的模型。然而,作为负责任披露的实
超级会员免费看
订阅专栏 解锁全文
38

被折叠的 条评论
为什么被折叠?



