文本分析与人类记忆中单词激活建模研究
1. 文本分析示例
特定主题可能会定义其自身的特定子语言,不同子语言与完整语言之间的差异已在广泛主题中得到研究。在本次研究中,我们关注更细粒度的主题,这些主题可能主导单个文档的不同部分。细粒度子语言并非在语法或语义上与文档整体语言有显著差异,而是对某些词汇关系有偏好。
为了说明基于SE的不确定条件句如何用于探索和描述特定细粒度主题的语言特征,我们使用同一文档的两种不同语言版本,以经典文学小说《堂吉诃德》为例,选取西班牙语原版和约翰·奥姆斯比翻译的英语版。通过关键词 {sword, hand, arm, helmet, shield} 及其西班牙语等价词 {espada, mano, brazo, yelmo, adarga} 来定义主题,主题定义SE的宽度选择为10。
| 语言 | 标记数量 | 术语数量 |
|---|---|---|
| 西班牙语 | 387675 | 24144 |
| 英语 | 433493 | 15714 |
使用公式 (15) 测试顺序关系,并选取暗示wa和wb(前件和后件宽度)较低值的关系作为代表,具体值如下表所示:
| 英语关系 | sword |
|---|
超级会员免费看
订阅专栏 解锁全文
7619

被折叠的 条评论
为什么被折叠?



