语言解析与生物系统建模:从匈牙利语到语言 M
在语言解析和生物系统建模领域,有许多有趣的研究成果。下面我们将分别探讨匈牙利语解析中的窗口大小问题以及一种用于生物系统建模的语言 M。
匈牙利语解析中的窗口大小
在语言解析过程中,窗口大小是一个重要的概念。以匈牙利语为例,通过实验和语料分析,我们可以了解到如何根据语言特点确定合适的窗口大小。
- 实验与熵现象 :通过实验发现,答案的多样性和反应时间的长短表明,基于已知上下文,很容易且准确地预测下一个项目(单词本身或至少其词性),这与熵的概念相匹配。实验结果呈现出两个趋势:
- 当词汇搭配很强时,参与者的决策策略是冒险且快速的,会选择搭配来加速解析。
- 参与者会尽快为动词选择修饰语,并使用与动词要求对应的格标记来快速闭合名词短语。
- 窗口大小的确定 :为了验证 Fodor 和 Frazier 提出的“香肠机”第一阶段使用的窗口大小约为六个单词的说法,对匈牙利语进行了研究。由于匈牙利语是黏着语,大部分信息存储在内容词的词素后缀中,因此发现较窄的窗口就足够了。初步实验将窗口大小设定为“三个内容词”。在窗口不够的情况下,可能会使用其他解析策略。
- 动词及其前缀 :匈牙利语中,超过一半能携带前缀的动词可以在句子中使用各种前缀。动词本身可能有多种相互矛盾的参数结构,而前缀的出现可以过滤不可能的参数结构,加快解析速度。对 InfoRádió 语料库的测量表明,99% 的后置前缀出现在动词后最多两个位置,
超级会员免费看
订阅专栏 解锁全文
1370

被折叠的 条评论
为什么被折叠?



