捷克语语序分析与主题 - 述题识别及基于关联数据的包装器归纳研究
捷克语语序位置与分析层次
在捷克语中,其语序较为自由,这使得句子成分能够较为随意地组合。不过,名词、形容词和副词短语内部的语序实际上是固定的。大约 60% 的捷克语句子中,限定动词处于中间位置。捷克语的形态句法格允许直接宾语(宾格)或间接宾语(与格)置于句首,而主语(主格)常位于句尾,状语成分(由副词或各种格的介词短语表示,最常见的是方位格)也是如此。
我们区分出捷克语句子中最多五种语序位置:
- 前初始位置(通常由连词占据)
- 初始位置
- 初始后位置(黏着词遵循瓦克纳格尔规则)
- 中间位置
- 最终位置
与中间位置不同,初始和最终位置必须存在(甚至可能以合并的初始 - 最终位置形式出现),且每个位置只能包含一个句子成分。初始、中间和最终位置可由名词短语、副词短语或动词占据,前初始位置可能出现连词或小品词。
为了最终获得处于语序位置的带标签句子成分,需要使用自动化工具成功执行以下几个离散步骤,以 “Přijdu do školy, až napíšu ten text.(我写完文本后会去学校)” 为例:
1. 分词 :使用 unitok.py 对输入文本进行分词,得到基本的垂直文本。
2. 词性标注与词形还原 :通过形态分析器 Majka 和形态句法消歧器 Desamb 为垂直文本添加复杂的词性标签和词形。
3. 解析 :使用部分由作者编写的实验性语法,由 SET 解析器对经过形态标注的输入进行明确
超级会员免费看
订阅专栏 解锁全文
5312

被折叠的 条评论
为什么被折叠?



