从词典语法表到LMF及Wiktionary数据转换的探索
词典语法表转换为LMF
在将词典语法(LG)表转换为词汇标记框架(LMF)格式的过程中,由于子范畴化框架(subcategorizationFrame)元素之间存在继承的可能性,这种编码方式理论上可以在LMF格式中实现。不过,我们将这种探索留作未来的实验。目前大多数可用的LMF编码示例,都是将一个给定的结构编码到单个子范畴化框架元素中,并以最大的详细程度来表示。开发继承的使用以及相应的转换器会是一个更具创新性的项目,但需要更多时间。
因此,我们对完全指定的句法结构进行了编码,将特定参数的特征复制到特定结构的特征中。这使得我们为13,900个词汇项(占34%)生成了多达4,700个不同的结构。为了帮助读者管理如此大量的数据,我们采用了助记标识符而非数字。通过并行运行LGLex - Alexina转换器和LGLex - LMF转换器,使用了Alexina对结构编码的一种变体。每个标识符包含参数及其实现的列表、各种特征标签以及参数重新分配的标签,如主动或被动,例如: [Suj:cln|sn,Obl:(de - sinf)];@pron,@être,@SujNhum,@CtrlSujObl;%actif 。
句法成分(syntacticConstituent)指定了成分的句法类别,包括名词短语(NP)、介词短语(PP)、不定式从句、由que或le fait que引导的补语从句(completive - clause)、由si引导的补语从句(wh - completive - clause)、形容词短语(adj)和各种类型的小品词代词。引入器(introducer)列出介词,并指定了位置介词(如dan
超级会员免费看
订阅专栏 解锁全文
8

被折叠的 条评论
为什么被折叠?



