俄语日常口语中最常见的词序列分析
在自然语言处理和语言学研究中,分析语言中的常见词序列对于理解语言结构和使用模式至关重要。本文将聚焦于俄语日常口语中的双词组合(bigrams)和三词组合(trigrams),通过 n - gram 分析技术揭示其频率特征和类型。
1. 相关概念与研究背景
在语言学里,“结构”通常指事物组成部分之间的排列和关系。而在语言领域,尤其是口语中,“结构”更多地用“construction”来表示,它指从语法关系角度看待的词的组合。对结构的研究催生了众多语言学研究方向,如 Construction Grammar(CxG),这表明语法和词汇之间的界限常常模糊不清。
n - gram 分析是识别多词单元并根据不同标准进行分类的传统方法。“N”代表序列中考虑的单元数量,常见取值为 1 到 5。在本研究中,n - gram 用于统计基于自发口语录音转录的图形词序列。
2. n - gram 分析的材料与方法
本研究的源数据来自“One Speech Day”(OSD)语料库中的 388 个日常口语交流片段,录音时长约 110 小时,涵盖了各种日常交流场景,包括家庭聊天、工作对话、与朋友和熟人的交流等。
具体操作步骤如下:
1. 转录 :在 ELAN 多媒体注释环境中对 OSD 语料库进行转录,并以 .eaf 格式存储。
2. 提取 :提取“Phrases”层用于自动计算 n - gram,此时不考虑说话者和交流的具体情况。
3. 预处理
超级会员免费看
订阅专栏 解锁全文
32

被折叠的 条评论
为什么被折叠?



