语音模式生产性的语料库证据
1. 初步考量
语音修改后的禁忌语(SWs)可通过语音图式性构式(SCxns)建模,但此类图式的认知现实性仍是重要问题。近期围绕高度图式性构式的合理性有诸多讨论,基于基于用法的方法中丰富记忆表征这一关键假设,若图式的主要功能是减少构式表征中的冗余,那么图式可能变得多余。并非所有可能的概括都反映了具有认知现实性的图式,因为图式性没有内在上限。不过,高度图式性构式是否存在可通过实证回答,其中一个主要证据是生产性,在语料库中可通过图式的类型频率和低频类型的出现来衡量:假定图式的高类型频率与低单例频率相结合,表明其具有生产性和认知现实性。
为测试假定的语音图式的生产性,使用了Bloggmix和Diskussionsforum语料库的数据,并进行了以下准备步骤:
1. 以字符串形式操作化 :将语音图式建模为字符串,再转换为可用于CQP查询的正则表达式。例如,[fa - x] 被建模为 [word=”fa. ”]。由于图式中音素与字母的对应关系较为直接,且考虑了拼写变化,将字符串解释为语音序列的问题通常可忽略不计。
2. 嵌入可检测模式 :由于禁忌语及其变体的多功能性,单独使用语料库搜索难以识别它们。但包含禁忌语的一些特定模式可可靠检测,如感叹模式 [fy sw]、[sw också] 和强化模式 [jävla adj],并将这些模式转换为CQP查询。例如,[fy fa - x] 转换为 [word=”fy”] [word=”fa. ”]。
3. 清理原始数据 :手动清理检索到的原始数据,谨慎规范明显的拼写错误和(
超级会员免费看
订阅专栏 解锁全文
31

被折叠的 条评论
为什么被折叠?



