开发问答系统与解析亚洲象发声:研究进展与成果
在自然语言处理和动物行为研究领域,分别有关于开发问答系统以及解析亚洲象发声的重要研究。以下将为大家详细介绍这两方面的研究内容。
开发问答系统
在自然语言处理中,训练问答系统(QAS)是一项重要的任务。研究人员收集了ruOHQA语料库,其内容最初为口头形式,受受访者情绪状态和年龄的影响较大。由于训练QAS需要结构化的训练数据,因此ruOHQA语料库不仅进行了自动标注,还进行了手动标注。
在ruOHQA语料库的答案中,研究人员发现了一些常见的词形还原后的单词。例如,与记忆相关的动词,如“znat”(知道)、“pomnit”(记得);表示家庭成员的名词,如“mama”(妈妈)、“papa”(爸爸)、“babyxka”(奶奶)等。还有一个重要且常用的词“evpe”(犹太人),它显示了叙述者的国籍,并且是讨论特定主题的核心概念。
为了训练QAS模型,研究人员选择了在Huggingface框架下,基于DeepPavlov的非正式文本预训练的蒸馏版ruBERT模型。选择这些模型的原因如下:
1. 预训练模型使用的非正式文本与ruOHQA数据集的对话结构相匹配。
2. 蒸馏版模型具有相对较快的学习率。
3. 蒸馏版模型的性能与完整模型相当。
4. ruBERT模型在俄语自动语言处理任务中表现出较高的准确性。
研究人员将ruOHQA数据集按0.7:0.3的比例划分为训练集和测试集,分别用于模型的训练和评估。由于ruOHQA数据集的规模有限,无法仅基于该数据集训练模型,因此研究人员决定在专门为解决俄语问答问题而收集的SberQuAD语料库上评估结果。最后,研究人员将SberQ
超级会员免费看
订阅专栏 解锁全文
1342

被折叠的 条评论
为什么被折叠?



