多语言文档语言检测与跟踪及句子聚类方法研究
在自然语言处理领域,多语言文档的语言检测与跟踪以及句子聚类是重要的研究方向。下面将详细介绍相关的研究方法和实验结果。
多语言文档语言检测与跟踪
- 方法概述 :将随机学习弱估计(SLWE)与混合阶n - 元语法模型相结合,提出了一种用于多语言口碑(WoM)文档语言分类的新方法。选择n - 元语法作为特征,是因为其对输入文本中的噪声具有鲁棒性,且对于较短的文本片段,基于单词的特征可能无法包含足够的信息。
- 基本算法 :该模式识别(PR)系统分为两个阶段。
- 训练语言模型 :训练集由单语预标注文档组成,对文档进行分词,去除非字母数字字符,将单词扩展为混合阶n - 元语法,将n - 元语法的频率转换为概率,得到每种语言的n - 元语法概率分布。
- 分类与测试 :测试文档通过拼接单语文档的片段生成,可对多语言样本文档的每个片段进行预标注。对文档进行分词,SLWE的特征向量由所有语言模型中的唯一n - 元语法组成,初始化概率均匀。处理文档中的每个单词,将其扩展为混合阶n - 元语法,根据SLWE的多项式更新方案更新概率估计。处理完单词的所有n - 元语法后,测量估计概率向量与每种语言概率分布之间的距离,将单词分类为距离最短的语言。假设句子是单语的,统计句子中单词的分类数量,将句子分类为单词分类数量最多的语言,验证结果保存在混淆矩阵中。
超级会员免费看
订阅专栏 解锁全文
52

被折叠的 条评论
为什么被折叠?



