基于机器学习的米佐语新闻分类方法探索
1. 相关研究概述
在新闻分类和文本分类领域,已有众多针对不同语言的研究。对于低资源语言,如米佐语,相关研究相对较少,但也有一些成果。例如,曾有人构建了基于神经和统计方法的模型,将英语翻译成米佐语。
不同语言的新闻分类研究中,使用了多种机器学习算法,取得了不同的准确率:
| 语言 | 分类方法 | 准确率 |
| ---- | ---- | ---- |
| 尼泊尔语 | SVM(径向基函数核) | 74.65% |
| 尼泊尔语 | 线性 SVM | 74.62% |
| 尼泊尔语 | 多层感知器神经网络 | 72.99% |
| 尼泊尔语 | 朴素贝叶斯 | 68.31% |
| 孟加拉语 | 基于深度学习的分类 | 87% |
| 土耳其语 | 卷积神经网络 | 94.17% |
| 英语 | 卷积神经网络 | 96.41% |
| 旁遮普语 | 朴素贝叶斯 | 78% |
| 印尼语 | 多种分类技术 | 85% |
2. 数据描述
数据集来源于当地报纸、vanglaini.org 和 theaizawlpost.org,最初收集了 6730 篇文章,涵盖 Hmarchhak、Khawvel、Ramchhung、Tualchhung、Infiamna 和 Thalai 等类别。由于 Hmarchhak 类别文章数量较少(仅 494 篇),该类别被剔除,最终语料库包含 5 个新闻类别,共 6236 篇文章。各新闻类别的详细定义如下:
- Tualchhung:当地新闻,涵盖米佐拉姆邦内的所有事件。
超级会员免费看
订阅专栏 解锁全文
26

被折叠的 条评论
为什么被折叠?



