16、基于机器学习的米佐语新闻分类方法探索

基于机器学习的米佐语新闻分类方法探索

1. 相关研究概述

在新闻分类和文本分类领域,已有众多针对不同语言的研究。对于低资源语言,如米佐语,相关研究相对较少,但也有一些成果。例如,曾有人构建了基于神经和统计方法的模型,将英语翻译成米佐语。

不同语言的新闻分类研究中,使用了多种机器学习算法,取得了不同的准确率:
| 语言 | 分类方法 | 准确率 |
| ---- | ---- | ---- |
| 尼泊尔语 | SVM(径向基函数核) | 74.65% |
| 尼泊尔语 | 线性 SVM | 74.62% |
| 尼泊尔语 | 多层感知器神经网络 | 72.99% |
| 尼泊尔语 | 朴素贝叶斯 | 68.31% |
| 孟加拉语 | 基于深度学习的分类 | 87% |
| 土耳其语 | 卷积神经网络 | 94.17% |
| 英语 | 卷积神经网络 | 96.41% |
| 旁遮普语 | 朴素贝叶斯 | 78% |
| 印尼语 | 多种分类技术 | 85% |

2. 数据描述

数据集来源于当地报纸、vanglaini.org 和 theaizawlpost.org,最初收集了 6730 篇文章,涵盖 Hmarchhak、Khawvel、Ramchhung、Tualchhung、Infiamna 和 Thalai 等类别。由于 Hmarchhak 类别文章数量较少(仅 494 篇),该类别被剔除,最终语料库包含 5 个新闻类别,共 6236 篇文章。各新闻类别的详细定义如下:
- Tualchhung:当地新闻,涵盖米佐拉姆邦内的所有事件。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值