孟加拉语罗马化方法:高效特征编码提升性能
1. 引言
在语言处理领域,孟加拉语的罗马化是一项具有挑战性的任务。传统方法在处理大规模数据集时存在计算成本高、性能不佳等问题。本文提出一种将罗马化视为分类问题的方法,利用二进制编码进行特征表示,旨在提高效率和性能。
2. 整体流程
该方法的整体流程可分为四个部分:
1. 数据集探索与预处理
2. 词单元(TU)分解
3. 特征选择与数值表示
4. 模型选择与分析准备
以下是流程的 mermaid 流程图:
graph LR
A[数据集(Dakshina, NEWS 2018)] --> B[预处理]
B --> C[TU分解]
C --> D[基于上下文的特征选择]
D --> E[特征编码(二进制)]
E --> F[机器学习模型(SVM, RFC)]
3. 数据集
为了完成转写任务,需要一个大型的平行语料库。本研究选用了 Dakshina 数据集和 NEWS 2018 数据集。
- Dakshina 数据集 :包含十二种南亚语言的书面文本,使用版本 1.0,聚焦于罗马化子目录中仅包含小写单字且无标点的文件。
- NEWS 2018 数据集 :涵盖 13 种不同语言和 19 项任务,本研究仅关注第四数据集目录中的英 - 孟平行语料库。
超级会员免费看
订阅专栏 解锁全文
3万+

被折叠的 条评论
为什么被折叠?



