多语言模型微调与滑坡分类研究
多语言模型微调实验
数据集
使用了卡纳达语代码混合数据集(KanCMD),这是一个用于情感分析和冒犯性语言识别的多任务学习数据集。其包含YouTube观众的代码混合文本评论,原始用途是针对卡纳达语进行情感分析和冒犯性短语检测。数据集中每个句子至少由三名注释者标注为“积极”“消极”“混合”“中立”或“非目标语言”。实验使用了分类为“积极”“消极”和“混合”的数据,对数据集进行了清理,并将其分类为这三个标签。此外,还在马拉雅拉姆语 - 英语和泰米尔语 - 英语代码混合文本的类似数据集上测试了模型。各语言数据集的类别分布如下:
| 语言 | 积极 | 消极 | 混合 |
| — | — | — | — |
| 卡纳达语 - 英语 | 3291 | 1481 | 678 |
| 马拉雅拉姆语 - 英语 | 5565 | 1394 | 794 |
| 泰米尔语 - 英语 | 24501 | 5190 | 4852 |
现有方法比较
为建立比较分析的基线,对先前论文中实现的现有方法进行了实验。使用Kaggle上的Python IDE,分类器包括高斯朴素贝叶斯、K近邻、逻辑回归、决策树和随机森林,通过scikit - learn库实现。同时使用numpy和pandas库处理数据框。具体步骤如下:
1. 使用pandas库的read_csv()方法加载数据集,删除带有“未知”和“非目标语言”标签的行。
2. 使用value_counts()方法并启用归一化,获取数据集中每个标签的百分比。
3. 使用sklearn.preprocessing中的LabelEnc
超级会员免费看
订阅专栏 解锁全文
1324

被折叠的 条评论
为什么被折叠?



