27、多语言模型微调与滑坡分类研究

最新推荐文章于 2025-11-22 23:07:40 发布

xray4

最新推荐文章于 2025-11-22 23:07:40 发布

阅读量21

点赞数

CC 4.0 BY-SA版权

分类专栏：分布式智能前沿探析文章标签：多语言模型微调滑坡分类 XLM模型

本文链接：https://blog.youkuaiyun.com/xray4/article/details/152539902

分布式智能前沿探析专栏收录该内容

39 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

多语言模型微调与滑坡分类研究

多语言模型微调实验

数据集

使用了卡纳达语代码混合数据集（KanCMD），这是一个用于情感分析和冒犯性语言识别的多任务学习数据集。其包含YouTube观众的代码混合文本评论，原始用途是针对卡纳达语进行情感分析和冒犯性短语检测。数据集中每个句子至少由三名注释者标注为“积极”“消极”“混合”“中立”或“非目标语言”。实验使用了分类为“积极”“消极”和“混合”的数据，对数据集进行了清理，并将其分类为这三个标签。此外，还在马拉雅拉姆语 - 英语和泰米尔语 - 英语代码混合文本的类似数据集上测试了模型。各语言数据集的类别分布如下：
| 语言 | 积极 | 消极 | 混合 |
| — | — | — | — |
| 卡纳达语 - 英语 | 3291 | 1481 | 678 |
| 马拉雅拉姆语 - 英语 | 5565 | 1394 | 794 |
| 泰米尔语 - 英语 | 24501 | 5190 | 4852 |

现有方法比较

为建立比较分析的基线，对先前论文中实现的现有方法进行了实验。使用Kaggle上的Python IDE，分类器包括高斯朴素贝叶斯、K近邻、逻辑回归、决策树和随机森林，通过scikit - learn库实现。同时使用numpy和pandas库处理数据框。具体步骤如下：
1. 使用pandas库的read_csv()方法加载数据集，删除带有“未知”和“非目标语言”标签的行。
2. 使用value_counts()方法并启用归一化，获取数据集中每个标签的百分比。
3. 使用sklearn.preprocessing中的LabelEnc