C-MTEB
(C-Pack: Packaged Resources To Advance General Chinese Embedding)
C-MTEB为了评估中文文本向量,共收集了35个公共数据集,一共分为6类评估任务
。
1、文本分类(Classification)
任务目标: 模型能够对文本的类别进行准确标注。
任务描述: 基于提供的模型生成文本向量,并使用这些向量作为特征来训练分类器,对文本进行分类。
评估指标: 准确率(多分类)、精确率(二分类)
2、文本聚类(Clustering)
任务目标: 模型能够将文本分组至N个预先没有定义的类别中。
任务描述: 基于提供的模型生成文本向量,并利用聚类模型对这些向量进行分组。
评估指标: V-Measure
3、句子对分类(Pair Classification)
任务目标: 模型能够判断一对文本之间是否存在特定关系,如语义等价或对立。
任务描述: 给定一对文本,判断其是否具有相同含义。