11、机器学习与数据选择相关研究

机器学习与数据选择相关研究

在机器学习领域,特征向量表示和数据选择是两个重要的研究方向,它们对于提高分类性能和优化模型训练具有重要意义。本文将介绍关于特征向量表示的实验研究以及双语数据选择的相关方法。

特征向量表示实验

在特征向量表示的研究中,进行了一系列实验来比较不同的特征向量表示方法对于表征不同大小的(方形)相异矩阵的效果。

实验设置
  • 分类器实验 :使用10折交叉验证进行实验,对于每种表示类型的最佳超参数(k的最优值),通过在训练集上进行第二次内部10折交叉验证来确定,其中k的取值范围为{5, 10, 25, 50, 100}。报告了两种分类器在使用每种表示类型的最佳参数时的AUC性能,并列出了传统MIL分类器的最佳性能作为参考。表现较好的分类器有MILES、MI - SVM、EM - DD、基于包摘要表示训练的逻辑分类器和p - 后验分类器。
  • 无监督实验 :为了在战略决策过程中快速获取战略状态更新,对277个不同客户项目中的1378个团队的20191名员工进行了在线调查。调查未使用李克特量表,而是选择了具有客观可验证答案的古特曼量表,以避免后续调查结构、各种回答风格、抽样误差和偏差等问题的统计校正。评估问题因团队而异,可分为人力资源、战略、营销和销售、IT四类。通过计算团队中所有成员回答得分之间的成对欧几里得距离得出相异度。
实验结果
  • 分类性能 :实验结果与人工数据的结果相似。当相异矩阵较小时,频谱表示更受青睐;当有较大的训练集时
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值