推荐系统与脑白质病变检测的研究进展
1. 推荐系统Chiron的研究
1.1 实验设置
1.1.1 数据集
实验使用了MoveLens100K和Netflix3m1k数据库。MoveLens100K数据集由明尼苏达大学的GroupLens研究项目收集,Netflix3m1k数据集由Netflix在Netflix奖中提供,这些数据集都由Prea软件收集。每个数据集中,每个用户至少对20部电影进行了评分,评分范围从1(不喜欢)到5(非常喜欢)。
实验通过将每个数据集拆分为训练集(80%)、验证集(10%)和测试集(10%)进行交叉验证,比较预测评分与测试集的实际评分。实验重复10次,并使用平均结果。
1.1.2 攻击设计
只关注刷好评攻击,攻击者通过引入虚假用户和虚假评分来操纵推荐系统。重点关注推式攻击,因为它通常比核式攻击更成功。攻击效果通过添加攻击配置文件前后预测评分的偏差来衡量,最常用的评估推荐系统的指标是平均绝对误差(MAE),用于衡量预测评分的准确性。
评估不同刷好评攻击的两个重要指标是攻击规模和填充规模:
- 攻击规模:添加的刷好评配置文件与原始数据集的比例。例如,10%的攻击规模表示添加到系统中的刷好评配置文件数量等于原始数据集中用户数量的10%。
- 填充规模:攻击者配置文件中投票的项目集。
实验针对20个项目进行推式攻击,每个实验重复10次,并考虑每个项目在这10次中的平均值,以确保结果具有统计学意义。最有效的攻击模型是通过逆向工程推荐算法以最大化其影响得出的。常见的推荐系统攻击方法有随机攻击、平均攻击和跟风攻击:
- 随机攻击:攻击者分配的评分围绕总体