12、机器学习中的指标、损失函数与数据集处理

机器学习中的指标、损失函数与数据集处理

1. PhotoStock Inc. 的指标与损失函数

1.1 指标选择

为 PhotoStock 设计新的搜索引擎时,需要考虑系统的预期行为,以此来选择合适的指标:
- 点击率(CTR) :反映用户点击搜索结果的行为,评估有多少用户点击搜索结果。
- 转化率(CR) :体现用户通过搜索购买图片的行为,衡量有多少点击转化为购买。
- 多样性 :用户在搜索引擎结果页面(SERP)看到多样化的建议,但目前没有明确的定义。可以先使用 SERP 上不同图片类别的数量作为多样性的衡量标准,未来可参考 Airbnb 的相关论文。
- 人工评估 :反映搜索结果从人类视角看是否合理,显示有多少用户认为搜索结果合理。

CTR 和 CR 是在线指标,只有系统上线后才能测量;多样性是无监督离线指标,无需额外数据,可定期免费测量;人工评估是有监督离线指标,需要额外的数据(人工评估),收集起来耗时费力。

为了引入 CTR 和 CR 的离线代理指标,可以使用经典的排序问题指标,如平均倒数排名(MRR)和归一化折损累积增益(NDCG)。MRR 计算给定结果集的倒数排名的平均值,衡量第一个相关结果排名的倒数的平均值;NDCG 计算给定结果集的折损累积增益(DCG)的平均值,衡量前 N 个结果的相关性得分之和除以理想 DCG,而 DCG 是前 N 个结果按相关性递减顺序的相关性得分之和。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值