9、在线团队组建与广告分配相关研究

在线团队组建与广告分配相关研究

1 引言

在众多领域中,团队组建是一个普遍存在的问题,如教育、劳动力市场、体育等。以在线课程的教师为例,教师希望将学生两两分组完成作业,但不清楚学生的编程经验。不过,教师可以观察每个小组的作业表现,在多轮作业中重新分组,以最大化成功小组的数量。这就引出了一个自然的探索 - 利用权衡问题:是保留早期发现的成功团队,还是重新分配成员以了解更多成员类型?

团队组建通常在缺乏个体潜在技能或个性特征信息的情况下进行,但已知这些潜在特征会影响团队表现。为了研究这个问题,我们考虑了一个在线团队组建的自然模型,其中主体反复将一组代理划分为团队。代理具有二元潜在类型,每个团队由两名成员组成,团队的表现是其成员类型的对称函数。在多轮中,主体选择代理的匹配,并产生与给定函数的最优匹配相比的成功团队数量的赤字作为遗憾值。

2 相关工作

团队组建中的遗憾最小化与组合多臂老虎机/半多臂老虎机问题有相似之处,但由于不同的协同函数,带来了全新的挑战。多臂老虎机模型的一个关键方面是奖励和/或反馈是单个臂潜在类型的线性函数。一些模型允许奖励/反馈由臂奖励总和的非线性链接函数给出,但通常要求链接函数能被线性函数很好地近似。然而,我们的团队协同函数是非线性的,且不能被代理类型总和的任何非线性函数很好地近似。

一种超越半多臂老虎机模型并纳入成对交互的方法是假设结果奖励矩阵是低秩的。在完美反馈下,通过一些“正交”探索可以学习所有代理类型,但这仅在 XOR 函数下成立,对于其他布尔函数则不成立。另一种处理复杂奖励/反馈的方法是通过贝叶斯启发式,如汤普森采样或信息导向采样。虽然这些方法在许多情况下能实现接近最优的遗憾值,但在我们的场景中,根据团队得分更

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值