在线团队组建与广告分配相关研究
1 引言
在众多领域中,团队组建是一个普遍存在的问题,如教育、劳动力市场、体育等。以在线课程的教师为例,教师希望将学生两两分组完成作业,但不清楚学生的编程经验。不过,教师可以观察每个小组的作业表现,在多轮作业中重新分组,以最大化成功小组的数量。这就引出了一个自然的探索 - 利用权衡问题:是保留早期发现的成功团队,还是重新分配成员以了解更多成员类型?
团队组建通常在缺乏个体潜在技能或个性特征信息的情况下进行,但已知这些潜在特征会影响团队表现。为了研究这个问题,我们考虑了一个在线团队组建的自然模型,其中主体反复将一组代理划分为团队。代理具有二元潜在类型,每个团队由两名成员组成,团队的表现是其成员类型的对称函数。在多轮中,主体选择代理的匹配,并产生与给定函数的最优匹配相比的成功团队数量的赤字作为遗憾值。
2 相关工作
团队组建中的遗憾最小化与组合多臂老虎机/半多臂老虎机问题有相似之处,但由于不同的协同函数,带来了全新的挑战。多臂老虎机模型的一个关键方面是奖励和/或反馈是单个臂潜在类型的线性函数。一些模型允许奖励/反馈由臂奖励总和的非线性链接函数给出,但通常要求链接函数能被线性函数很好地近似。然而,我们的团队协同函数是非线性的,且不能被代理类型总和的任何非线性函数很好地近似。
一种超越半多臂老虎机模型并纳入成对交互的方法是假设结果奖励矩阵是低秩的。在完美反馈下,通过一些“正交”探索可以学习所有代理类型,但这仅在 XOR 函数下成立,对于其他布尔函数则不成立。另一种处理复杂奖励/反馈的方法是通过贝叶斯启发式,如汤普森采样或信息导向采样。虽然这些方法在许多情况下能实现接近最优的遗憾值,但在我们的场景中,根据团队得分更
超级会员免费看
订阅专栏 解锁全文
22

被折叠的 条评论
为什么被折叠?



