人群与人工智能混合系统:CrowdLearn的原理与实践
1. CCMB问题与目标函数
在相关应用中,我们用 $C^t$ 表示第 $t$ 个周期产生的所有成本。假设在每个周期开始时,上下文 $X^t$ 是可观测的,但代理采取行动的回报要到周期结束时才会揭晓(即直到人群提交响应,才知道延迟情况)。
CCMB(上下文感知的众包多臂老虎机)的目标是推导出一个最优激励策略,该策略能决定在何种上下文中采取何种行动,以在资源预算范围内最大化回报。CCMB问题是一个决策过程,它将历史观测值 ${X^1, A^1, P^1; X^2, A^2, P^2; \cdots ; X^{t - 1}, A^{t - 1}, P^{t - 1}}$ 和当前上下文 $X^t$ 映射到一个行动 $A^t \in \mathcal{A}$。其目标函数如下:
[
\begin{align }
&\arg\max_{A^t} \sum_{t = 1}^{T} P^t, \quad 1 \leq t \leq T \quad \text{(回报最大化)}\
&\text{s.t.:} \quad \sum_{t = 1}^{T} C^t \leq B, \quad 1 \leq t \leq T \quad \text{(预算约束)}
\end{align }
]
这个目标函数可以使用自适应线性规划方法来求解。
2. 人群质量控制(CQC)
众包平台面临的一个关键挑战是答案质量参差不齐,一些工作人员可能由于知识有限或主观意见而提供错误答案。现有一些解决方案来解决这个问题:
-
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



