接着考虑前文的10臂老虎机问题。假设我们可以与老虎机交互TTT次,显然我们每次采取的行动(action)不必一成不变。记我们在ttt时刻采取行动为ata_tat,获得的回报为R(at)R(a_t)R(at)。那么,我们的目标是
maxa1,a2,...,aT∑t=1TE[R(at)]. \max_{a_1,a_2,...,a_T} \sum_{t=1}^T E[R(a_t)]. a1,a2,...,aTmaxt=1∑TE[R(at)].
在实际应用中,ata_tat会根据之前得到的a1,a2,...,at−1a_1,a_2,...,a_{t-1}a1,a2,...,at−1<