实时竞价与Q学习算法拓展
1. 实时竞价环境中的状态与奖励设计
在实时竞价(RTB)环境中,状态的设计对于智能体的决策至关重要。为了让智能体将预算合理地分配到一批拍卖中,我们引入了一个特征。例如,若预算为100,批次大小为10,那么在第一次拍卖时,状态为100 / 10 = 10。通过将这个实数四舍五入并截断为整数,我们进一步减少了状态的数量。智能体在赢得拍卖时会获得1的奖励,否则为0。
马尔可夫决策过程(MDP)的制定是灵活的,你可以根据要解决的问题,在算法的约束范围内,选择不同的信息纳入状态或设计不同的奖励。在工业应用中,数据科学家通常不会改变机器学习算法的实现细节,而是花费大量时间进行特征工程,即改进状态的表示,以及优化奖励的定义。
2. 实时竞价环境的实验结果
创建了两个新的实时竞价环境:
- 静态RTB环境 :每个回合包含100次拍卖,预算固定为10,000。当智能体的出价大于或等于100时,就能赢得拍卖。因此,该环境的最优策略是每次拍卖出价100,可获得100的奖励。智能体可以将当前出价提高或降低50%、10%或保持不变。实验结果显示,尽管算法学习到了最优策略,但由于较高的探索率,奖励并未达到100。同时,SARSA和Q学习之间存在细微差异,SARSA倾向于稍微高出价的安全策略,这使得它比Q学习更快耗尽预算。
- 基于真实竞价数据的环境 :按照特定仓库的说明操作,可获取包含预测点击率、用户是否点击广告以及中标价格的文件。批次大小和智能体的动作与静态环境相同,但赢得拍卖的成本是可变的。初始出价设置较低,智能体需要学习提高出价以赢得更多展示机会。随着回合
超级会员免费看
订阅专栏 解锁全文
1915

被折叠的 条评论
为什么被折叠?



