强化学习中的多臂老虎机与马尔可夫决策过程
1. 基于函数近似的在线广告问题解决
在解决在线广告问题时,我们可以使用汤普森采样(Thompson Sampling)等方法。以下是具体的步骤和代码实现:
- 生成用户数据 :编写一个函数从数据集中随机选择用户,返回用户数据和派生的上下文。
def generate_user(df_data):
user = df_data.sample(1)
context = user.iloc[:, :-1].values.tolist()[0]
return user.to_dict(orient='records')[0], context
- 计算后悔值 :使用后悔值来比较不同版本的上下文老虎机(CB)算法。
def calc_regret(user, ad_inventory, ad_click_probs, ad_selected):
this_p = 0
max_p = 0
for ad in ad_inventory:
p = ad_click_probs[ad][user['education']]
if ad == ad_selected:
this_p = p
if p > max_p:
max_p = p
超级会员免费看
订阅专栏 解锁全文
1542

被折叠的 条评论
为什么被折叠?



