多臂老虎机算法在在线广告场景中的应用
1. A/B/n 测试
1.1 应用场景与实现步骤
在在线广告场景中,假设有五个不同版本的广告,我们以相等的概率随机向用户展示这些广告。以下是使用 Python 实现 A/B/n 测试的具体步骤:
1. 初始化变量 :
import numpy as np
n_test = 10000
n_prod = 90000
n_ads = len(ads)
Q = np.zeros(n_ads) # Q, action values
N = np.zeros(n_ads) # N, total impressions
total_reward = 0
avg_rewards = [] # Save average rewards over time
- 运行 A/B/n 测试 :
for i in range(n_test):
ad_chosen = np.random.randint(n_ads)
R = ads[ad_chosen].display_ad() # Observe reward
N[ad_chosen] += 1
Q[ad_chosen] += (1 / N[ad_chosen]) * (R - Q[ad_chosen])
total_reward += R
avg_
超级会员免费看
订阅专栏 解锁全文
1989

被折叠的 条评论
为什么被折叠?



