BZOJ1419:Red is good(期望DP)

本文探讨了一种概率动态规划方法,用于解决一个有趣的博弈问题:如何在随机翻牌游戏中制定最优策略以最大化收益。文章给出了具体的数学模型、算法实现,并通过代码示例展示了如何计算最优解。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

传送门

桌面上有R张红牌和B张黑牌,随机打乱顺序后放在桌面上,开始一张一张地翻牌,翻到红牌得到1美元,黑牌则付出1美元。可以随时停止翻牌,在最优策略下平均能得到多少钱。

概率DP是真的难。。

首先想到期望DP:
f[Red][Blue]=RedRead+Blue(f[Red1][Blue]+1)+BlueRed+Blue(f[Red][Blue1]1)

可惜这个是错的。原因在于如果当前状态继续下去使价值变劣那么不会选(最优策略),只需要取 f[i][j]=max{f[i][j],0} 就好了,注意卡空间需要滚动数组。。

(最神奇的是 f[i][i] 居然不是0,还有 f[i][i+k] 还有可能是正数。。期望DP太神了。)

#include<bits/stdc++.h>
using namespace std;
double f[2][5005];
int R,B,now=0;

int main(){
    scanf("%d%d",&R,&B);
    for(int i=1;i<=R;i++)f[now][i]=i;
    for(int i=1;i<=B;i++){
        now^=1;
        for(int j=1;j<=R;j++){
            f[now][j]=max(0.0,(double)j/(i+j)*(f[now][j-1]+1.0)+(double)i/(i+j)*(f[now^1][j]-1.0));
        }
    }
    int t=f[now][R];
    cout<<t<<".";f[now][R]-=t;
    for(int i=1;i<=6;i++){
        f[now][R]*=10.0;
        t=f[now][R];
        f[now][R]-=t;
        putchar('0'+t);
    }
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值