【BZOJ1076】奖励关（SCOI2008）-状压DP+期望

最新推荐文章于 2019-05-28 00:35:58 发布

原创最新推荐文章于 2019-05-28 00:35:58 发布 · 284 阅读

1 ·

CC 4.0 BY-SA版权

数学-概率期望同时被 2 个专栏收录

30 篇文章

订阅专栏

动态规划-状态压缩DP

19 篇文章

订阅专栏

本文介绍了一种结合状态压缩动态规划与期望值计算的方法，用于解决特定类型的奖励关卡问题。通过定义状态转移方程，实现了在有限轮次内获取最大期望得分的算法设计，并提供了完整的代码实现。

测试地址：奖励关
做法：本题需要用到状压DP+期望。
首先，在某个时刻掉落了某个宝物，我们是捡还是不捡呢？按照平均情况下最优，也就是期望得分最大，那肯定是按照捡和不捡两种决策做出后，哪个会使期望得分更大而定。具体来说，我们令 $f(i,j)$ 为从第 $i$ 轮开始，已经获得的宝物集合为 $j$ ，能得到的最大期望得分，那么我们有以下状态转移方程：
对于每种可能掉落的宝物 $now$ ，如果当前能取宝物 $now$ ，对答案有以下贡献：
$\frac{1}{n}\max(f(i+1,j\cup \{now\})+p_{now},f(i+1,j))$
而如果不能取，则对答案有 $\frac{1}{n}f(i+1,j)$ 的贡献。
累加这些贡献，就是我们所求的 $f(i,j)$ ，边界条件为 $f(n+1,x)=0$ ，答案为 $f(1,\emptyset)$ ，用状压DP求出即可。
以下是本人代码：

#include <bits/stdc++.h>
using namespace std;
int k,n,rq[20]={0};
double p[20],f[110][40010]={0};

int main()
{
    scanf("%d%d",&k,&n);
    for(int i=1;i<=n;i++)
    {
        int x;
        scanf("%lf",&p[i]);
        do
        {
            scanf("%d",&x);
            if (x>0) rq[i]|=(1<<(x-1));
        }while(x);
    }

    for(int i=k;i>=1;i--)
        for(int j=0;j<(1<<n);j++)
            for(int now=1;now<=n;now++)
            {
                if ((j&rq[now])==rq[now])
                    f[i][j]+=max(f[i+1][j|(1<<(now-1))]+p[now],f[i+1][j])/(double)n;
                else f[i][j]+=f[i+1][j]/(double)n;
            }
    printf("%.6lf",f[1][0]);

    return 0;
}