DP转移还是很好想的。
用
f
[
i
]
[
j
]
f[i][j]
f[i][j]表示还剩
i
i
i个红,
j
j
j个黑的最优期望收益。那么有:
f
[
r
]
[
b
]
=
(
f
[
r
−
1
]
[
b
]
+
1
)
∗
r
r
+
b
+
(
f
[
r
]
[
b
−
1
]
−
1
)
∗
b
r
+
b
f[r][b]=(f[r-1][b]+1)*\frac{r}{r+b}+(f[r][b-1]-1)*\frac{b}{r+b}
f[r][b]=(f[r−1][b]+1)∗r+br+(f[r][b−1]−1)∗r+bb
但是如果当前
f
[
r
]
[
b
]
f[r][b]
f[r][b]小于
0
0
0了,就不如都不取的情况。
然后,对于
f
[
r
]
[
0
]
f[r][0]
f[r][0]肯定是要把所有
r
r
r取完,所以
f
[
r
]
[
0
]
=
r
f[r][0]=r
f[r][0]=r。
可以这样理解:我有
R
R
R张红牌,
B
B
B张黑牌,现在开始取,取着取着期望小于0了,那么我放弃现在取的所有牌。再从零开始。一直这样做直到把牌取完。把这个过程倒过来,就可以看做倒着取,到某个时候停止翻牌。
#include<bits/stdc++.h>
using namespace std;
const int maxn=5e3+10;
double f[maxn][maxn];
int R,B,nxt=1,now=0;
inline double calc(int x,int y){return (1.0*x)/(1.0*(x+y));}
int main(){
scanf("%d%d",&R,&B);
for(int r=1;r<=R;++r){
f[r][0]=r;
for(int b=1;b<=B;++b)
f[r][b]=max(0.00,(f[r-1][b]+1)*calc(r,b)+(f[r][b-1]-1)*calc(b,r));
}printf("%.6lf",f[R][B]-0.0000005);
}
然后用滚动数组优化一下:就在循环过程中把 r r r换成 n o w now now,把 r − 1 r-1 r−1换成 n x t nxt nxt。最后的 f [ R ] [ B ] f[R][B] f[R][B]就相当于 f [ n o w f[now f[now^ 1 ] [ B ] 1][B] 1][B]
#include<bits/stdc++.h>
using namespace std;
const int maxn=5e3+10;
double f[2][maxn];
int R,B,nxt=1,now=0;
inline double calc(int x,int y){return (1.0*x)/(1.0*(x+y));}
int main(){
scanf("%d%d",&R,&B);
for(int r=1;r<=R;++r){
f[now][0]=r;
for(int b=1;b<=B;++b)
f[now][b]=max(0.0,(f[nxt][b]+1)*calc(r,b)+(f[now][b-1]-1)*calc(b,r));
now^=1,nxt^=1;
}printf("%.6lf",f[now^1][B]-0.0000005);
}