文章结合:https://blog.youkuaiyun.com/chenzhenyu123456/article/details/51147314
1.poj 2096 Collecting Bugs 【概率DP】【逆向递推求期望】
题意很简单:一个软件有S个系统,但会产生N种bug。一个人一天可以发现一个bug,这个bug既属于某一个系统,又属于某一个分类。每个bug属于某个系统的概率是1/S,属于某种分类的概率是1/N。现在问你发现N种bug且S个系统都发现bug的天数的期望。
思路:用dp[i][j]表示发现i种bug且j个系统都发现bug的天数的期望。可以得到4种状态
1,dp[i][j]—— 新bug 既属于已发现bug的种类,又属于已经发现bug的系统。则有概率 (i / S) * (j / N)
2,dp[i+1][j]—— 新bug 不属于已发现bug的种类,属于已经发现bug的系统。则有概率 (1 - i / N) * (j / S)
3,dp[i][j+1]—— 新bug 属于已发现bug的种类,不属于已经发现bug的系统。则有概率 (i / N) * (1 - j / S)
4,dp[i+1][j+1]—— 新bug 既不属于已经发现bug的种类,也不属于已经发现bug的系统。则有概率 (1 - i / N) * (1 - j / S)
求期望倒着递推,由dp[N][S] = 0 退出 dp[0][0]即可。注意推导时 全是浮点型。
具体看代码:
#include <cstdio>
#include <cstring>
#include <algorithm>
using namespace std;
double dp[1010][1010];
int main()
{
int N, S;
while(scanf("%d%d", &N, &S) != EOF)
{
memset(dp, 0, sizeof(dp));
for(int i = N; i >= 0; i--)
{
for(int j = S; j >= 0; j--)
{
if(i == N && j == S) continue;
double x = i, y = j;
double p1 = dp[i+1][j] * (y / S) * (1 - x / N);
double p2 = dp[i][j+1] * (x / N) * (1 - y / S);
double p3 = dp[i+1][j+1] * (1 - y / S) * (1 - x / N);
double p0 = 1 - (x / N) * (y / S);
dp[i][j] = (p1 + p2 + p3 + 1) / p0;
}
}
printf("%.4lf\n", dp[0][0]);
}
return 0;
}
2.hdoj 5570 balls 【概率dp 求期望】
具体分析:
题意:给定n个球共m种颜色,给出一个n*m的矩阵a[][],其中a[i][j]表示第i个球为颜色j的概率。若颜色为j的球的个数为x,则要花费x^2。现在问花费的期望。
数组下标是从0开始的。
思路:设置状态X[i][j],若第i个球颜色为j则X[i][j] = 1,反之x[i][j] = 0。用C[j]表示颜色为j的球的个数。
则有C[j] = x[0][j] + x[1][j] + x[2][j] + ... + x[n-1][j]。
E(cost) = (0<=j<m)sigma(E(C[j]^2)) = (0<=j<m)sigma(E(x[0][j] + x[1][j] + ... + x[n-1][j])^2)。
注公式(一):2ab+2bc+2ac + a+b+c = (a+b+c)^2 - (a^2+b^2+c^2) + (a+b+c) -> n个变量同样适用。
由公式一得到(x[0][j]+...+x[n-1][j])^2表达式
E(cost) = (0<=j<m)sigma(E((x[0][j]^2+...+x[n-1][j]^2) + (2*x[b][j]*x[c][j])), 0<=b, c<n&&b!=c)。
由于期望的线性性质我们把上面的式子拆开:
E(cost) = (0<=j<m)sigma(E(x[k][j]^2), 0<=k<n) + sigma(E(2*x[b][j]*x[c][j]), 0<=b, c<n&&b!=c)。
通过计算可以得到 注:p[i][j]表示第i个球为颜色j的概率。
一、任意(0<=k<n)E(x[k][j]^2) = p[k][j]。
二、任意(0<=b, c<n&&b!=c)E(x[b][j]*x[c][j]) = p[b][j] * p[c][j]。
最终表达式E(cost) = (0<=j<m)sigma(p[k][j], 0<=k<n) + sigma(p[b][j]*p[c][j], 0<=b, c<n&&b!=c)。
注意:p[b][j]*p[c][j],p[c][j]*p[b][j] 都是存在的。
这样
E(cost) = (0<=j<m)sigma(p[k][j], 0<=k<n) + sigma(2*p[b][j]*p[c][j], 0 <= b < c < n)。
由公式一化简得到
E(cost) = (0<=j<m)[sigma(p[k][j])^2 - sigma(p[k][j]^2) + sigma(p[k][j]), 0<=k<n]。
这样时间复杂度O(nm)。
代码:
#include <cstdio>
#include <cstring>
#include <cmath>
#include <cstdlib>
#include <algorithm>
#include <queue>
#include <stack>
#include <map>
#include <vector>
#define INF 0x3f3f3f
#define eps 1e-8
#define MAXN (1000+10)
#define MAXM (100000)
#define Ri(a) scanf("%d", &a)
#define Rl(a) scanf("%lld", &a)
#define Rf(a) scanf("%lf", &a)
#define Rs(a) scanf("%s", a)
#define Pi(a) printf("%d\n", (a))
#define Pf(a) printf("%.2lf\n", (a))
#define Pl(a) printf("%lld\n", (a))
#define Ps(a) printf("%s\n", (a))
#define W(a) while(a--)
#define CLR(a, b) memset(a, (b), sizeof(a))
#define MOD 1000000007
#define LL long long
#define lson o<<1, l, mid
#define rson o<<1|1, mid+1, r
#define ll o<<1
#define rr o<<1|1
using namespace std;
double a[MAXN][MAXN];
double p[MAXN][MAXN];
int main()
{
int n, m;
while(scanf("%d%d", &n, &m) != EOF)
{
for(int i = 0; i < n; i++)
{
double sum = 0;
for(int j = 0; j < m; j++)
{
Rf(a[i][j]);
sum += a[i][j];
}
for(int j = 0; j < m; j++)
p[i][j] = a[i][j] / sum;
}
double ans = 0;
for(int j = 0; j < m; j++)
{
double Sq = 0, S = 0;
for(int i = 0; i < n; i++)
{
Sq += p[i][j] * p[i][j];
S += p[i][j];
}
ans += S * S - Sq + S;
}
Pf(ans);
}
return 0;
}
3.天气情况
Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)
Total Submission(s): 900 Accepted Submission(s): 408
Problem Description
如果我们把天气分为雨天,阴天和晴天3种,在给定各种天气之间转换的概率,例如雨天转换成雨天,阴天和晴天的概率分别为0.4,0.3,0.3.那么在雨天后的第二天出现雨天,阴天和晴天的概率分别为0.4,0.3,0.3.现在给你今天的天气情况,问你n天后的某种天气出现的概率.
Input
我们这里假设1,2,3分别代表3种天气情况,Pij表示从i天气转换到j天气的概率.
首先是一个数字T表示数据的组数.
每组数据以9个数开始分别是P11,P12,P13,……,P32,P33,接着下一行是一个数字m,表示提问的次数。每次提问有3个数据,i,j,n,表示过了n天从i天气情况到j天气情况(1<=i,j<=3 1<=n<=1000)。
Output
根据每次提问输出相应的概率(保留3位小数)。
Sample Input
1
0.4 0.3 0.3 0.2 0.5 0.3 0.1 0.3 0.6
3
1 1 1
2 3 1
1 1 2
Sample Output
0.400
0.300
0.250
思路:
dp[ i ][ j ][ k ]表示第 k 天 i 天气到 j 天气的概率
代码:
#include<bits/stdc++.h>
using namespace std;
double P[4][4];
double dp[4][4][1010];
int main()
{
int t; scanf("%d", &t);
while(t--)
{
for(int i = 1; i <= 3; i++)
{
for(int j = 1; j <= 3; j++)
{
scanf("%lf", &P[i][j]);
dp[i][j][1] = P[i][j];//第1天,i天气到j天气的概率
}
}
for(int i = 2; i <= 1000; i++) //第几天
{
for(int s = 1; s <= 3; s++) //枚举不同天气的变化
{
for(int t = 1; t <= 3; t++)
{
dp[s][t][i] = 0;
for(int j = 1; j <= 3; j++)
{
dp[s][t][i] += dp[s][j][i-1] * P[j][t];
}
}
}
}
int m; scanf("%d", &m);
while(m--) {
int x, y, n; scanf("%d%d%d", &x, &y, &n);
printf("%.3lf\n", dp[x][y][n]);
}
}
return 0;
}
代码