ATM Mechine HDU - 5781 （DP）

原创于 2019-10-10 21:51:29 发布 · 148 阅读

1 ·

CC 4.0 BY-SA版权

概率DP 专栏收录该内容

3 篇文章

订阅专栏

探讨了在未知存款金额且有限警告次数下，如何使用动态规划算法找到最优策略，以最小化从ATM机取完所有存款的期望次数。通过枚举决策和状态转移，实现了对问题的有效求解。

题目

https://cn.vjudge.net/problem/HDU-5781

题意

爱丽丝将把她所有的积蓄从自动柜员机中取出。爱丽丝忘了她有多少存款，而这个奇怪的自动取款机不支持查询存款。爱丽丝唯一知道的关于她的存款的信息是上限K元（这意味着爱丽丝的存款x是0到K之间（包括0和K之间）的随机整数）。
每次爱丽丝（Alice）可以尝试从自动柜员机（ATM）上取些钱。如果她的存款不少于y，ATM会立即给Alice y人民币。但是，如果她的存款少于y，Alice将收到ATM的警告。
如果爱丽丝警告次数多于W次，她将被警察带走作为小偷。
爱丽丝希望尽可能减少操作次数。
由于爱丽丝足够聪明，她总是采取最佳策略。
请计算爱丽丝将所有积蓄从自动取款机中取出并带回家而不被警察带走的期望时间。

思路

dp[i][j] 表示有（0-i)钱可以选错j次的最少次数

对于这个状态我们枚举决策（选择取k）找最小值

转移式

dp[i][j] = min(dp[i][j], dp[i - k][j] * (i - k + 1) / (i + 1) + dp[k - 1][j - 1] * k / (i + 1) + 1);

dp[i][j] = min(dp[i][j],取成功还剩(i-k)还可以错j次 + 取失败还剩(0-k-1)还可以错(j-1) 次

代码

#include <bits/stdc++.h>
#define ll long long
#define inf 0x3f3f3f3f
using namespace std;
double dp[2010][12];
void init()
{
	fill(dp[0], dp[0] + 2010 * 12, inf);
	for(int i = 0; i < 12; i++)
	dp[0][i] = 0;
	for(int i = 1; i < 2001; i++)
	for(int j = 1; j < 12; j++)
	for(int k = 1; k <= i; k++)
	dp[i][j] = min(dp[i][j], dp[i - k][j] * (i - k + 1) / (i + 1) + dp[k - 1][j - 1] * k / (i + 1) + 1);
 }
int main()
{
	int k, w;
	init();
	while(cin >> k >> w)
	{
		w = min(w, 11);
		printf("%.6lf\n", dp[k][w]);
	}
 	return 0;
}