期望及期望dp

本文介绍了一种利用期望DP解决达到特定目标预期花费的方法,通过动态规划倒序求解,给出了具体的数学推导和代码实现,适用于随机过程的期望值计算。
部署运行你感兴趣的模型镜像

首先给出期望的定义

期望

简单说就是概率×概率的价值

 

OSU! 

∵(x+1)3=x3+3x2+3x+1

可以看出每多出一个1,答案就会增加3x2+3x+1

于是可以维护x和x2的期望

x1[i]=(x1[i1]+1)p[i];

x2[i]=(x2[i1]+2x1[i1]+1)p[i];

ans[i]=ans[i1]+(3x2[i1]+3x1[i1]+1)p[i];

 

ans[n]即是答案

 

#include<iostream>
#include<cstdio>
#include<cstdlib>
#include<cstring>
#include<cmath>
#include<algorithm>
#define ll long long
using namespace std;
const int maxn=100005;
inline ll read(){
    ll x=0,k=1;char ch=getchar();
    while(ch<'0'||ch>'9'){if(ch=='-') k=-1;ch=getchar();}
    while(ch>='0'&&ch<='9'){x=(x<<3)+(x<<1)+(ch-'0');ch=getchar();}
    return k*x;
}
double a[maxn],b[maxn],ans[maxn],p[maxn];
int main(){
//    freopen(".in","r",stdin);
//    freopen(".out","w",stdout);
    int n;
    n=read();
    for(int i=1;i<=n;i++) cin>>p[i];
    for(int i=1;i<=n;i++) a[i]=(a[i-1]+1)*p[i];
    for(int i=1;i<=n;i++) b[i]=(b[i-1]+2*a[i-1]+1)*p[i];
    for(int i=1;i<=n;i++) ans[i]=ans[i-1]+(3*b[i-1]+3*a[i-1]+1)*p[i];
    printf("%.1lf",ans[n]);
    return 0;
}
View Code

 

 

期望dp

求解达到某一目标的期望花费:因为最终的花费无从知晓(不可能从∞推起),所以期望dp需要倒序求解。

一般的套路是f[n]=0即在n时的期望花费为0

在由形如f[i]=g(f[i-1])一类的关系通过移项,合并同类项等求出倒推的式子

有这样的套路式 f ∑ f′ × w

 

 

 

转载于:https://www.cnblogs.com/silent-pyb/p/9826341.html

您可能感兴趣的与本文相关的镜像

Llama Factory

Llama Factory

模型微调
LLama-Factory

LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上百种预训练模型的微调

### 蓝桥杯竞赛中的期望动态规划(Expectation DP) #### 什么是期望动态规划? 期望动态规划是一种特殊的动态规划形式,通常用于解决概率和统计相关的问题。其核心在于通过状态转移方程计算某个事件发生的期望值。这类问题的特点是存在多种可能的状态变化路径,并且每种路径都有一定的概率发生。 在蓝桥杯竞赛中,期望动态规划题目往往涉及随机过程、决策优化以及条件概率等内容。以下是针对此类问题的一些通用解题思路: --- #### 解题思路 1. **定义状态** 定义清晰的状态变量 \( dp[i] \),表示当前处于某种状态下所对应的期望值或最优值。例如,在某些问题中,\( dp[i] \) 可能代表从第 \( i \) 步到目标状态的期望步数[^4]。 2. **建立状态转移方程** 根据问题描述,分析如何从前一状态转移到下一状态。对于期望动态规划而言,状态转移方程一般会涉及到加权平均的形式,即考虑不同分支的概率及其对应的结果。例如: \[ dp[i] = p_1 \cdot f(dp[j]) + p_2 \cdot g(dp[k]) \] 其中 \( p_1, p_2 \) 是相应分支的发生概率,而 \( f(\cdot), g(\cdot) \) 表示具体的转换逻辑[^5]。 3. **初始化边界条件** 明确初始状态下的期望值或者已知结果。这一步非常重要,因为它是整个递推的基础。例如,如果到达终点时的期望值为零,则可以直接设置 \( dp[n] = 0 \)[^6]。 4. **逆向思考** 很多时候,正向求解可能会遇到循环依赖等问题,因此采用倒序的方式更容易实现。比如先从最终状态出发逐步向前更新各个中间节点的数据[^7]。 5. **注意精度控制** 鉴于浮点运算容易引发误差累积现象,在编写程序过程中应特别留意数值处理细节,必要情况下可适当调整比较阈值来规避潜在风险[^8]。 --- #### 示例代码 下面给出一个简单的例子——掷骰子游戏,假设每次投掷六面均匀骰子直到累计得分达到指定分数为止,问所需的平均次数是多少? ```cpp #include <bits/stdc++.h> using namespace std; const int MAX_SCORE = 1e5; double dp[MAX_SCORE + 1]; // 存储每个得分为i时还需要多少次才能完成任务 int main(){ memset(dp, 0, sizeof(dp)); int target_score; cin >> target_score; for(int s=target_score-1 ;s>=0;s--){ double sum_prob=0,sum_expect=0; for(int roll=1;roll<=6 && (s+roll)<=target_score;roll++){ sum_prob += 1/6.0; sum_expect += ((dp[s+roll]+1)*1/6.0); } if(sum_prob>0){ dp[s]=sum_expect / sum_prob; }else{ dp[s]=(double)(MAX_SCORE*10); // 设置极大值作为不可达标志 } } printf("%.9f\n",dp[0]); } ``` 上述代码片段展示了如何运用DP表记录各阶段所需预期操作数目并据此得出全局解决方案的过程[^9]。 --- #### 注意事项 尽管以上方法适用于大多数常规场景,但在实际比赛中还需灵活应对各种特殊情况。例如当面临复杂约束条件或是非线性关系时,单纯依靠基础模型或许难以满足需求,此时则需引入更多高级算法加以辅助[^10]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值