Gym 100825 G - Tray Bien[状压dp]

本文介绍了一个经典状压动态规划问题的解决方案,针对3*m矩阵使用1*1和1*2砖块进行填充,同时考虑了某些位置不可放置砖块的限制条件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

题意: 给定一个 3m的矩形,现在你有两种砖块11,12,有一些位置是不能放的,问有多少种放法使除了不能放的位置外全部放满。

分析 : 很经典的状压dp,只是加了一些不能放的位置,题目输入使浮点数,我们直接取整表示这个格子不能放。然后就是一些状态的转移。

以下是代码:

#include<bits/stdc++.h>
using namespace std;
#define ull unsigned long long
#define ll long long
#define lson l,mid,id<<1
#define rson mid+1,r,id<<1|1
#define zero(x) (((x)>0?(x):-(x))<eps)
typedef pair<int, int>pii;
typedef pair<ll, ll>pll;
typedef pair<double, double>pdd;

const double eps = 1e-8;
const int maxn = 300010;
const int MAXM = 100005;
const ll LINF = 0x3f3f3f3f3f3f3f3f;
const int INF = 0x3f3f3f3f;
const double FINF = 1000000000000000.0;
const ll MOD = 100000007;
const double PI = acos(-1);

int state[30];
ll dp[30][10];
double x, y;
int main() {
    int m, n;
    scanf("%d%d", &m, &n);
    memset(dp, 0, sizeof(dp));
    for (int i = 0; i<n; ++i) {
        scanf("%lf%lf", &x, &y);
        state[(int)(x)] |= (1 << ((int)(y)));
    }
    for (int sta = 0; sta < 8; ++sta) {
        if ((sta & state[0]) == 0) {
            if (sta == 5)dp[0][sta] = 1;
            else if (sta == 7)dp[0][sta] = 3;
            else if (sta == 6 || sta == 3)dp[0][sta] = 2;
            else dp[0][sta] = 1;
        }
    }
    for (int i = 1; i < m; ++i) {
        for (int s1 = 0; s1 < 8; ++s1) {
            for (int s2 = 0; s2 < 8; ++s2) {
                bool flag = 1;
                for (int j = 0; j<3; ++j) {
                    if ((s1 & (1 << j)) == 0 && (s2 & (1 << j)) == 0 && (state[i - 1] & (1 << j)) == 0) {
                        flag = 0;
                        break;
                    }
                }
                if (!flag || (s2 & state[i]))continue;
                int now = s2, res;
                for (int j = 0; j < 3; ++j) {
                    if ((s1 & (1 << j)) == 0 && (state[i - 1] & (1 << j)) == 0)now ^= (1 << j);
                }
                if (now == 5)res = 1;
                else if (now == 7)res = 3;
                else if (now == 6 || now == 3)res = 2;
                else res = 1;
                dp[i][s2] += dp[i - 1][s1] * res;
                //cout << i << " " << s2 << " " << dp[i][s2] << endl;
            }
        }
    }
    printf("%I64d\n", dp[m - 1][state[m - 1] ^ 7]);
}
### 使用PPO算法在gym-super-mario-bros环境中的实现 为了在 `gym-super-mario-bros` 游戏环境中应用近端策略优化 (Proximal Policy Optimization, PPO),可以按照以下方法构建模型并训练代理。以下是详细的说明: #### 安装依赖库 首先,确保安装必要的 Python 库来支持 `gym-super-mario-bros` 和强化学习框架 Stable Baselines3。 ```bash pip install nes-py gym-super-mario-bros stable-baselines3[extra] ``` 上述命令会安装 `nes-py`, `gym-super-mario-bros` 以及用于实现 PPO 的强化学习工具包 `Stable-Baselines3`[^1]。 --- #### 创建超级马里奥环境 通过导入 `SuperMarioBros-v0` 或其他变体创建游戏环境,并设置动作空间和观察空间。 ```python import gym_super_mario_bros from nes_py.wrappers import JoypadSpace from gym.spaces import Box from gym.wrappers import FrameStack from stable_baselines3.common.env_checker import check_env from stable_baselines3 import PPO # 初始化 Super Mario Bros 环境 env = gym_super_mario_bros.make('SuperMarioBros-v0') # 设置简化操作集 env = JoypadSpace(env, [['right'], ['right', 'A']]) # 将帧堆叠到一起以提供时间序列数据给神经网络 env = FrameStack(env, num_stack=4) # 验证环境是否兼容稳定基线的要求 check_env(env) ``` 此部分代码定义了一个简单的控制方案(右移或跳跃),并通过 `FrameStack` 提供连续四帧作为输入态。 --- #### 训练PPO模型 使用 `stable-baselines3.PPO` 来初始化和训练代理。 ```python model = PPO( policy="CnnPolicy", env=env, verbose=1, tensorboard_log="./mario_ppo_tensorboard/" ) # 开始训练过程 model.learn(total_timesteps=int(1e6)) # 保存训练好的模型 model.save("ppo_mario") ``` 在此配置中: - **policy**: 使用卷积神经网络 (`CnnPolicy`) 处理图像型观测值。 - **total_timesteps**: 总共执行 $1 \times 10^6$ 时间步数进行训练。 - **tensorboard_log**: 可视化日志路径以便监控训练进展。 --- #### 测试已训练的模型 加载先前保存的模型并对环境运行推理测试。 ```python del model # 删除旧模型以防冲突 # 加载预训练模型 model = PPO.load("ppo_mario") state = env.reset() done = False while not done: action, _states = model.predict(state) state, reward, done, info = env.step(action) env.render() env.close() ``` 这段脚本展示了如何利用训练完成后的模型在游戏中做出决策。 --- ### 注意事项 1. 超参数调整对于性能至关重要。例如,更改学习率、批量大小或其他超参数可能显著影响收敛速度与最终效果。 2. 如果希望扩展功能,可考虑引入更复杂的奖励机制或者自定义环境封装器。 3. 对于更高难度级别(如世界 1-2 或以上),建议增加训练时间和样本数量。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值