Gym 100947C- Rotate It !!

可以看成一个环,每个环,可以从每个环开始取,问最大的取值是多少.
数字是偶数个,很简单,直接就是求奇数位置和偶数位置之和的最大值
数字是奇数个,
分析可以知道,一定有相邻的两个数字在选中的序列中,那么只需要枚举相邻两个序列,计算最大值即可.
比如样例 1 5 3 2 4,
刚开始 1 4 相连,然后是 15,一次类推,
如果只是看样例的格式,即1 5 3 2 4 来看,设相邻两个数字是i,j,
假设i在奇数位置,那么答案就变成i前面奇数位置之和 加上j后面偶数位置之和.
偶数同理.
代码:

#include <cstdio>
#include <algorithm>
#include <cstring>
#include <iostream>
long long a[100000],b[100000];
using namespace std;
int main (void)
{
    int t ;
    cin>>t;
    while(t--)
    {
        int n,tmp;
        long long s[2]={0};
        scanf("%d",&n);
        if(!n&1)
        {
            for(int i=0;i<n;i++)
            {
                scanf("%d",&tmp);
                s[i&1]+=tmp;
            }
            printf("%lld\n",max(s[0],s[1]));
            continue;
        }
        else
        {
            a[0]=b[0]=0;
            for(int i=1;i<=n;i++)
            {
                scanf("%d",&tmp);
                if(i&1)
                {
                    a[i]=a[i-1]+tmp;
                    b[i]=b[i-1];
                }
                else
                {
                    a[i]=a[i-1];
                    b[i]=b[i-1]+tmp;
                }
            }
            long long ans=-1000000000000;
            for(int i=0;i<n;i++)
            {
                if(i&1)
                {
                    ans=max(ans,a[i]+b[n]-b[i]);
                }
                else
                {
                    ans=max(ans,b[i]+a[n]-a[i]);
                }
            }
            printf("%lld\n",ans);
        }
    }
    return 0;
}
### 使用PPO算法在gym-super-mario-bros环境中的实现 为了在 `gym-super-mario-bros` 游戏环境中应用近端策略优化 (Proximal Policy Optimization, PPO),可以按照以下方法构建模型并训练代理。以下是详细的说明: #### 安装依赖库 首先,确保安装必要的 Python 库来支持 `gym-super-mario-bros` 和强化学习框架 Stable Baselines3。 ```bash pip install nes-py gym-super-mario-bros stable-baselines3[extra] ``` 上述命令会安装 `nes-py`, `gym-super-mario-bros` 以及用于实现 PPO 的强化学习工具包 `Stable-Baselines3`[^1]。 --- #### 创建超级马里奥环境 通过导入 `SuperMarioBros-v0` 或其他变体创建游戏环境,并设置动作空间和观察空间。 ```python import gym_super_mario_bros from nes_py.wrappers import JoypadSpace from gym.spaces import Box from gym.wrappers import FrameStack from stable_baselines3.common.env_checker import check_env from stable_baselines3 import PPO # 初始化 Super Mario Bros 环境 env = gym_super_mario_bros.make('SuperMarioBros-v0') # 设置简化操作集 env = JoypadSpace(env, [['right'], ['right', 'A']]) # 将帧堆叠到一起以提供时间序列数据给神经网络 env = FrameStack(env, num_stack=4) # 验证环境是否兼容稳定基线的要求 check_env(env) ``` 此部分代码定义了一个简单的控制方案(右移或跳跃),并通过 `FrameStack` 提供连续四帧作为输入状态。 --- #### 训练PPO模型 使用 `stable-baselines3.PPO` 来初始化和训练代理。 ```python model = PPO( policy="CnnPolicy", env=env, verbose=1, tensorboard_log="./mario_ppo_tensorboard/" ) # 开始训练过程 model.learn(total_timesteps=int(1e6)) # 保存训练好的模型 model.save("ppo_mario") ``` 在此配置中: - **policy**: 使用卷积神经网络 (`CnnPolicy`) 处理图像型观测值。 - **total_timesteps**: 总共执行 $1 \times 10^6$ 时间步数进行训练。 - **tensorboard_log**: 可视化日志路径以便监控训练进展。 --- #### 测试已训练的模型 加载先前保存的模型并对环境运行推理测试。 ```python del model # 删除旧模型以防冲突 # 加载预训练模型 model = PPO.load("ppo_mario") state = env.reset() done = False while not done: action, _states = model.predict(state) state, reward, done, info = env.step(action) env.render() env.close() ``` 这段脚本展示了如何利用训练完成后的模型在游戏中做出决策。 --- ### 注意事项 1. 超参数调整对于性能至关重要。例如,更改学习率、批量大小或其他超参数可能显著影响收敛速度与最终效果。 2. 如果希望扩展功能,可考虑引入更复杂的奖励机制或者自定义环境封装器。 3. 对于更高难度级别(如世界 1-2 或以上),建议增加训练时间和样本数量。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值