Gym 100269E-Energy Tycoon

本文介绍了一个计算机游戏“能源大亨”的策略模拟算法。玩家通过放置不同规模的发电厂来获得分数,目标是在有限的空间内实现最高得分。文章提供了一段C++代码实现,详细解释了如何在每回合中做出最优决策。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Input file: energy.in
Output file: energy.out
Time limit: 2 seconds
Memory limit: 256 megabytes
Little Vasya is playing a new computer game — turn-based strategy “Energy Tycoon”.
The rules of the game are quite simple:
• The board contains n slots arranged in a line.
• There are power plants, one power plant occupies one or two consecutive slots, and produces one
unit of energy.
• Each turn the game allows you to build one new power plant, you can put it on the board if you
wish. If there is no place for the new power plant, you can remove some older power plants.
• After each turn, the computer counts the amount of energy produced by the power plants on the
board and adds it to the total score.
这里写图片描述
Vasya already knows the types of power plant he will be able to build each turn. Now he wants to know,
what the maximum possible score he can get is. Can you help him?
Input
The first line of the input contains one integer n (1 ≤ n ≤ 100 000) — the number of slots on the board.
The second line contains the string s. The i-th character of the string is 1 if you can build one-slot power
plant at the i-th turn and the character is 2 if you can build two-slot power plant at the i-th turn. The
number of turns does not exceed 100 000.
Output
The output should contain a single integer — the maximal score that can be achieved.
Examples
这里写图片描述

题意:给你格子的数目和每一次能放的小格子的大小,每放一个都能得到1分,每次可以拿掉某个小格子放上新的格子,问能得到的最高分。

可以知道大小为1时是最划算的,所以放不下的时候,如果有大小为2的格子就拿掉它。

代码:

#include <cstdio>
#include <algorithm>
#include <cstring>
#include <iostream>
#include <string>
using namespace std;
int main (void)
{
 freopen("energy.in","r",stdin);
 freopen("energy.out","w",stdout);
    string s;
    int n;
    cin>>n;
    cin>>s;
    long long ans=0,a1=0,a2=0;
    for(int i=0;i<s.size();i++)
    {
        if(s[i]=='1')
        {
            if(a1+a2*2+1<=n)    
            a1++;
            else if(a2)
            {
            a2--;
            a1++;
            }
        }
        if(s[i]=='2')
        {
            if(a1+a2*2+2<=n)
                a2++;
        }
        ans+=(a1+a2);
    }
    printf("%lld\n",ans);
    return 0;
}
### 使用PPO算法在gym-super-mario-bros环境中的实现 为了在 `gym-super-mario-bros` 游戏环境中应用近端策略优化 (Proximal Policy Optimization, PPO),可以按照以下方法构建模型并训练代理。以下是详细的说明: #### 安装依赖库 首先,确保安装必要的 Python 库来支持 `gym-super-mario-bros` 和强化学习框架 Stable Baselines3。 ```bash pip install nes-py gym-super-mario-bros stable-baselines3[extra] ``` 上述命令会安装 `nes-py`, `gym-super-mario-bros` 以及用于实现 PPO 的强化学习工具包 `Stable-Baselines3`[^1]。 --- #### 创建超级马里奥环境 通过导入 `SuperMarioBros-v0` 或其他变体创建游戏环境,并设置动作空间和观察空间。 ```python import gym_super_mario_bros from nes_py.wrappers import JoypadSpace from gym.spaces import Box from gym.wrappers import FrameStack from stable_baselines3.common.env_checker import check_env from stable_baselines3 import PPO # 初始化 Super Mario Bros 环境 env = gym_super_mario_bros.make('SuperMarioBros-v0') # 设置简化操作集 env = JoypadSpace(env, [['right'], ['right', 'A']]) # 将帧堆叠到一起以提供时间序列数据给神经网络 env = FrameStack(env, num_stack=4) # 验证环境是否兼容稳定基线的要求 check_env(env) ``` 此部分代码定义了一个简单的控制方案(右移或跳跃),并通过 `FrameStack` 提供连续四帧作为输入状态。 --- #### 训练PPO模型 使用 `stable-baselines3.PPO` 来初始化和训练代理。 ```python model = PPO( policy="CnnPolicy", env=env, verbose=1, tensorboard_log="./mario_ppo_tensorboard/" ) # 开始训练过程 model.learn(total_timesteps=int(1e6)) # 保存训练好的模型 model.save("ppo_mario") ``` 在此配置中: - **policy**: 使用卷积神经网络 (`CnnPolicy`) 处理图像型观测值。 - **total_timesteps**: 总共执行 $1 \times 10^6$ 时间步数进行训练。 - **tensorboard_log**: 可视化日志路径以便监控训练进展。 --- #### 测试已训练的模型 加载先前保存的模型并对环境运行推理测试。 ```python del model # 删除旧模型以防冲突 # 加载预训练模型 model = PPO.load("ppo_mario") state = env.reset() done = False while not done: action, _states = model.predict(state) state, reward, done, info = env.step(action) env.render() env.close() ``` 这段脚本展示了如何利用训练完成后的模型在游戏中做出决策。 --- ### 注意事项 1. 超参数调整对于性能至关重要。例如,更改学习率、批量大小或其他超参数可能显著影响收敛速度与最终效果。 2. 如果希望扩展功能,可考虑引入更复杂的奖励机制或者自定义环境封装器。 3. 对于更高难度级别(如世界 1-2 或以上),建议增加训练时间和样本数量。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值