Gym 100513I - Sale in GameStore

在游戏店举办的促销活动中,玩家只需购买一款游戏即可免费下载更多游戏,总价值不得超过所购游戏价格。主角Polycarp利用此机会,通过朋友的支付承诺,最大化地获取游戏数量。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

A well-known Berland onlinegames store has announced a great sale! Buy any game today, and you candownload more games for free! The only constraint is that the total price ofthe games downloaded for free can't exceed the price of the bought game.

When Polycarp found outabout the sale, he remembered that his friends promised him to cover any singlepurchase in GameStore. They presented their promise as a gift for Polycarp'sbirthday.

There are n gamesin GameStore, the price of the i-th game is pi. What is the maximumnumber of games Polycarp can get today, if his friends agree to cover theexpenses for any single purchase in GameStore?

Input

The first line of the inputcontains a single integer number n (1 ≤ n ≤ 2000) — the number of games in GameStore. The second linecontains n integer numbers p1, p2, ..., pn (1 ≤ pi ≤ 105), where pi is the price of the i-th game.

Output

Print the maximum number ofgames Polycarp can get today.

Sample test(s)

input

5
5 3 1 5 6

output

3

input

2
7 7

output

2

Note

In the first examplePolycarp can buy any game of price 5 or 6 and download games of prices 1 and 3for free. So he can get at most 3 games.

In the second examplePolycarp can buy any game and download the other one for free.

 

思路:

贪心,排序,取最大的数,从小的数开始减


程序:
#include <iostream>
#include <cstdio>
#include <algorithm>
using namespace std;

const int N = 2005;

struct node
{
	int x, y;
};

int main()
{
	int n;
	scanf("%d\n", &n);
	int i;
	int p[N];
	for (i = 0; i<n; i++)
	{
		scanf("%d", &p[i]);
	}

	sort(p, p + n);

	int m = p[n - 1];

	int ans = 1;
	n--;
	for (i = 0; i<n; i++)
		if (m >= p[i])
		{
			m -= p[i];
			ans++;
		}

	printf("%d\n", ans);

	return 0;
}


### 使用PPO算法在gym-super-mario-bros环境中的实现 为了在 `gym-super-mario-bros` 游戏环境中应用近端策略优化 (Proximal Policy Optimization, PPO),可以按照以下方法构建模型并训练代理。以下是详细的说明: #### 安装依赖库 首先,确保安装必要的 Python 库来支持 `gym-super-mario-bros` 和强化学习框架 Stable Baselines3。 ```bash pip install nes-py gym-super-mario-bros stable-baselines3[extra] ``` 上述命令会安装 `nes-py`, `gym-super-mario-bros` 以及用于实现 PPO 的强化学习工具包 `Stable-Baselines3`[^1]。 --- #### 创建超级马里奥环境 通过导入 `SuperMarioBros-v0` 或其他变体创建游戏环境,并设置动作空间和观察空间。 ```python import gym_super_mario_bros from nes_py.wrappers import JoypadSpace from gym.spaces import Box from gym.wrappers import FrameStack from stable_baselines3.common.env_checker import check_env from stable_baselines3 import PPO # 初始化 Super Mario Bros 环境 env = gym_super_mario_bros.make('SuperMarioBros-v0') # 设置简化操作集 env = JoypadSpace(env, [['right'], ['right', 'A']]) # 将帧堆叠到一起以提供时间序列数据给神经网络 env = FrameStack(env, num_stack=4) # 验证环境是否兼容稳定基线的要求 check_env(env) ``` 此部分代码定义了一个简单的控制方案(右移或跳跃),并通过 `FrameStack` 提供连续四帧作为输入状态。 --- #### 训练PPO模型 使用 `stable-baselines3.PPO` 来初始化和训练代理。 ```python model = PPO( policy="CnnPolicy", env=env, verbose=1, tensorboard_log="./mario_ppo_tensorboard/" ) # 开始训练过程 model.learn(total_timesteps=int(1e6)) # 保存训练好的模型 model.save("ppo_mario") ``` 在此配置中: - **policy**: 使用卷积神经网络 (`CnnPolicy`) 处理图像型观测值。 - **total_timesteps**: 总共执行 $1 \times 10^6$ 时间步数进行训练。 - **tensorboard_log**: 可视化日志路径以便监控训练进展。 --- #### 测试已训练的模型 加载先前保存的模型并对环境运行推理测试。 ```python del model # 删除旧模型以防冲突 # 加载预训练模型 model = PPO.load("ppo_mario") state = env.reset() done = False while not done: action, _states = model.predict(state) state, reward, done, info = env.step(action) env.render() env.close() ``` 这段脚本展示了如何利用训练完成后的模型在游戏中做出决策。 --- ### 注意事项 1. 超参数调整对于性能至关重要。例如,更改学习率、批量大小或其他超参数可能显著影响收敛速度与最终效果。 2. 如果希望扩展功能,可考虑引入更复杂的奖励机制或者自定义环境封装器。 3. 对于更高难度级别(如世界 1-2 或以上),建议增加训练时间和样本数量。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值