Gym Class


 Gym Class

 

众所周知,度度熊喜欢各类体育活动。 

今天,它终于当上了梦寐以求的体育课老师。第一次课上,它发现一个有趣的事情。在上课之前,所有同学要排成一列, 假设最开始每个人有一个唯一的ID,从1到NN,在排好队之后,每个同学会找出包括自己在内的前方所有同学的最小ID,作为自己评价这堂课的分数。麻烦的是,有一些同学不希望某个(些)同学排在他(她)前面,在满足这个前提的情况下,新晋体育课老师――度度熊,希望最后的排队结果可以使得所有同学的评价分数和最大。 
Input
第一行一个整数TT,表示T(1T30)T(1≤T≤30) 组数据。 

对于每组数据,第一行输入两个整数NNM(1N100000,0M100000)M(1≤N≤100000,0≤M≤100000),分别表示总人数和某些同学的偏好。 

接下来MM行,每行两个整数AA 和B(1A,BN)B(1≤A,B≤N),表示ID为AA的同学不希望ID为BB的同学排在他(她)之前。你可以认为题目保证至少有一种排列方法是符合所有要求的。 
Output
对于每组数据,输出最大分数 。
Sample Input
3
1 0
2 1
1 2
3 1
3 1
Sample Output
1
2
6

每次都将最大的加上去

B只能在A后面,所以在A没有加上之前,B不能放入队列中。

用优先队列(队头为最大元素)

#include <iostream>
#include <cstdio>
#include <cstring>
#include <string>
#include <cmath>
#include <vector>
#include <cctype>
#include <cstdlib>
#include <set>
#include <map>
#include <queue>
#include <deque>
#include <list>
#include <stack>
#include <ctime>
#include <bitset>
#include <algorithm>
using namespace std;

const int maxn = 1e5 + 10;
const int MOD = 1e9 + 7;
const double PI = acos(-1.0);
const double esp = 1e-5;
const double e = 2.718281828459;
const int INF = 0x3f3f3f3f;
typedef long long ll;
typedef unsigned long long ull;

#define cl(A) memset(A,0,sizeof A);
#define fin freopen("in.txt","r",stdin)
#define fout freopen("out.txt","w",stdout)
int vis[maxn];
vector<int> a[maxn];
priority_queue<int> q;
int main()
{
    int t;
    scanf("%d",&t);
    while(t--){
        int n,m;
        scanf("%d%d",&n,&m);
        cl(vis);
        for(int i=0;i<=n;i++)
            a[i].clear();
        for(int i=0;i<m;i++){
            int x,y;
            scanf("%d%d",&x,&y);
            a[x].push_back(y);
            vis[y]++;
        }
        for(int i=1;i<=n;i++){
            if(!vis[i]){
                q.push(i);
            }
        }
        ll sum = 0;
        int mi = n;
        while(!q.empty()){
            int num = q.top();
            q.pop();
            mi = min(mi,num);
            sum += mi;
            for(int i=0;i<a[num].size();i++){
                vis[a[num][i]]--;
                if(!vis[a[num][i]]){
                    q.push(a[num][i]);
                }
            }
        }
        printf("%lld\n",sum);
    }
    return 0;
}



<think>好的,用户想了解OpenAI Gym环境的使用指南。首先,我需要回忆一下之前提供的引用内容,确保信息准确。根据引用[1],Gym是一个包含多种环境的开源库,用于强化学习算法的开发。引用[2]提到安装方法,用pip安装gym,可能还需要其他依赖库。引用[3]和[4]讨论了自定义环境的创建和Gym的基本概念。用户的需求可能包括安装步骤、基本用法、示例代码以及如何创建自定义环境。需要分步骤回答,结构清晰。首先应该介绍安装过程,然后说明如何加载环境,接着给出一个简单的示例,比如CartPole。此外,用户可能对如何扩展自己的环境感兴趣,所以需要提到自定义环境的方法,并引用相关文档。要注意用户可能遇到的问题,比如安装依赖项或环境接口的使用。要确保LaTeX格式正确,行内公式用$...$,独立公式用$$...$$。同时生成相关问题,帮助用户深入探索。最后,检查引用标识是否正确添加,例如安装部分引用[2],自定义环境引用[3]和[4]。</think>### OpenAI Gym环境使用指南 #### 一、环境安装与依赖 1. **基础安装**: 通过`pip`安装核心库: ```bash pip install gym ``` 如需Atari游戏等高级环境,需额外安装依赖[^2]: ```bash pip install gym[atari] ``` 2. **验证安装**: 导入Gym并列出可用环境: ```python import gym print(gym.envs.registry.all()) # 显示所有注册环境 ``` #### 二、基础使用流程 1. **环境初始化** ```python env = gym.make('CartPole-v1') # 创建经典倒立摆环境[^4] observation = env.reset() # 初始化环境,返回初始状态 ``` 2. **交互循环** ```python for _ in range(1000): action = env.action_space.sample() # 随机采样动作(示例) observation, reward, done, info = env.step(action) # 执行动作[^4] if done: observation = env.reset() # 重置终止的环境 env.close() ``` 3. **关键对象说明** - **动作空间**:`env.action_space`(如离散型、连续型) - **状态空间**:`env.observation_space`(如Box表示多维连续状态) - **奖励函数**:由`env.step()`返回的`reward`值 #### 三、自定义环境开发 1. **继承`gym.Env`类** ```python class CustomEnv(gym.Env): def __init__(self): self.action_space = gym.spaces.Discrete(2) # 定义动作空间 self.observation_space = gym.spaces.Box(low=0, high=1, shape=(4,)) # 定义状态空间[^3] def step(self, action): # 实现状态转移逻辑 return observation, reward, done, info def reset(self): # 重置环境状态 return observation ``` 2. **注册环境** ```python from gym.envs.registration import register register( id='CustomEnv-v0', entry_point='your_module:CustomEnv', ) ``` #### 四、强化学习训练示例(Q-learning) $$Q(s,a) \leftarrow Q(s,a) + \alpha [r + \gamma \max_{a'} Q(s',a') - Q(s,a)]$$ ```python import numpy as np env = gym.make('FrozenLake-v1') q_table = np.zeros([env.observation_space.n, env.action_space.n]) for episode in range(1000): state = env.reset() while not done: action = np.argmax(q_table[state]) # 贪婪策略 next_state, reward, done, _ = env.step(action) q_table[state,action] += 0.1 * (reward + 0.9 * np.max(q_table[next_state]) - q_table[state,action]) state = next_state ``` #### 五、高级功能 1. **环境包装器**: 使用`gym.Wrapper`修改现有环境行为(如奖励重塑、状态预处理): ```python class RewardWrapper(gym.Wrapper): def step(self, action): obs, reward, done, info = super().step(action) return obs, reward*2, done, info # 双倍奖励 ``` 2. **并行环境**: 通过`gym.vector`支持批量环境交互: ```python from gym.vector import SyncVectorEnv envs = SyncVectorEnv([lambda: gym.make('CartPole-v1') for _ in range(4)]) ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值