桶排序

参考链接:https://blog.youkuaiyun.com/justry_deng/article/details/89790298

http://www.sohu.com/a/259503781_684445 

时间复杂度:O(N)。N为待排序元素的个数。

注:前提是数据服从均匀分布,它的平均时间复杂度才为O(N)。

注:时间复杂度实际为,再通过一些列化简后,可得到O(N)的时间复杂度,具体化简
       过程可详见《算法导论》。

注:即使输入数据不服从均匀分布,桶排序也仍然可以在线性时间内完成。只要输入数据满足下列性质:所有桶的
       大小(即:桶内元素的个数)的平方和与总的被排序元素个数呈线性关系。此结论的理论公式是:
      ,其中n表示总的被排序元素的个数,表示桶B[i]中元素的个数。

空间复杂度:O(M + N)。其中,M为桶的个数,N为待排序元素的个数。

稳定性:稳定。

适用数据:服从均匀分布的数据。

说明:

桶排序算法是以空间换时间的算法,是最快的算法。不过其适用范围有局限性。
    
    对于那些(可以通过偏移、缩放等技巧处理后)服从均匀分布、数据跨度不大的数据,可以按照一个桶对应一个数据的思路,进行程序设计。以数组索引位置对应元素值,操作值就变成了操作索引下标,所以速度会很快,不过比较占空间资源。
    
    
    对于真正的桶排序,一个桶对应一个范围的数据,桶的数量可以小于被排序元素的跨度范围。不过个人感觉此情况下的桶排序性能上略差,使用桶排序意义不大。
    

这是我写的一个实现。

package com.harry;

import java.util.ArrayList;
import java.util.Arrays;
import java.util.Collections;
import java.util.LinkedList;

public class BucketSort {
    public static double[] bucketSort(double[] input){
        if(input == null){
            return null;
        }else if(input.length == 0){
            return null;
        }

        //find max and min
        double min = Double.MAX_VALUE;
        double max = Double.MIN_VALUE;
        for(double i:input){
            if(i < min){
                min = i;
            }
            if(i > max){
                max = i;
            }
        }

        //coverage
        double d = max - min;

        //initialize bucket
        ArrayList<LinkedList<Double>> buckets = new ArrayList<>();
        for(int i=0;i<input.length;i++){
            buckets.add(new LinkedList<Double>());

        }

        //put elements into bucket
        for(double i:input){
            int bucketNum = (int)((i - min) * (input.length - 1)/d);
            buckets.get(bucketNum).add(i);
        }

        double[] rst = new double[input.length];
        int index = 0;
        // sort any bucket and put results
        for(LinkedList<Double> list:buckets){
            Collections.sort(list);
            for(double j:list){
                rst[index++] = j;
            }
        }

        return rst;

    }

    public static void main(String[] args) {
        double[] array = new double[] {4.12,6.421,0.0023,3.0,2.123,8.122,4.12, 10.09};
        double[] sortedArray = bucketSort(array);
        System.out.println(Arrays.toString(sortedArray));
    }
}

 

DQN(Deep Q-Network)是一种使用深度神经网络实现的强化学习算法,用于解决离散动作空间的问题。在PyTorch中实现DQN可以分为以下几个步骤: 1. 定义神经网络:使用PyTorch定义一个包含多个全连接层的神经网络,输入为状态空间的维度,输出为动作空间的维度。 ```python import torch.nn as nn import torch.nn.functional as F class QNet(nn.Module): def __init__(self, state_dim, action_dim): super(QNet, self).__init__() self.fc1 = nn.Linear(state_dim, 64) self.fc2 = nn.Linear(64, 64) self.fc3 = nn.Linear(64, action_dim) def forward(self, x): x = F.relu(self.fc1(x)) x = F.relu(self.fc2(x)) x = self.fc3(x) return x ``` 2. 定义经验回放缓存:包含多条经验,每条经验包含一个状态、一个动作、一个奖励和下一个状态。 ```python import random class ReplayBuffer(object): def __init__(self, max_size): self.buffer = [] self.max_size = max_size def push(self, state, action, reward, next_state): if len(self.buffer) < self.max_size: self.buffer.append((state, action, reward, next_state)) else: self.buffer.pop(0) self.buffer.append((state, action, reward, next_state)) def sample(self, batch_size): state, action, reward, next_state = zip(*random.sample(self.buffer, batch_size)) return torch.stack(state), torch.tensor(action), torch.tensor(reward), torch.stack(next_state) ``` 3. 定义DQN算法:使用PyTorch定义DQN算法,包含训练和预测两个方法。 ```python class DQN(object): def __init__(self, state_dim, action_dim, gamma, epsilon, lr): self.qnet = QNet(state_dim, action_dim) self.target_qnet = QNet(state_dim, action_dim) self.gamma = gamma self.epsilon = epsilon self.lr = lr self.optimizer = torch.optim.Adam(self.qnet.parameters(), lr=self.lr) self.buffer = ReplayBuffer(100000) self.loss_fn = nn.MSELoss() def act(self, state): if random.random() < self.epsilon: return random.randint(0, action_dim - 1) else: with torch.no_grad(): q_values = self.qnet(state) return q_values.argmax().item() def train(self, batch_size): state, action, reward, next_state = self.buffer.sample(batch_size) q_values = self.qnet(state).gather(1, action.unsqueeze(1)).squeeze(1) target_q_values = self.target_qnet(next_state).max(1)[0].detach() expected_q_values = reward + self.gamma * target_q_values loss = self.loss_fn(q_values, expected_q_values) self.optimizer.zero_grad() loss.backward() self.optimizer.step() def update_target_qnet(self): self.target_qnet.load_state_dict(self.qnet.state_dict()) ``` 4. 训练模型:使用DQN算法进行训练,并更新目标Q网络。 ```python dqn = DQN(state_dim, action_dim, gamma=0.99, epsilon=1.0, lr=0.001) for episode in range(num_episodes): state = env.reset() total_reward = 0 for step in range(max_steps): action = dqn.act(torch.tensor(state, dtype=torch.float32)) next_state, reward, done, _ = env.step(action) dqn.buffer.push(torch.tensor(state, dtype=torch.float32), action, reward, torch.tensor(next_state, dtype=torch.float32)) state = next_state total_reward += reward if len(dqn.buffer.buffer) > batch_size: dqn.train(batch_size) if step % target_update == 0: dqn.update_target_qnet() if done: break dqn.epsilon = max(0.01, dqn.epsilon * 0.995) ``` 5. 测试模型:使用训练好的模型进行测试。 ```python total_reward = 0 state = env.reset() while True: action = dqn.act(torch.tensor(state, dtype=torch.float32)) next_state, reward, done, _ = env.step(action) state = next_state total_reward += reward if done: break print("Total reward: {}".format(total_reward)) ``` 以上就是在PyTorch中实现DQN强化学习的基本步骤。需要注意的是,DQN算法中还有很多细节和超参数需要调整,具体实现过程需要根据具体问题进行调整。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值