深度好文 | 神经网络的十字路口

本文探讨了深度学习在当前的发展瓶颈,强调距离真正的“智能”还很遥远。预测性编码作为一种可能的大统一理论在神经科学中备受关注。此外,作者指出序列化信息在理解和学习过程中的重要性,并提出了不同于现代神经网络的新框架,强调反馈链接和时间序列处理。文章结尾呼吁更多研究者在神经网络的各个方向上深入探索。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

2018年以来,“深度学习泡沫破灭”“区块链才是新的风口”这样的言论不绝于耳。客观来看,深度学习确实进入了一段瓶颈期,时常搞大新闻的DeepMind、OpenAI、谷歌大脑等研究机构上半年拿出的东西也乏善可陈。

 

但从个人角度,我还是喜欢这样安静的AI界,我们离强人工智能还很远,在深度学习的理论研究上还处于婴儿阶段,我希望无论是身处其中的研究人员,还是满怀期待的观众都能认清这个现实。

 

深度学习虽火  但距离真正的“智能”还很遥远

距离2012年AlexNet提出引起深度学习的火热已经过去了六年。在这六年里,该领域取得的成果有目共睹:

  • 在架构上,ResNet、Inception、DenseNet等极大拓展了深度学习的特征提取能力;
  • 在提高收敛速度上,Batch Normalization、Group Normalization,还有最近的Switchable Normalization的提出,加快了神经网络的收敛速度;
  • 在网络泛化上,Dropout的提出让我们在加噪声和设计loss函数惩罚项之外又多了个选择;
  • 在强化学习领域,Deep Q Learning和AlphaGo为我们展现了人工智能超越人类的可能;
  • 在应用落地上,计算机视觉和自然语言处理领域诞生了成百上千的创业公司;
  • 在更大的方向上,GAN的诞生,使其成为CNN以后,神经网络领域最有意思的一个分支,当然,与此同时我们还放出了对抗样本这个“幽灵”。

但时至今日,我们对“智能”的定义依然模糊。有人说,像人一样思考的就是智能。但是,人究竟是怎样思考的,我们至今也没有准确的答案。

 

曾经有一段时间,我非常着迷于“意识”这个东西,按照我当时天真的想法,通过生物神经科学领域对意识衡量的启发,来建立一个对人工神经网络“意识”的衡量机制,如果我们可以写出“意识”的损失函数,就能确定我们的模型有没有真的像人一样在思考。很显然,当时的我完全是一个生物神经科学方面的白痴(现在也是)。

 

后来,通过粗略浏览几篇生物神经领域的论文,并跟几位认知神经学方面的博士进行了相关交流,我发现一个很有意思的现象:生物学上对神经科学的研究几乎都是基于行为的。比如,前段时间有篇很火的RNA跟记忆相关的研究,就是观察海兔对电击的反应来论证记忆有可能是存储在RNA中的(一般理论认为,记忆是分布存储于神经元的链接中的)。这儿我们不掺和记忆的存储的问题,尽管这个问题

### 使用深度学习优化十字路口交通信号灯控制系统的实现 #### 方法概述 为了有效管理城市中的交通流量,可以利用强化学习方法来动态调整交通信号灯的时间分配。这种方法不仅考虑了当前的交通状况,还能预测未来的车流趋势并作出相应调整[^1]。 #### 数据收集与预处理 在构建模型之前,需先获取用于训练的数据集。这可以通过安装于各交叉口处的摄像头捕捉视频片段,并借助目标检测技术识别车辆位置及其移动方向。YOLOv5因其高效性和准确性成为此类任务的理想选择,它能实时监测多个方向上不同类型的交通指示装置状态变化情况[^2]。 #### 强化学习环境设定 定义马尔可夫决策过程(Markov Decision Process, MDP),其中每个时间步代表一个周期内的绿/红切换操作;状态由各个进口道排队长度组成向量形式表达;动作则对应着改变特定相位持续期长短的选择集合。奖励函数的设计至关重要——既要鼓励减少等待队伍总规模又要防止频繁转换造成额外延误现象发生[^4]。 #### 模型架构设计 采用DQN(Double Deep Q-Networks)作为核心算法框架,在此基础上引入经验回放机制(experience replay mechanism)和平滑目标网络(smooth target network updates)两项改进措施以提高收敛速度及稳定性。此外,考虑到实际应用场景下的复杂性因素影响(比如行人过街请求优先权),还需适当扩展原有结构使之具备更强泛化能力应对各种突发状况[^3]。 #### 训练流程说明 初始化参数后进入迭代循环直至满足终止条件为止: - 对每一个epoch而言,模拟一天内不同时段可能出现的不同模式组合; - 根据选定策略选取行动并对环境施加作用获得即时反馈值r_t以及下一时刻的新局面o_(t+1); - 将经历tuple (o_t,a_t,r_t,o_(t+1))存入记忆库D中供后续采样使用; - 随机抽取一批样本执行梯度下降更新权重w←w−α∇_w J(w|D') ,这里J表示损失函数而α为学习率超参之一; - 定期同步评估Q(s,a;θ)≈E[R|s,a] 的近似程度从而决定何时结束整个过程。 ```python import gym from collections import deque import random import numpy as np import torch import torch.nn.functional as F from dqn_model import DQN # 假设已经实现了具体的神经网络类 class Agent(object): def __init__(self, state_size, action_size): self.state_size = state_size self.action_size = action_size self.memory = deque(maxlen=2000) self.gamma = 0.95 self.epsilon = 1.0 self.epsilon_min = 0.01 self.epsilon_decay = 0.995 self.model = DQN(state_size, action_size) def remember(self, state, action, reward, next_state, done): self.memory.append((state, action, reward, next_state, done)) def act(self, state): if np.random.rand() <= self.epsilon: return random.randrange(self.action_size) with torch.no_grad(): act_values = self.model(torch.FloatTensor([state])) return int(act_values.argmax()) def replay(self, batch_size): minibatch = random.sample(self.memory, batch_size) for state, action, reward, next_state, done in minibatch: target = reward if not done: target += self.gamma * \ float(self.model( torch.FloatTensor([next_state])).max()) target_f = self.model(torch.FloatTensor([state])) target_f[0][action] = target loss_fn = torch.nn.MSELoss() optimizer = torch.optim.Adam(self.model.parameters(), lr=0.001) pred = self.model(torch.FloatTensor([state])) loss = loss_fn(pred, target_f) optimizer.zero_grad() loss.backward() optimizer.step() if self.epsilon > self.epsilon_min: self.epsilon *= self.epsilon_decay env = gym.make('TrafficLightControl-v0') agent = Agent(env.observation_space.shape[0], env.action_space.n) done = False batch_size = 32 for e in range(episodes): state = env.reset() while True: action = agent.act(state) next_state, reward, done, _ = env.step(action) agent.remember(state, action, reward, next_state, done) if len(agent.memory) > batch_size: agent.replay(batch_size) state = next_state if done: break ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值