【论文阅读】HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis

HP-Net是一种基于注意力机制的深度神经网络,采用多层注意力图映射至不同特征层,能从浅层到语义层捕获注意力,挖掘多尺度可选注意力特征,充实行人特征表示。该网络包含MainNet和AttentiveFeatureNet,后者由三个MDA增强的分支组成,用于细粒度行人分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

原文地址:https://arxiv.org/abs/1709.09930

Github: https://github.com/xh-liu/HydraPlus-Net

如有不准确或错误的地方,欢迎交流~

 

  HP-Net是一个基于注意力机制(attention-based)的深度神经网络,将多层注意力机制图多向映射到不同的特征层。

【HP-Net Adavantage】

  (1)模型能够从浅层到语义层捕获注意力;

  (2)挖掘多尺度的可选注意力特征,充实最终的行人特征表示;

  (3)提取出细节和局部特征来充实高层全局特征,这些特征在细粒度的行人分析任务中是非常重要的;

  (4)提出多方向注意机制模块(multi-directional attention,MDA),提取多层(multiple level)特征,包含局部和全局特征,进行多层特征融合,进行细粒度的行人分析;

   

   multi-level: (a)语义层:分辨相似外观行人的局部区域特征,如长短发、长短袖; (b)浅层:捕捉行人的衣服的条纹;

      multi-scale: (c)(d)多尺度特征,描述行人特点 (c)小尺度特征对应‘打电话’; (d)大尺度全局理解描述‘性别’

【HydraPlus-Net网络结构】

  (1)Main Net(M-Net):单纯的CNN结构,论文的实现是基于inception_v2,包含三个inception block,还包含几个低层卷积层

  (2)Attentive Feature Net(AF-Net):三个分支,每个分支有三个inception_v2 block和一个MDA

  

【Attentive Feature Network】

  AF-Net包含3个MDA增强的网络分支,

  AF-Net和M-Net共享卷积框架,他们的输出级联后经过全局平均池化和全连接层融合,最终的输出映射到属性logits用于属性识别,或特征向量用于再认证。

   

  为inception i模块的输出经过1 1conv、BN、ReLU产生的注意力图,并被相乘到inception k的输出特征图,产生多层多尺度注意力特征,传送到后续的层,MDA模块的最后L个注意力特征级联作为最终特征表示,k∈{1,2,3}

【Attention Mechanism 注意力机制】

  传统基于注意力的模型,将注意力图返回输入到原相同的模块(右图红线),通过应用注意力图到相邻的模块来扩展此机制;HP-Net应用不同的注意力图到多个模块(下图b),在相同的空间分布下融合多层特征。

   

【Multi-level Attention Map 多层注意力图】

  不同模块学习得到注意力图在尺度和细节上差异非常大,如下图(a),高层通常更粗糙、更聚焦语义区域(特定物体),如,低层捕获局部特征和细节(边缘和纹理),如 。因此,使用MDA模块融合不同层注意力特征,可以收集不同层的语义信息,提供更多可选特征表达。

    

  上图为每个输入图像提取某level的L = 8 attention channels 的特征图,不同MDA作用下,多级注意力特征的定性演示

  

  (a)浅层属性,如上衣类型,需要低层注意力连接,纹理 -> T-Shirt (b)语义或目标级别的属性,如手机,需要高层注意力连接

【Stage-wise Training 分阶段训练】

  ①训练M-Net,提取基本特征;

  ②将M-Net复制三次,得到AF-Net的三个分支,每个MDA模块有三个子分支组成,即临近的三个不同的inception blocks,依次微调每个blocks,即共有9个blocks需要微调;

  ③微调完成后,固定AF-Net和M-Net,训练全局平均池化层(GAP)和全连接层(FC);

  ④输出层:属性识别使用交叉熵损失函数,行人ReID使用softmax函数。

【实验结果】

  

  

### 关于自动驾驶汽车中的深度学习算法 #### 深度Q学习算法的应用实例 一个简单的自驾车AI Python脚本可以采用深Q学习算法来实现基本的自动行驶功能[^1]。此方法属于强化学习的一种形式,在这种框架下,代理(即车辆)通过与环境互动获得经验并优化行为策略。 ```python import gym from keras.models import Sequential from keras.layers import Dense, Activation, Flatten from rl.agents.dqn import DQNAgent from rl.policy import EpsGreedyQPolicy from rl.memory import SequentialMemory env = gym.make('CarRacing-v0') nb_actions = env.action_space.n model = Sequential() model.add(Flatten(input_shape=(1,) + env.observation_space.shape)) model.add(Dense(16)) model.add(Activation('relu')) model.add(Dense(nb_actions)) model.add(Activation('linear')) policy = EpsGreedyQPolicy() memory = SequentialMemory(limit=50000, window_length=1) dqn = DQNAgent(model=model, nb_actions=nb_actions, memory=memory, target_model_update=1e-2, policy=policy) dqn.compile(optimizer='adam', metrics=['mae']) history = dqn.fit(env, nb_steps=50000, visualize=False, verbose=2) ``` 这段代码展示了如何构建基于Keras库的DQN模型用于模拟环境中训练自驾车的行为模式。虽然这是一个简化版的例子,但它体现了利用深度学习解决复杂动态系统的思路。 #### HydraNet多任务感知系统 特斯拉开发了一种名为HydraNet的独特感知算法体系结构,该架构采用了多头任务学习神经网络设计,专门针对不同类型的传感输入进行了定制化处理[^5]。“九头”的比喻生动描绘了这一复杂的感知流程——每个分支负责特定的任务如物体检测、车道线跟随等;而“脖子”部分则代表共同的基础特征提取层,这不仅提高了运算效率也增强了整体感知准确性。 #### 核心概念关联性说明 无人驾驶技术依赖于一系列先进的人工智能组件协同工作,其中包括但不限于: - **计算机视觉**:解析摄像头捕捉到的画面信息; - **机器/深度学习**:从大量历史数据集中提炼规律指导实时决策过程; - **定位导航**:确定车辆当前位置以及规划最优路径; - **传感器融合**:综合雷达、激光测距仪等多种设备获取的数据形成全面路况理解。 这些要素相互配合使得车辆能够在无需人类干预的情况下安全有效地完成旅程目标[^4]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值