架构搜索文献笔记(9):《CurveLane-NAS: Unifying Lane-Sensitive Architecture Search and Adaptive Point》

论文《CurveLane-NAS: Unifying Lane-Sensitive Architecture Search and Adaptive Point》提出了针对曲线车道检测的新型架构搜索框架。该框架包括弹性主干搜索、特征融合搜索和自适应点混合模块,以捕捉长距离车道信息和短程曲线细节。通过多目标搜索算法,实现了效率和精度的优化平衡。此外,论文还创建了一个更具挑战性的CurveLanes基准,验证了方法的有效性。

论文《 CurveLane-NAS: Unifying Lane-Sensitive
Architecture Search and Adaptive Point》-2020-ECCV
**
论文链接
代码链接

论文为机器翻译的,当时只想看个大概,好久以前的笔记

一、摘要及主要贡献

1.1 摘要

摘要:文章解决了曲线车道检测问题,它比传统的车道检测提出了更现实的挑战,以更好地促进现代辅助/自动驾驶系统。由于缺乏对远程背景信息和详细的曲线轨迹的建模,目前手工设计的车道检测方法不够鲁棒,不足以捕捉曲线车道,特别是远程部分。

在本文中,提出了一种新的车道敏感架构搜索框架,称为CurveLane–NAS,以自动捕获长距离相干和准确的短程曲线信息。它由三个搜索模块组成:a)一个特征融合搜索模块,为多层次特征更好地寻找局部和全局上下文的融合;b)一个弹性主链搜索模块,探索具有良好语义和延迟的有效特征提取器;c)一个自适应点混合模块,搜索多层次后处理优化策略,结合多尺度头预测。

此外,还推动发布了一个更具挑战性的基准测试,称为CurveLanes,以解决最困难的曲线车道。它由15万张图像和680万张标签的图像组成。在新的CurveLanes上的3实验表明,SOTA车道检测方法的性能显著下降,而模型仍然可以达到80%的F1-score。在传统车道基准,如CULane上的大量实验也证明了CurveLane-NAS的优越性。在CULane上获得了新的SOTA74.8%的F1-score。

### CVPR2024 统一自上而下和自下而上的扫描路径预测使用 Transformers 的研究 在计算机视觉领域,特别是针对人类注视点预测的任务中,统一自上而下的目标驱动注意力机制与自下而上的显著性检测是一个重要的研究方向。HAT (Hierarchical Attention Transformer) 是一种基于变换器架构设计的新颖模型,在此背景下被提出并应用于扫描路径预测任务[^3]。 #### Hierarchical Attention Transformer (HAT) 该模型旨在通过多层次特征融合来捕捉图像中的复杂结构信息,并利用序列建模能力模拟人眼移动过程中的时间依赖关系。具体来说: - **多尺度特征提取**:采用预训练卷积神经网络作为骨干网,获取不同层次的空间表征; - **全局上下文感知模块**:引入位置编码技术增强对绝对坐标的敏感度; - **局部细节聚焦机制**:借助于自注意层内部节点间交互作用突出重要区域; - **行为克隆策略指导学习**:以专家示范数据集为基础优化参数配置,使得最终输出更贴近真实用户的浏览习惯。 为了实现高效推理计算,还特别考虑到了轻量化部署需求,采取了一系列加速措施如剪枝、量化等操作确保实际应用性能不受影响。 ```python import torch.nn as nn class HATT(nn.Module): def __init__(self, backbone='resnet50', num_heads=8, hidden_dim=512): super(HATT, self).__init__() # Backbone network for multi-scale feature extraction self.backbone = get_backbone(backbone) # Global context aware module with positional encoding self.pos_encoder = PositionalEncoding(hidden_dim) # Local detail focus mechanism via self-attention layers transformer_layer = nn.TransformerEncoderLayer( d_model=hidden_dim, nhead=num_heads ) self.transformer = nn.TransformerEncoder(transformer_layer, num_layers=6) # Behavior cloning strategy guided learning process self.regressor = nn.Sequential( nn.Linear(hidden_dim * 7*7, 256), nn.ReLU(), nn.Dropout(0.5), nn.Linear(256, 2), # Predicting gaze coordinates ) def forward(self, x): features = self.backbone(x).flatten(start_dim=2).transpose(-2,-1) encoded_features = self.pos_encoder(features) attended_features = self.transformer(encoded_features) pred_gaze = self.regressor(attended_features.mean(dim=1)) return pred_gaze ```
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值