EEPI-优快云博客

原创【论文精读】Improving Behavious with RL fine-tuning for Autonomous driving

RL过程能够显著提升可靠性significantly improves the reliability of the agent behavious。目前LLM采用的范式“先大规模预训练，再强化学习微调”被借鉴到这篇文章中了。采用Waymomer框架。

2025-03-31 21:52:56 921

原创【论文精读】Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

这个预训练跟deepseek r1一样，都是让模型先学一些简单的专家分布，作为强化学习的冷启动，否则直接用强化学习，探索到专家分布的难度太大。但是上述误差是只有达到一定阈值时才算，没有达到阈值时就没有，所以是稀疏的。由于上述奖励过于稀疏，因此需要一些辅助奖励。模仿学习存在的问题已经越来越被广泛认识到。目前强化学习也存在问题。

2025-03-04 16:19:27 800

原创强化学习入门

去掉Value model（Critic model），无需额外的价值函数。

2025-02-20 19:51:24 236

因为有些信息是通识的，所以建立Shared Expert共享专家，这些专家是每个token都要过的，然后其他专业领域的专家由router进行选择，然后再加权求和。SparseMoE选择topk个专家（没有激活全部专家，所以叫sparse），然后各专家的输出进行加权求和。这个模型是由Switch Transformer论文中提出来的，其预训练速度是密集模型的7倍。用router给出各专家的权重，然后让输入过每一个专家，然后做加权求和。

2025-02-17 20:36:57 311

原创大语言模型入门

找到常出现的编码对，比如（125 67），就把它合成为一个新编码符号（比如301），然后再看有没有新的编码对，比如（301 786），那就再把这个合成新的。一种用于大模型的策略优化算法，通过分组比较，动态调整学习策略，使训练更高效和稳定。因为输入的是对话，所以需要对对话进行处理，增加虚拟独白部分，分别在最前和最后，而且要指明是user还是assistant。给模型输入一段没见过的东西，它会沿着继续预测下去，本质上是在概率性的前提下进行最佳预测。如果给base输入一句话，它不会回答，只会续写。

2025-02-13 22:19:48 1524

原创【论文精读】Taming Transformers for High-Resolution Image Synthesis

CNN具有归纳偏置（https://zhuanlan.zhihu.com/p/537658409），主要是局部性和平移不变性，在这2个先验信息前提下，CNN学习速度更快，因此在小样本的图片处理任务中优于Transformer。这篇论文就是将CNN和Transformer结合起来，将CNN的归纳偏置的性能和Transformer的表达能力相结合，用于高清的图片生成。然后用Transformer建模连续多张图片的index，并推理下一张的index，然后进行解码即可。

2025-02-05 22:17:32 465

原创【论文精读】MotionLM：Waymo新作

该文章的一个主要创新点是把每一个时刻的位移认为是vocabulary运动序列的一个运动token（motion token）。采用teacher-force的方法，每个回归出来的点都是加在上一时刻的真值上，得到这个时刻的输出，模型收敛更快。简介：采用自回归的方式做轨迹生成，能够更好地建模交互，且避免模态坍缩，在数据集达到了SOTA。给定context，模型输出13x13的分类分布，然后采样得到x和y方向的action。该模型并不是直接输出轨迹，而是输出分类结果，从而滚动重建轨迹。kmeans聚类成6条。

2025-01-14 15:19:12 283

原创【论文精读】Sparse4D v2: Recurrent Temporal Fusion with Sparse Model

团队：地平线时间：代码：简介：PETR是query-based方法，但是为了实现特征融合，进行了全局注意力机制，导致高计算量。image通过backbone和FPN，得到多尺度特征，略。这一层是为了提取这一帧新出现的障碍物。根据SparseDrive在附录的信息，初始化900组特征和anchor，然后选出打分最高的300组highest confidence instances给到multi-frame layers。这一层拿到sigle frame layer输出的300组障碍物信息，然后再从mem

2024-07-25 11:07:21 618 1

原创【论文精读】Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion

这一篇论文里详细讲解了deformable aggregation，在后续的sparsedrive中也用到了这个模块。sparsedrive的思想和本文基本一致。

2024-07-24 15:06:43 595

原创【论文精读】Fully Sparse 3D Occupancy Prediction

团队：南京大学，上海人工智能实验室时间：2023年12月代码：https://github.com/MCG-NJU/SparseOcc。

2024-07-22 19:48:28 1266 2

原创自动驾驶目标检测常见Metrics

简述：A平均是指在不同recall的平均，m平均是指在不同class的平均。

2024-07-18 20:16:18 597

原创【论文精读】SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation

团队：清华大学，地平线投稿会议：暂时未知，挂在rxiv代码链接：https://github.com/swc-17/SparseDrive开环测试数据集：nuScenes。

2024-07-17 18:33:40 1623 4

原创【论文精读】Exploring the Causality of End-to-End Autonomous Driving

团队：百度代码：https://github.com/bdvisl/DriveInsight论文思想简述：这篇论文并不是提出SOTA模型，而是提出了一些的方法。

2024-07-11 14:51:44 847 3

原创自动驾驶论文总结

如何理解agent centric。

2024-07-10 15:04:06 447

原创深度学习进阶

TransformerMHA的好处：Multi head attention能够让模型关注到不同的信息，增强表达能力，提高模型性能；时间复杂度是O(N2)，因为每个词都需要和其他所有词进行Attention操作，所以是N2。CNN卷积核权值共享，因此具有平移不变性，减少参数量为什么基本不用大卷积核了？（1）大卷积核参数量更大；（2）计算更复杂；（3）可以用多个小卷积核进行平替，且非线性效果好。激活函数sigmoid经常用于分类场景，作为概率输出relu经常作为隐藏层激活函数

2024-07-10 13:40:58 282

原创 torch_scatter::scatter_max 转onnx再转tensorrt踩坑记录

方法选择。

2024-06-27 14:02:08 831

原创【论文精读】PARA-Drive: Parallelized Architecture for Real-time Autonomous Driving

团队：英伟达会议：CVPR2024。

2024-06-18 16:58:38 820

原创计算机领域主要论文及投稿时间

两年一次，跟ICCV正好错开。两年一次，跟ECCV正好错开。2013年开始，每年一次。

2024-06-16 18:36:29 518

原创【论文阅读】SparseAD: Sparse Query-Centric Paradigm for Efficient End-to-End Autonomous Driving

论文链接：https://arxiv.org/pdf/2404.06892团队：迈驰、中科大。

2024-06-12 21:00:03 291 1

原创【论文精读】WHY GRADIENT CLIPPING ACCELERATES TRAINING : A THEORETICAL JUSTIFICATION FOR ADAPTIVITY

MIT的论文2020年。

2024-05-28 18:37:57 275

原创重要结论：Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving?

论文链接：https://arxiv.org/pdf/2312.03031。

2024-05-17 17:04:49 598

原创 map net收集

toc()

2024-03-31 17:45:16 674

原创深度学习基础

但是要注意：噪音背景需要和清晰的音频一样diverse，不能音频有1000条，噪音只有1条，要不然可能过拟合。为了能够使其适用于TaskB，需要对模型进行进一步训练，这个过程取决于taskB的样本数量。make similar的方法包括数据合成。比如含有噪音的音频。迁移学习是原本适用于taskA的模型同样应用在taskB。训练集和验证集的数据分布不同。模型没见过，没学习到；该方法在音频识别种效果很好。

2024-02-12 21:26:52 1194

原创从MultiPath到WayFormer

假设预测30步，一共有16条anchor轨迹，那么需要预测。

2024-01-21 23:52:43 853 1

原创 shell命令行学习

h表示human-readable format，人类可读的大小。s表示summrize，对这个文件夹下所有的目录进行统计。设置max-depth，就只统计往下几级目录。其中du表示disk usage。

2024-01-20 11:42:59 822

原创 Mac开发指南

ubuntu用apt-get。

2023-11-20 13:58:16 229

原创【论文精读】PlanT: Explainable Planning Transformers via Object-Level Representations

院校：德国的图宾根大学网站：https://www.katrinrenz.de/plant。

2023-11-05 17:14:16 640

原创卷积与反卷积

可参考：https://zhuanlan.zhihu.com/p/48501100《反卷积(Transposed Convolution)详细推导》反卷积/转置卷积的操作是在《Visualizing and Understanding Convolutional Networks》中提出来的。设输入维度为i x i，卷积核大小为k x k，padding为p，strides为s，则输出维度为 (i - k + 2p) / s +1。i - k是不考虑padding的情况下，卷积核能纵向/横向移动的次数。

2023-11-05 13:22:17 290

原创解决报错torch._C._gather(tensors, dim, destination) RuntimeError: Input tensor at index 1 has invalid

在pytorch的分布式训练中，每个卡都会有一个模型（replicate步骤），以及分配的输入（scatter步骤），最后再把每个模型的输出合并（gather步骤），如果每个模型输出的维度不一致的话，是无法gather的。因此，查看模型return的值，确实是在根据场景实时变化的。其会根据各个样本中具体场景而发生变化，而不同的卡上输出tensor维度不一样，所以无法gather。报错虽然出现在底层，但是问题本身还是在于模型。在改掉变化的部分之后能够正常运行。

2023-11-01 11:19:23 403

原创【自动驾驶】Free space与Ray casting

用ray casting算法可以使用lidar信息，提取出类似2d visibility的区域，将这种信息给到自动驾驶规划蹭，可以得出更合理的轨迹。如果和【wall tracking墙面跟踪】结合起来的话，可以再简单一点，其思想是沿着中心点旋转，找到最近的不被遮挡的端点，即可构成三角形。当然，这样的话得发出非常多的光线，其实也可以在知道所有的墙或者障碍物的端点的情况下，按顺序遍历端点，然后就可以找到该三角形。相邻的角度之间构成会构成三角形，三角形组合起来就是全部的可视性范围。

2023-10-28 16:49:44 1223

原创 MessagePassing分析与说明

在图神经网络中，如何像在欧式空间一样进行卷积操作，其重要的问题在于如何更新当前位置的信息。其每个位置（或者叫节点node）的更新方式如下所示。这一个式子既可以表达GCN，也可以表达Edge Conv。

2023-10-25 13:47:15 176

原创代码阅读：LanGCN

toc。

2023-10-23 23:55:43 177

原创【论文精读】NMP: End-to-end Interpretable Neural Motion Planner

cost volume经典之作

2023-10-15 18:03:35 686

原创阅读LINGO-1: Exploring Natural Language for Autonomous Driving

网页链接：https://wayve.ai/thinking/lingo-natural-language-autonomous-driving/wayve在9月14日公布了大语言模型和自动驾驶的结合模型LINGO-1，可以用自然语言解释自动驾驶的决策原因。大型语言模型LLM在AI领域研究和应用越来越多。视觉语言模型VLM，vision-language model。文本图像检索text-to-image retrieval。图片分类image classification。但是目前没有论文和开源代码。

2023-10-02 14:13:46 400

原创论文精读NMP：Neural Map Prior for Autonomous Driving

去高精地图的方法之一

2023-09-30 11:14:06 833

原创论文精读Motion Prediction of Traffic Actors for Autonomous Driving using Deep Convolutional Networks

6.根据dropout分析（dropout analysis，随机丢弃节点，防止过拟合，参考深度学习Dropout技术分析），模型没有什么太大变化，说明已经收敛，增加额外信息没有必要。Along-track error，沿轨误差，我理解是沿着车道线的纵向误差，因为轨迹点是按照固定时间间隔得到的。4.图片中车头朝上，放在图片的（15m, 5m）位置，车辆前方有25m，后方有5m，作为环境信息；目前基于学习的方法需要人工设计特征，以获取环境信息，导致性能是次佳的（suboptimal）。

2023-09-24 10:48:10 138

原创论文精读VectorNet: Encoding HD Maps and Agent Dynamics from Vectorized Representation

2.predction的时候不一定要MLP for simplicity，可以考虑LSTM，因为轨迹点之间都是有关系的，论文里自己也写了可以用其他advanced decoders。进行节点补全工作（故意遮蔽输入节点，让模型去重建这些特征，以此让模型能够更精准地捕捉交互信息），这样的做法让模型更加强大。将车辆动态信息和结构化的高精地图信息向量化（vectorized form），通过向量化的信息进行轨迹预测；1.向量化的时候，选取的特征可以选择更多有用的信息，目前选择的较少（首位信息，类型信息等）。

2023-09-23 22:40:21 232

空空如也

空空如也