- 博客(72)
- 收藏
- 关注
原创 【论文精读】Improving Behavious with RL fine-tuning for Autonomous driving
RL过程能够显著提升可靠性significantly improves the reliability of the agent behavious。目前LLM采用的范式“先大规模预训练,再强化学习微调”被借鉴到这篇文章中了。采用Waymomer框架。
2025-03-31 21:52:56
921
原创 【论文精读】Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning
这个预训练跟deepseek r1一样,都是让模型先学一些简单的专家分布,作为强化学习的冷启动,否则直接用强化学习,探索到专家分布的难度太大。但是上述误差是只有达到一定阈值时才算,没有达到阈值时就没有,所以是稀疏的。由于上述奖励过于稀疏,因此需要一些辅助奖励。模仿学习存在的问题已经越来越被广泛认识到。目前强化学习也存在问题。
2025-03-04 16:19:27
800
原创 MoE演变过程
因为有些信息是通识的,所以建立Shared Expert共享专家,这些专家是每个token都要过的,然后其他专业领域的专家由router进行选择,然后再加权求和。SparseMoE选择topk个专家(没有激活全部专家,所以叫sparse),然后各专家的输出进行加权求和。这个模型是由Switch Transformer论文中提出来的,其预训练速度是密集模型的7倍。用router给出各专家的权重,然后让输入过每一个专家,然后做加权求和。
2025-02-17 20:36:57
311
原创 大语言模型入门
找到常出现的编码对,比如(125 67),就把它合成为一个新编码符号(比如301),然后再看有没有新的编码对,比如(301 786),那就再把这个合成新的。一种用于大模型的策略优化算法,通过分组比较,动态调整学习策略,使训练更高效和稳定。因为输入的是对话,所以需要对对话进行处理,增加虚拟独白部分,分别在最前和最后,而且要指明是user还是assistant。给模型输入一段没见过的东西,它会沿着继续预测下去,本质上是在概率性的前提下进行最佳预测。如果给base输入一句话,它不会回答,只会续写。
2025-02-13 22:19:48
1524
原创 【论文精读】Taming Transformers for High-Resolution Image Synthesis
CNN具有归纳偏置(https://zhuanlan.zhihu.com/p/537658409),主要是局部性和平移不变性,在这2个先验信息前提下,CNN学习速度更快,因此在小样本的图片处理任务中优于Transformer。这篇论文就是将CNN和Transformer结合起来,将CNN的归纳偏置的性能和Transformer的表达能力相结合,用于高清的图片生成。然后用Transformer建模连续多张图片的index,并推理下一张的index,然后进行解码即可。
2025-02-05 22:17:32
465
原创 【论文精读】MotionLM:Waymo新作
该文章的一个主要创新点是把每一个时刻的位移认为是vocabulary运动序列的一个运动token(motion token)。采用teacher-force的方法,每个回归出来的点都是加在上一时刻的真值上,得到这个时刻的输出,模型收敛更快。简介:采用自回归的方式做轨迹生成,能够更好地建模交互,且避免模态坍缩,在数据集达到了SOTA。给定context,模型输出13x13的分类分布,然后采样得到x和y方向的action。该模型并不是直接输出轨迹,而是输出分类结果,从而滚动重建轨迹。kmeans聚类成6条。
2025-01-14 15:19:12
283
原创 【论文精读】Sparse4D v2: Recurrent Temporal Fusion with Sparse Model
团队:地平线时间:代码:简介:PETR是query-based方法,但是为了实现特征融合,进行了全局注意力机制,导致高计算量。image通过backbone和FPN,得到多尺度特征,略。这一层是为了提取这一帧新出现的障碍物。根据SparseDrive在附录的信息,初始化900组特征和anchor,然后选出打分最高的300组highest confidence instances给到multi-frame layers。这一层拿到sigle frame layer输出的300组障碍物信息,然后再从mem
2024-07-25 11:07:21
618
1
原创 【论文精读】Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion
这一篇论文里详细讲解了deformable aggregation,在后续的sparsedrive中也用到了这个模块。sparsedrive的思想和本文基本一致。
2024-07-24 15:06:43
595
原创 【论文精读】Fully Sparse 3D Occupancy Prediction
团队:南京大学,上海人工智能实验室时间:2023年12月代码:https://github.com/MCG-NJU/SparseOcc。
2024-07-22 19:48:28
1266
2
原创 【论文精读】SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation
团队:清华大学,地平线投稿会议:暂时未知,挂在rxiv代码链接:https://github.com/swc-17/SparseDrive开环测试数据集:nuScenes。
2024-07-17 18:33:40
1623
4
原创 【论文精读】Exploring the Causality of End-to-End Autonomous Driving
团队:百度代码:https://github.com/bdvisl/DriveInsight论文思想简述:这篇论文并不是提出SOTA模型,而是提出了一些的方法。
2024-07-11 14:51:44
847
3
原创 深度学习进阶
TransformerMHA的好处:Multi head attention能够让模型关注到不同的信息,增强表达能力,提高模型性能;时间复杂度是O(N2),因为每个词都需要和其他所有词进行Attention操作,所以是N2。CNN卷积核权值共享,因此具有平移不变性,减少参数量为什么基本不用大卷积核了?(1)大卷积核参数量更大;(2)计算更复杂;(3)可以用多个小卷积核进行平替,且非线性效果好。激活函数sigmoid经常用于分类场景,作为概率输出relu经常作为隐藏层激活函数
2024-07-10 13:40:58
282
原创 【论文精读】PARA-Drive: Parallelized Architecture for Real-time Autonomous Driving
团队:英伟达会议:CVPR2024。
2024-06-18 16:58:38
820
原创 【论文阅读】SparseAD: Sparse Query-Centric Paradigm for Efficient End-to-End Autonomous Driving
论文链接:https://arxiv.org/pdf/2404.06892团队:迈驰、中科大。
2024-06-12 21:00:03
291
1
原创 【论文精读】WHY GRADIENT CLIPPING ACCELERATES TRAINING : A THEORETICAL JUSTIFICATION FOR ADAPTIVITY
MIT的论文2020年。
2024-05-28 18:37:57
275
原创 重要结论:Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving?
论文链接:https://arxiv.org/pdf/2312.03031。
2024-05-17 17:04:49
598
原创 深度学习基础
但是要注意:噪音背景需要和清晰的音频一样diverse,不能音频有1000条,噪音只有1条,要不然可能过拟合。为了能够使其适用于TaskB,需要对模型进行进一步训练,这个过程取决于taskB的样本数量。make similar的方法包括数据合成。比如含有噪音的音频。迁移学习是原本适用于taskA的模型同样应用在taskB。训练集和验证集的数据分布不同。模型没见过,没学习到;该方法在音频识别种效果很好。
2024-02-12 21:26:52
1194
原创 shell命令行学习
h表示human-readable format,人类可读的大小。s表示summrize,对这个文件夹下所有的目录进行统计。设置max-depth,就只统计往下几级目录。其中du表示disk usage。
2024-01-20 11:42:59
822
原创 【论文精读】PlanT: Explainable Planning Transformers via Object-Level Representations
院校:德国的图宾根大学网站:https://www.katrinrenz.de/plant。
2023-11-05 17:14:16
640
原创 卷积与反卷积
可参考:https://zhuanlan.zhihu.com/p/48501100《反卷积(Transposed Convolution)详细推导》反卷积/转置卷积的操作是在《Visualizing and Understanding Convolutional Networks》中提出来的。设输入维度为i x i,卷积核大小为k x k,padding为p,strides为s,则输出维度为 (i - k + 2p) / s +1。i - k是不考虑padding的情况下,卷积核能纵向/横向移动的次数。
2023-11-05 13:22:17
290
原创 解决报错torch._C._gather(tensors, dim, destination) RuntimeError: Input tensor at index 1 has invalid
在pytorch的分布式训练中,每个卡都会有一个模型(replicate步骤),以及分配的输入(scatter步骤),最后再把每个模型的输出合并(gather步骤),如果每个模型输出的维度不一致的话,是无法gather的。因此,查看模型return的值,确实是在根据场景实时变化的。其会根据各个样本中具体场景而发生变化,而不同的卡上输出tensor维度不一样,所以无法gather。报错虽然出现在底层,但是问题本身还是在于模型。在改掉变化的部分之后能够正常运行。
2023-11-01 11:19:23
403
原创 【自动驾驶】Free space与Ray casting
用ray casting算法可以使用lidar信息,提取出类似2d visibility的区域,将这种信息给到自动驾驶规划蹭,可以得出更合理的轨迹。如果和【wall tracking墙面跟踪】结合起来的话,可以再简单一点,其思想是沿着中心点旋转,找到最近的不被遮挡的端点,即可构成三角形。当然,这样的话得发出非常多的光线,其实也可以在知道所有的墙或者障碍物的端点的情况下,按顺序遍历端点,然后就可以找到该三角形。相邻的角度之间构成会构成三角形,三角形组合起来就是全部的可视性范围。
2023-10-28 16:49:44
1223
原创 MessagePassing分析与说明
在图神经网络中,如何像在欧式空间一样进行卷积操作,其重要的问题在于如何更新当前位置的信息。其每个位置(或者叫节点node)的更新方式如下所示。这一个式子既可以表达GCN,也可以表达Edge Conv。
2023-10-25 13:47:15
176
原创 【论文精读】NMP: End-to-end Interpretable Neural Motion Planner
cost volume经典之作
2023-10-15 18:03:35
686
原创 阅读LINGO-1: Exploring Natural Language for Autonomous Driving
网页链接:https://wayve.ai/thinking/lingo-natural-language-autonomous-driving/wayve在9月14日公布了大语言模型和自动驾驶的结合模型LINGO-1,可以用自然语言解释自动驾驶的决策原因。大型语言模型LLM在AI领域研究和应用越来越多。视觉语言模型VLM,vision-language model。文本图像检索text-to-image retrieval。图片分类image classification。但是目前没有论文和开源代码。
2023-10-02 14:13:46
400
原创 论文精读Motion Prediction of Traffic Actors for Autonomous Driving using Deep Convolutional Networks
6.根据dropout分析(dropout analysis,随机丢弃节点,防止过拟合,参考深度学习Dropout技术分析),模型没有什么太大变化,说明已经收敛,增加额外信息没有必要。Along-track error,沿轨误差,我理解是沿着车道线的纵向误差,因为轨迹点是按照固定时间间隔得到的。4.图片中车头朝上,放在图片的(15m, 5m)位置,车辆前方有25m,后方有5m,作为环境信息;目前基于学习的方法需要人工设计特征,以获取环境信息,导致性能是次佳的(suboptimal)。
2023-09-24 10:48:10
138
原创 论文精读VectorNet: Encoding HD Maps and Agent Dynamics from Vectorized Representation
2.predction的时候不一定要MLP for simplicity,可以考虑LSTM,因为轨迹点之间都是有关系的,论文里自己也写了可以用其他advanced decoders。进行节点补全工作(故意遮蔽输入节点,让模型去重建这些特征,以此让模型能够更精准地捕捉交互信息),这样的做法让模型更加强大。将车辆动态信息和结构化的高精地图信息向量化(vectorized form),通过向量化的信息进行轨迹预测;1.向量化的时候,选取的特征可以选择更多有用的信息,目前选择的较少(首位信息,类型信息等)。
2023-09-23 22:40:21
232
原创 论文精读GAN: Generative Adversarial Nets
如果训练太多次判别器再训练生成器,那么可能导致【模式崩溃】(不管给什么噪声,输出结果一样)因为生成器没有直接接触样本,而是通过判别器告诉它像不像,就像枯叶蝶不知道枯叶长什么样子;源码地址:http://www.github.com/goodfeli/adversarial。论文链接:https://arxiv.org/abs/1406.2661。而是采用的深度学习,深度学习中有完备的训练技巧。条件GAN:指定生成什么类型的图片,比如固定数字、某种小动物等;图像填充:把图像中的路人用风景填充。
2023-09-23 22:31:17
218
原创 论文精读Transformer: Attention is all you need
CNN需要很多层才能把距离很远的像素或者输入联系起来,输入长度和计算复杂度成线性关系,导致(1)难以学习远距离的输入;4.Transformer的时间复杂度与序列长度成平方关系,而RNN和CNN与序列长度成正比,所以在数据集太大的时候,计算复杂度会更高computational complexity。LSTM是循环执行的,依赖前一项隐藏层信息h(t-1),天然不适合并行,而且受限于隐藏层大小,更容易丢失以前的信息。Transformer因为不依赖之前的信息,所以可以进行并行可算,减少计算时间。
2023-09-23 22:27:35
263
原创 论文精读ResNet: Deep Residual Learning for Image Recognition
论文链接:https://arxiv.org/abs/1512.03385Github链接:https://github.com/pytorch/vision/blob/master/torchvision/models/resnet.py知乎讲解:ResNet论文笔记及代码剖析。
2023-09-23 22:19:55
250
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人