- 博客(25)
- 资源 (1)
- 收藏
- 关注
原创 一学就会的深度学习基础指令及操作步骤(7)自然语言处理
利用分词器为神经网络准备文本观察如何使用嵌入来识别文本数据的数值特征将文本转换为数值 token,加载 BERT 的分词器:(1)使用 从的模型库中加载的,具体是模型,区分大小写BERT 的分词器可以一次性编码多段文本tokenizer.encode 过程:可以用 convert_ids_to_tokens 来查看使用了哪些 token可以用 直接 解码 编码过的文本,注意 已经被添加进去了。文本分段为了使用 BERT 模型进行预测,它还需要一个 的列表。这是一个与我们 token
2025-03-10 14:23:27
1010
原创 一学就会的深度学习基础指令及操作步骤(5)使用预训练模型
VGG16 神经网络,主要用于图像分类任务(如识别1000种物体)。它的结构设计非常规整,像搭积木一样层层堆叠。对图像进行预处理,以便能以适当的格式(1, 3, 224, 224)将其送入模型中。上面代码等同于下面代码。
2025-03-10 09:23:16
1107
原创 一学就会的深度学习基础指令及操作步骤(4)模型部署推理
模型期望接收一批图像,.unsqueeze(0),第一个维度通常是批次维度。将之前训练好的模型从文件加载到内存中,并准备好用于预测或继续训练。unsqueeze 在我们指定的索引处添加 1 个维度。squeeze 移除 1 个维度。
2025-03-10 09:20:42
178
原创 一学就会的深度学习基础指令及操作步骤(3)模型训练验证
获得模型所有的可训练参数(比如每一层的权重、偏置),设置优化器类型,自动调整学习步长(自适应学习率),后续训练更新参数。.pth 文件是PyTorch模型的“存档文件”,保存了所有必要信息。加载后,模型即可直接运行,无需重新训练!.pth 文件可以用。
2025-03-10 09:18:17
254
原创 一学就会的深度学习基础指令及操作步骤(2)模型构建
扩展 Module 类,需要定义两个方法:init:定义模块属性forward:设置如何处理来自前一层的任何输入数据nn.ReLU(),nn.ReLU(),
2025-03-10 09:15:55
193
原创 一学就会的深度学习基础指令及操作步骤(1)数据处理
自定义数据集需要继承Dataset类并重写__init__、__getitem__和__len__方法,这是为了让你的数据能被PyTorch的DataLoader正确识别和处理。__init__方法:初始化数据集,比如加载数据文件、定义数据转换等。__getitem__方法:根据索引获取单个数据样本,包括数据和标签。这是数据加载的核心,使数据集支持索引操作,方便按批次读取。__len__方法:返回数据集的大小,这样DataLoader就知道有多少数据,方便分批处理。
2025-03-10 09:12:27
427
原创 提示工程&微调&知识蒸馏&模型剪枝
提示工程(Prompt Engineering) 教你怎么“提问”,才能让AI听懂人话,给出靠谱回答。本质:通过设计问题描述、添加示例、调整语气等方式,让大模型更精准理解你的需求,类似“和AI沟通的说明书”。例子:烂提问:“写一篇作文。” → AI可能瞎编,没重点。好提问:“用初中生的口吻,写一篇300字的作文,主题是‘暑假趣事’,要求包含爬山和意外发现山洞的情节。” → AI更容易命中靶心。核心逻辑:AI像死记硬背的学霸,你得把问题拆解得足够具体、清晰,它才能调用正确的知识。微调(Fine
2025-02-20 15:15:51
260
原创 DeepSeek 使用入门(官网+第三方平台+API+本地部署)
DeepSeek 使用入门,包括官网使用、第三方平台使用、API使用以及本地部署。
2025-02-10 10:20:57
2516
原创 openlanev2 中如何将SD map 与 centerline 等车道线进行位置匹配
SDmap 是世界坐标系,centerline 是自车坐标系,openlanev2 中如何将 SD map 与 centerline 等车道线进行位置匹配?
2024-12-16 11:04:58
379
原创 【代码复现】熟悉 openlanev2 数据集
Frame 方法有 get_camera_list、get_pose、get_image_path、get_rgb_image、get_sd_map、get_intrinsic、get_extrinsic、get_annotations、get_annotations_topology_lclcget_annotations_lane_centerlines、get_annotations_traffic_elements 和 get_annotations_topology_lcte。
2024-11-27 13:52:18
1181
5
原创 【论文速读】Online Monocular Lane Mapping Using Catmull-Rom Spline
一个好的姿势对于样条优化是有益的。然而,初始化好的控制点更为重要,特别是在初始化样条或添加新控制点时。,而不是点对切残差。这是因为我们假设姿势在这个阶段足够准确,并且点对点的残差对姿势提供了更全面的约束。Catmull-Rom Spline 是一种通过一系列控制点来生成平滑曲线的方法。关注路面上的车道标记,包括它们的几何形状,并保持它们的类型(例如,实线或虚线)。上图展示了三种不同的车道标记几何表示:与消耗更多内存的。上图展示了我们系统的整体架构。以下是我们的一些实验结果。数据集评估我们的方法。
2024-10-28 16:52:53
1069
原创 【行业进展】理想快慢模型
下半部分,GS重建的过程,利用真实数据的先验,给出layout做约束,然后再加上prompt,再给一些这种参考图片,生成新的视角。生成模型比单纯的重建拥有更好的泛化性,能够控制天气、时间、车流等变量,生成多样化的场景来测试模型的适应性和泛化能力,实现了“15秒经历一年四季”的效果。左上半部分,输入是常规的传感器,包括摄像头和激光雷达。那这个时候信息进入到我们我们的一个Transformer的编码器之后,和我刚才提到加强后的BEV特征一起解码出了四个东西,动态障碍物、道路结构,OCC,规划出我们的行驶轨迹。
2024-10-17 09:35:38
878
原创 【论文速读】地平线:HE-Drive Human-Like End-to-End Driving with Vision Language Models
本文介绍了一种名为HE-Drive的人类中心的端到端自动驾驶系统,该系统可以生成既具有时间一致性又舒适的轨迹。现有的模仿学习和基于学习的轨迹评分器能够有效地生成和选择准确的轨迹,但它们难以解决生成不连贯和不舒服的轨迹的问题。为了解决这些问题,HE-Drive 首先通过**稀疏感知(sparse perception)提取关键的3D空间表示,然后将其作为。
2024-10-17 09:31:35
1363
原创 【论文速读】BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal
BEVFormer在速度估计的准确性上也有显著提升,其mAVE(mean Average Velocity Error)达到了0.378 m/s,远低于其他基于相机的方法。BEVFormer模型架构的核心是从多相机图像中学习鸟瞰图(BEV)表示,以支持自动驾驶系统中的多种感知任务。该架构由若干个编码层组成,每个编码层都包含三个关键设计:BEV查询、空间交叉注意力和时间自注意力。BEVFormer是一个用于自动驾驶系统的多相机输入的鸟瞰图(BEV)特征学习框架。
2024-10-17 09:24:48
950
原创 【论文速读】BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework
此外,BEVFusion在激光雷达和相机发生故障时仍能保持较高的检测性能,证明了其在多模态3D目标检测中的鲁棒性和实用性。相机流首先使用2D骨干网络提取图像特征,然后通过特征金字塔网络(FPN)和自适应模块(ADP)进行多尺度特征融合,最后通过2D到3D的视图投影器将这些特征转换为3D ego-car坐标系中的特征,并最终编码为BEV空间特征。该框架包含两个独立的流,相机流和激光雷达流,分别编码来自相机和激光雷达的原始输入,并在相同的鸟瞰图(BEV)空间中生成特征,然后通过一个简单的融合模块结合这些特征。
2024-10-17 09:22:17
944
原创 【论文速读】BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection
在定制的高效体素池化和多帧机制的辅助下,BEVDepth在具有挑战性的nuScenes测试集上达到了60.9%的NDS,这是首次相机模型的NDS得分达到60%,同时保持了高效率。深度细化模块通过在深度轴上聚合特征,增强了特征的深度一致性,并在深度预测不准确时理论上能够将特征细化到正确的位置。深度细化模块:设计了一个新颖的模块来进一步优化特征的深度位置,纠正了初始深度估计的不准确,增强了特征的深度一致性。显式深度监督:通过利用点云数据提供的地面真实深度信息,直接监督深度预测模块,增强了深度估计的准确性。
2024-10-17 09:14:43
679
原创 【论文速读】BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View
在nuScenes验证集上的测试结果表明,BEVDet-Tiny版本在保持31.2% mAP和39.2% NDS的高准确性的同时,大幅减少了计算量至215.3 GFLOPs,并且将处理速度提升至15.6 FPS。在nuScenes验证集上的测试结果表明,BEVDet-Tiny版本在保持高准确性的同时,大幅减少了计算量并提高了处理速度。BEVDet在nuScenes数据集上进行了广泛的测试,该数据集提供了丰富的多相机图像和详细的3D标注。为了提高模型的鲁棒性和准确性,BEVDet引入了定制的数据增强策略。
2024-10-17 09:02:37
677
原创 【论文综述】BEV技术(未完待续)
BEV应用于通过显示预测深度分布来构建3D特征。LSS预测深度上的分类分布和上下文向量,他们的外积可以确定沿透视射线的每个点的特征,这些特征接近真实的深度分布。此外,其将所有相机的预测结果融到一个场景下,从而减小校准误差。BEVDet遵循了LSS范式,并提出了一个用于从BEV进行多视角相机3D检测的框架,该框架由图像视角编码器、视角转换器、BEV编码器和检测头组成。后续的BEVDet4D 在基于多摄像头的3D检测中利用了时间线索。BEV应用在传感器融合,由于相机到激光雷达的投影丢弃了相机特征的语义密度,B
2024-10-17 08:57:26
291
原创 不用虚拟机就可以使用 linux!在win11上安装 WSL子系统教程
Windows 子系统 (WSL) 是 Windows 的一项功能,可用于在 Windows 计算机上运行 Linux 环境,而无需单独的虚拟机或双系统。
2024-09-12 14:39:25
313
原创 nuscenes_devkit 无法读取.pcd格式点云数据 AssertionError: Unsupported filetype xxx.pcd
nuscenes_devkit 无法读取.pcd格式点云数据 AssertionError: Unsupported filetype xxx.pcd
2024-08-22 14:47:40
291
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人