一碗白开水一-优快云博客

原创【论文阅读】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

题目：NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis作者：Ben Mildenhall Pratul P. Srinivasan Matthew Tancik Jonathan T. Barron Ravi Ramamoorthi Ren Ng。

2026-01-05 13:57:14 304

原创【论文阅读】SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation

摘要：本文提出SparseDrive，一种基于稀疏场景表示的端到端自动驾驶框架，解决传统模块化系统信息丢失与错误累积问题。通过对称稀疏感知模块（Sparse Detection + Sparse Online Mapping）聚合驾驶场景的稀疏实例表示，并采用并行运动规划器结合分层选择策略（碰撞感知评分）生成安全轨迹。实验表明，SparseDrive在nuScenes基准上显著优于现有方法（如UniAD），规划误差降低40%，推理速度达23.4FPS。代码设计简洁，支持两阶段训练（感知单独训练→端到端联合

2026-01-04 14:31:32 264

原创【论文阅读】Denoising Diffusion Probabilistic Models (DDPM)详细解析及公式推导

本文提出一种基于扩散概率模型的高质量图像生成方法。模型通过前向加噪和反向去噪过程实现数据生成，其中前向过程逐步添加噪声，反向过程则通过神经网络学习去噪。作者采用加权变分界训练，并建立扩散模型与去噪分数匹配的联系。实验在CIFAR10和LSUN数据集上取得优异结果，如3.17的FID分数。该方法支持渐进式有损解压，可视为自回归解码的推广。核心贡献包括噪声预测网络设计和理论分析，代码已开源。

2025-12-11 16:39:23 1123

原创【论文阅读】DALL-E 123系列论文概述

DALLE系列是OpenAI推出的基于生成对抗网络（GAN）和Transformer架构的多模态模型，专注于文本到图像的生成任务。核心论文包括DALL·E（2021）、DALL·E 2（2022）和后续改进版本。DALL-E 并不是基于扩散模型的方法，但是因为它的后续工作 DALL-E 2 和 DALL-E 3 都是基于扩散模型的，所以这个方法也放到扩散模型系列里。

2025-12-09 17:01:02 976

原创【论文阅读】VQ-VAE|Neural Discrete Representation Learning首个提出 codebook 机制的生成模型

VQ-VAE（Vector Quantized Variational Autoencoder）是一种结合向量量化的变分自编码器，由DeepMind提出。其核心思想是将连续隐变量离散化，通过码本（codebook）学习离散表示，适用于图像、音频等数据的生成与压缩。

2025-12-09 13:54:04 973

原创【大模型】CLIP---《Learning Transferable Visual Models From Natural Language Supervision》论文详解

这篇论文提出了一种名为 CLIP（Contrastive Language-Image Pre-training）的方法，旨在利用自然语言作为监督信号来训练视觉模型，从而获得强大的泛化能力和迁移学习性能。传统的视觉模型训练依赖于特定任务、特定类别的标注数据集（如 ImageNet）。（如网页配图与描述文字）作为训练数据。模型的目标是让匹配的图像-文本对特征相似度最大化，不匹配的对最小化。CLIP 的核心优势在于其强大的 Zero-Shot 迁移能力。CLIP 提出一个全新思路：利用互联网上大量存在的。

2025-12-08 18:09:14 776

原创【训练技巧】冻结模型参数在模型微调、迁移学习等场景的应用及举例说明

冻结模型参数是深度学习中常用的技术手段，在迁移学习、模型微调等场景尤为重要。

2025-11-11 18:14:17 928

原创【模型细节】 RoIAlign的使用场景、方法详解及举例说明（含MultiScaleRoIAlign）

RoIAlign是一种用于目标检测和实例分割的关键技术，主要用于从特征图中精确提取不规则候选区域(ROI)的特征。它通过避免坐标量化，采用双线性插值采样，解决了传统RoI Pooling的空间不对齐问题。典型应用场景包括Faster R-CNN和Mask R-CNN等框架。代码实现展示了两种方式：1) 直接使用torchvision的roi_align函数处理16个batch共528个边界框；2) 通过MultiScaleRoIAlign模块实现多尺度特征对齐。两种方法都能输出固定尺寸(7x7)的特征图，

2025-11-10 13:35:35 653

原创【大模型】VLA、VLM、LLM的基础概念及挑战

LLM (Large Language Model - 大型语言模型)VLM (Vision-Language Model - 视觉语言模型)VLA (Vision-Language-Action Model - 视觉语言动作模型)它们之间的主要差异总结：简单来说：大型语言模型在AI领域取得了显著进展，但也面临多重挑战，这些阻碍了其广泛应用和可靠性。计算资源需求高：训练LLM需要巨大的计算能力。例如，一个拥有101110^{11}1011参数的模型训练需消耗数千GPU小时，成本高昂。推理阶段（生成响应）同样

2025-11-07 09:45:47 930

原创【训练技巧】L1L2正则化原理公式推导及其防止过拟合原理

正则化通过在模型损失函数中添加惩罚项，限制模型参数的复杂度，从而避免模型过度拟合训练数据中的噪声或无关特征。正则化能够平衡模型的复杂度和训练数据的拟合程度，提高模型的泛化能力。通过惩罚过大的权重值，正则化迫使模型学习更平滑的函数，减少对训练数据中噪声的敏感度。L1正则化通过向损失函数添加模型权重的绝对值之和（L1范数）作为惩罚项，能够产生稀疏解，即某些参数会变为0，从而实现特征选择。常见的正则化方法包括L1正则化（Lasso）和L2正则化（Ridge），以及结合两者的弹性网络（Elastic Net）。

2025-11-05 17:52:40 628

原创【训练技巧】优化器adam和adamw的公式推导详解及区别

Adam与AdamW优化器对比：Adam结合动量法和自适应学习率，通过梯度指数移动平均（$\beta_1=0.9$）和平方梯度平均（$\beta_2=0.999$）实现参数更新，但权重衰减与学习率耦合。AdamW改进之处在于将权重衰减项（$\lambda\theta$）独立作用于参数更新，使正则化效果更稳定。实验显示AdamW在精度（+0.5%~1.5%）和收敛速度（1.2倍）上均优于Adam，且超参数更鲁棒（$\lambda\in[10^{-3},10^{-2}]$）。实践建议优先使用AdamW并降低初始

2025-11-05 16:46:17 1063

原创突击宝典：pytorch面试高频考点精析

【代码】突击宝典：pytorch面试高频考点精析。

2025-11-05 11:58:22 548

原创突击宝典：C++面试高频考点精析

声明（）引入标识符类型；定义（int x;）分配内存并初始化。虚函数需通过虚表调用，构造函数执行时对象未完全构建，虚表未初始化。

2025-11-04 13:14:29 503

原创【导语与总结】开启智能驾驶新篇章！《智能驾驶行泊车全栈基础算法专题课程》圆满收官，欢迎订阅！

智能驾驶全栈算法课程精华速览 36节课程系统覆盖智能驾驶核心技术链：基础体系：坐标系转换、相机标定、图像处理（IPM投影等）核心算法：感知（分类/检测/分割）、融合（KF/EKF）、定位建图（SLAM/ICP）、路径规划（A*/Hybrid A*）、控制（PID/LQR）特色实践：Ubuntu环境搭建、泊车场景检测、车辆状态估计等代码示例课程设计由浅入深，适合零基础学员快速构建智能驾驶算法知识框架，配套详细公式推导与代码实现，助力技术落地应用。（注：摘要严格控制在150字内，突出课程系统性、技术实

2025-10-14 11:42:46 396

原创【第9话：感知算法】多层感知机MLP模型详细介绍及代码举例

多层感知机（MLP）是深度学习的基础模型，由输入层、隐藏层和输出层构成，通过非线性激活函数实现复杂特征变换。其核心数学表达式为前向传播公式，配合反向传播算法进行参数优化。文章详细解析了MLP的架构原理、激活函数特性、梯度计算过程，并给出PyTorch实现示例。MLP广泛应用于分类、回归等任务，优化技巧包括权重初始化、正则化等方法。理解MLP的工作原理是掌握深度学习模型的关键基础。

2025-10-14 11:18:35 1047

原创【模型基础】nn.Embedding的底层原理及使用方法举例

nn.Embedding是PyTorch中处理离散数据的模块，通过可训练的查找表将高维稀疏输入映射为低维稠密向量。其核心参数包括词汇表大小、嵌入维度和填充索引等。支持批量输入和预训练嵌入加载，可通过冻结参数控制梯度更新。典型应用于NLP词嵌入、推荐系统和分类特征编码，需注意输入越界和内存占用问题。该模块通过反向传播优化向量空间，使语义相近的输入距离更近。

2025-10-09 10:36:44 579

原创【训练技巧】Git使用方法、原理及和git操作命令详解

Git是一款分布式版本控制系统，通过快照机制管理项目历史。其核心原理包括工作区、暂存区和本地仓库的三区工作流，以及Blob、Tree、Commit和Tag四种对象存储数据。常用命令分为基础操作（init/clone/add/commit）、分支管理（branch/checkout/merge）、远程协作（push/pull）和版本控制（reset/revert）四类。高级功能包括冲突解决、rebase变基和stash暂存。最佳实践建议采用特性分支工作流，编写规范的提交信息，并合理配置.gitignore文件

2025-10-09 09:45:47 1016

原创【训练技巧】PyTorch多卡训练模型DistributedDataParallel和DataParallel设置方法详解及分布式训练命令解释

PyTorch多卡训练方法详解：1) DataParallel 适用于单机多卡，简单封装模型即可，但效率较低；2) DistributedDataParallel 推荐用于生产环境，支持多机多卡，需初始化进程组并配合DistributedSampler使用。关键步骤包括模型封装、数据分片和混合精度训练优化。启动命令为torchrun --nproc_per_node=4 train.py，注意调整batch_size为单卡大小的N倍。常见问题包括内存不足（可梯度累积）和速度瓶颈（需检查数据加载）。

2025-09-29 10:02:51 738

原创【训练技巧】Model Exponential Moving Average (EMA)的原理详解及使用举例说明

EMA（指数移动平均）是一种通过平滑模型权重来提升深度学习性能的技术。其核心是对权重进行滑动平均（公式：$v_t = \beta v_{t-1} + (1-\beta)w_t$），能有效抑制训练噪声、提高泛化能力。PyTorch实现主要包括初始化影子权重、迭代更新和应用EMA权重三个步骤，典型场景下可提升测试精度1-2%。该技术在GAN、目标检测等噪声敏感任务中效果显著，能降低训练波动性，常用衰减率β为0.999（长期平滑）或0.99（短期适应）。

2025-09-26 16:53:18 501

原创【训练技巧】torch.nn.utils.clip_grad_norm_原理解析及使用方法

PyTorch中的torch.nn.utils.clip_grad_norm_函数用于梯度裁剪，防止训练神经网络时出现梯度爆炸问题。它通过计算所有参数的梯度范数，若超过设定阈值max_norm，则按比例缩放梯度。该函数支持指定范数类型（如L2范数），并可选择在遇到无效梯度时报错。典型应用包括RNN/LSTM、深层网络和对抗训练等场景。函数返回裁剪前的梯度总范数，便于监控训练稳定性。示例展示了如何在线性模型训练中使用该函数进行梯度裁剪。

2025-09-26 11:58:38 617

原创【训练技巧】torch.amp.GradScaler 里面当scale系数为0或者非常小的时候，详细分析与解决思路

当PyTorch AMP的GradScaler中scale系数接近零时，表明训练出现梯度不稳定问题。主要解决方案包括：1) 在scaler.step()前进行梯度裁剪；2) 调整Scaler参数如增大初始值、降低增长幅度；3) 设置scale监控和安全重置机制；4) 动态调整学习率；5) 排查梯度异常值和数据范围问题。建议优先采用梯度裁剪和参数调整，85%的案例可解决。当scale<1e-4时触发安全重置，必要时可切换至FP32训练或改用SGD优化器。

2025-09-26 10:44:10 366

原创【训练技巧】batch_size 、num_workers 与内存、显存的关系&batch_size 、num_workers如何设置详解

本文分析了深度学习训练中Batch Size和Num Workers对内存与显存的影响机制。Batch Size与显存呈线性关系，主要影响梯度、激活值和优化器状态，公式为Mem_GPU = P + (G + A + O)×B。Num Workers与内存占用成正比，每个Worker需预加载数据并保留副本。二者同时增大会导致资源指数级消耗。最佳实践建议：梯度累积和混合精度训练可优化显存使用；Num Workers推荐设置为min(4, CPU核心数-2)。硬件配置表中给出不同GPU显存对应的参数推荐值，强调应

2025-09-25 11:04:08 1239

原创【第36话：车辆控制】自动驾驶车辆线性二次调节器LQR（Linear Quadratic Regulator）控制原理推导及详解

给定状态方程。

2025-09-24 09:49:34 471

原创【第35话：车辆控制】自动驾驶车辆纯跟踪算法（前瞻点、预瞄点算法）控制原理推导及详解

优点：计算量小、实现简单、鲁棒性强，适合实时系统。缺点：在高曲率路径或动态障碍物下表现有限，常与模型预测控制（MPC）结合。应用：广泛应用于低速场景（如园区物流车）和路径跟踪模块。实际部署时，需在仿真中调参（如LLL和WbW_bWb），并考虑传感器噪声。通过以上推导和详解，用户可以基于此实现定制化跟踪控制器。如需扩展（如速度控制或多车协同），可进一步讨论。

2025-09-24 09:48:52 990

原创【第33话：车辆控制】自动驾驶车辆斯坦利控制原理推导及详解

摘要：斯坦利控制（Stanley Controller）是自动驾驶中广泛应用的路径跟踪算法，由斯坦福大学提出。其核心原理是通过航向误差（$\theta_e$）和速度归一化的路径误差（$e$）计算方向盘转角（$\delta = \theta_e + \tan^{-1}(k e / v)$），实现车辆对预定路径的精确跟踪。该算法基于简化车辆运动学模型，计算高效且易于实现，适用于结构化道路。但需注意动态效应（如高速不稳定）和参数调优（增益$k$）。代码示例展示了二维路径跟踪的实现，未来可结合自适应优化或机器学习增

2025-09-24 09:48:20 689

原创【第34话：车辆控制】自动驾驶车辆PID控制（比例-积分-微分控制）原理推导及详解

在自动驾驶中，PID控制器用于最小化车辆状态（如位置、速度）与目标值之间的误差。横向控制：确保车辆沿预定路径行驶，误差为横向偏差（车辆中心线与路径的距离）。纵向控制：调节车速以维持安全距离或跟随前车，误差为速度差。PID控制器的输出utu(t)ut比例项（P）：快速响应当前误差。积分项（I）：消除累积误差（如系统偏差）。微分项（D）：预测未来误差变化，抑制振荡。PID控制在自动驾驶中通过实时误差反馈实现精确控制，其核心公式utKpetKi∫0teτdτKd。

2025-09-24 09:47:41 727

原创【第33话：车辆控制】自动驾驶车辆运动学模型推导及详解

自动驾驶车辆的运动学模型以自行车模型为核心，通过状态方程。

2025-09-24 09:46:45 764

原创【第32话：路径规划】自动驾驶中Hybrid A星(A*)搜索算法的详细推导及代码示例

Hybrid A星搜索算法在自动驾驶中的路径规划 Hybrid A星算法是一种结合离散搜索和连续状态空间处理的路径规划方法，适用于自动驾驶车辆的复杂运动学约束。该算法通过以下关键步骤实现高效路径搜索：混合状态表示：将连续位置(x,y)和方向角θ离散化为网格，同时保留连续运动模型双重启发函数：结合欧几里得距离和Reeds-Shepp曲线，确保搜索效率和解的最优性车辆动力学约束：基于自行车模型进行状态转移，考虑转向角限制和轴距影响代价函数优化：综合路径长度和平滑度，通过优先级队列实现高效节点扩展算法在

2025-09-23 10:59:26 1212

原创【第31话：路径规划】自动驾驶启发式搜索算法（A星搜索算法（ A* 搜索算法））详解及代码举例说明

本文详细介绍了自动驾驶系统中启发式搜索算法（以A算法为例）的原理与应用。文章首先阐述了启发式搜索的基础概念，包括代价函数、启发式函数及其在自动驾驶路径规划中的重要性。接着重点解析A算法的运作机制，强调其通过优先队列和启发式函数实现高效搜索的特点。文章还提供了A*算法的Python实现示例，展示了其在网格地图中的实际应用。最后，作者探讨了算法在自动驾驶中的优化方向，如动态环境处理和启发式设计改进，并指出未来可能的发展趋势，包括与机器学习结合和硬件加速等。全文兼顾理论与实操，为自动驾驶路径规划提供了清晰的技术指

2025-09-23 10:39:07 1218

原创【第30话：路径规划】Dijkstra搜索算法详解及代码举例说明

适用条件有向/无向图非负边权重单源最短路径优势时间复杂度优于Bellman-Ford算法可扩展为A*算法（加启发函数）局限无法处理负权边不适用全源最短路径（需用Floyd-Warshall）

2025-09-23 10:20:02 488

原创【第29话：路径规划】深度优先搜索（DFS搜索算法）算法详解及代码举例说明

本文详细介绍了深度优先搜索（DFS）算法，包括其原理、时间复杂度和代码实现。DFS通过递归或迭代方式深入探索每条路径，适用于图的遍历和连通性问题分析。文章以Python代码为例，展示了DFS在无向图中的实现过程，并通过具体示例说明了算法的执行流程和输出结果。DFS的时间复杂度为O(V+E)，空间复杂度为O(V)，适合解决需要深度探索的问题，但不保证找到最短路径。

2025-09-23 10:06:33 934

原创【第28话：路径规划】广度优先搜索（BFS搜索算法）算法详解及代码举例说明

本文详细介绍了广度优先搜索（BFS）算法，包括其数学原理、实现步骤和Python代码示例。BFS通过逐层遍历图或树结构，确保找到无权图中的最短路径（边数最少）。文章从距离公式推导入手，说明如何通过队列的先进先出特性实现分层遍历，并分析了算法的时间复杂度为O(|V|+|E|)。提供的Python代码使用邻接表表示图，演示了BFS如何计算各节点到起点的最短距离。BFS广泛应用于最短路径查找、网络爬虫等场景，是图论中的基础算法之一。

2025-09-23 09:53:22 1146

原创【第27话：路径规划】自动驾驶路径规划概念与理论介绍

自动驾驶路径规划是车辆在动态环境中寻找最优运动轨迹的核心技术，需满足安全性、高效性、舒适性和可行性等要求。关键技术包括环境建模（栅格地图、拓扑地图等）、路径搜索算法（A*、RRT*等）和轨迹优化方法（样条插值、最优控制等）。理论模型涵盖车辆运动学、障碍物规避和不确定性处理。典型实现流程分为环境感知、全局路径规划和局部轨迹优化。前沿研究方向涉及多智能体协同、强化学习、V2X融合和伦理决策框架，系统需满足实时性和大规模状态空间处理要求。

2025-09-23 09:46:01 1139

原创【训练技巧】torch.cuda.amp.GradScaler() 深入详解

PyTorch的GradScaler是自动混合精度(AMP)训练的核心组件，主要解决float16数值精度不足的问题。它通过动态缩放梯度，将梯度值保持在float16的安全范围内：先放大梯度避免下溢，优化前再恢复原始量级。其数学原理确保不影响优化方向。典型使用需配合autocast()上下文，优势包括显存减半、计算加速2-8倍、自动数值保护等。注意事项包括仅支持CUDA设备、避免手动梯度处理等。该技术能显著提升大模型训练效率，已成为现代深度学习标配。

2025-09-22 13:10:24 1006

原创【第26话：定位建图】 SLAM回环检测方法及原理详细介绍

SLAM回环检测是机器人定位与建图的关键技术，通过识别重复访问的地点校正累积误差。主要方法分为基于外观（如词袋模型）和基于几何（如扫描匹配）两类，前者通过特征相似度检测回环，后者利用点云对齐实现。混合方法和深度学习技术（如NetVLAD）正成为趋势，以提高鲁棒性和适应性。实际应用中需权衡效率与精度，如视觉SLAM常用词袋模型，激光SLAM倾向扫描匹配。回环检测显著提升SLAM系统的全局一致性，是长期稳定运行的核心保障。

2025-09-10 13:41:22 636

原创【第25话：定位建图】SLAM后端优化方法详解

SLAM后端优化方法研究综述摘要：SLAM后端优化是消除累计误差、提升系统精度的关键环节。本文系统分析了主流优化方法：基于滤波的EKF和粒子滤波（FastSLAM）具有线性计算优势但精度受限；基于图优化的方法通过因子图建模实现全局一致性优化，采用Gauss-Newton或Levenberg-Marquardt算法求解；增量式优化（如iSAM2）利用贝叶斯树实现高效更新。研究对比了不同方法的计算复杂度（EKF O(n²) vs iSAM2 O(logn)）和适用场景，并探讨了稀疏性处理、鲁棒核函数等关键技术

2025-09-10 13:37:14 755

原创【第22话：定位建图】SLAM视觉里程计——特征点法详解

本文详细介绍了SLAM中视觉里程计的特征点法，包括其核心原理、关键步骤和数学基础。特征点法通过提取图像中的显著特征点（如ORB、SIFT）并匹配不同帧的对应关系，计算相机运动轨迹。主要步骤包括特征提取、匹配、运动估计和优化，涉及对极约束、本质矩阵分解等数学模型。该方法鲁棒性强、效率高，但对低纹理场景敏感且存在累积误差。文章还提供了简化的Python代码示例，展示了特征点法的基本实现流程。特征点法在机器人导航和增强现实等领域广泛应用，是SLAM系统的重要组成部分。

2025-09-10 13:29:57 710

原创【第24话：定位建图】SLAM视觉里程计——光流法（直接法）详解

本文详解了SLAM中视觉里程计的光流法原理与应用。光流法通过追踪像素运动估计相机位姿，基于亮度恒定假设推导光流约束方程。Lucas-Kanade和Horn-Schunck是两种主要求解方法，分别采用局部和全局优化策略。文中提供了Python实现示例，并分析了光流法的优缺点：计算高效但易受光照变化、运动模糊等因素影响。实际应用中需与其他技术融合以减少误差。光流法作为视觉里程计的基础组件，仍需结合多视图几何优化提升精度。

2025-09-10 13:25:38 764

原创【第23话：定位建图】SLAM视觉里程计——直接法详解

SLAM视觉里程计特征点法通过检测图像特征点（如FAST、ORB）并生成描述子进行匹配，利用几何约束（PnP、本质矩阵）估计相机运动。其核心步骤包括特征检测、描述、匹配和运动估计，依赖相机模型和重投影误差优化。优点是鲁棒高效，但受限于纹理缺失和动态场景。该方法在机器人导航中广泛应用，是SLAM系统的重要基础。

2025-09-10 13:21:08 946

原创【第19话：定位建图】 KD树（KD-Tree）的建立与最近邻算法(NN)详解

KD树是一种多维空间索引结构，通过递归划分k维空间实现高效数据组织。其构建过程采用坐标轴交替分割，时间复杂度为O(n log n)。最近邻搜索算法（NN）利用KD树加速查询，通过超球面剪枝策略优化搜索路径，理想情况下复杂度为O(log n)。对于大规模数据，可采用近似最近邻（ANN）方法，通过限制搜索深度或允许近似结果来提升效率。该技术广泛应用于图像检索、KNN分类器加速和空间数据库查询等领域，特别适合处理高维数据检索问题。

2025-09-10 12:55:06 730

yolov10s.onnx

yolov10s的onnx模型原版可转tensorrt rknn等模型

2025-08-11

rknn-toolkit-lite2-1.6.0-cp38-cp38-linux-aarch64.whl

rknn_toolkit_lite2-1.6.0-cp38-cp38-linux_aarch64.whl rk3566模型部署板端python38 的whl

2025-08-11

【计算机视觉】基于Bisenet的地下泊车场景仿真数据集训练与推理：环境配置、常见问题及关键参数解析

内容概要：本文档详细介绍了地下泊车场景仿真数据集SUPS的获取方式及其在Bisenet模型训练与推理中的应用。首先阐述了数据集的来源与下载途径，包括百度网盘和飞书两种渠道，并指出数据集规模较大（约6.39G）。接着描述了环境配置方法，建议使用Anaconda创建虚拟环境来简化安装过程，同时提供本地GPU训练和云平台AutoDL两种选择。对于Bisenet训练部分，文档指出了具体的文件处理步骤，如删除CSV文件首行、修改配置文件中的分类数量及路径设置等，以及训练和推理的具体命令行操作。最后列举了一些常见错误及其解决办法，例如torchrun命令找不到、cuDNN错误等问题，还列出了几个重要的训练参数，如迭代次数、学习率、批次大小等。; 适合人群：有一定深度学习基础，对计算机视觉领域感兴趣，特别是希望利用Bisenet进行图像分割任务的研究人员或工程师。; 使用场景及目标：①掌握地下泊车场景仿真数据集SUPS的获取方法；②熟悉基于Bisenet模型的训练和推理流程；③解决训练过程中可能出现的技术难题；④调整关键参数以优化模型性能。; 阅读建议：读者应按照文档提供的步骤逐步操作，确保每个环节都能正确执行。遇到问题时可以参考文档中提到的解决方案，同时注意检查所用软件版本是否符合要求。此外，建议读者根据自身硬件条件适当调整训练参数，以获得最佳效果。

2025-08-09

【计算机视觉】基于IPM的全景相机图像拼接算法实现：自动化停车系统中的关键投影技术开发与应用

内容概要：本文档是关于逆向透视映射（IPM）图像拼接的作业说明。IPM 投影对于全景摄像头在自动泊车系统中至关重要。作业要求完成全景摄像头在 IPM 图像中的投影算法。文档提供了四个来自模拟鱼眼相机的图像以及相机的内外参数，需要完成投影算法的实现并展示最终的 IPM 投影结果。具体步骤包括找到代码中标记为TODO的部分，完成这些部分的实现，然后编译和运行代码，确保最终效果与提供的示例图像一致。; 适合人群：计算机视觉、自动驾驶或相关领域的学生或研究人员，尤其是对图像处理和自动泊车系统有兴趣的人士。; 使用场景及目标：①学习和实践逆向透视映射（IPM）投影算法；②理解全景摄像头在自动泊车系统中的应用；③掌握鱼眼相机图像处理技术。; 阅读建议：此作业不仅涉及代码实现，还要求提交包含代码解释和最终IPM图像结果的PDF文件。因此，在实践中要注意代码的可读性和注释，同时记录实验过程和结果以便撰写报告。

2025-08-09

自动驾驶基于扩展卡尔曼滤波的车辆状态估计实现：预测与更新模型及ROS环境下的轨迹可视化系统设计

内容概要：本文档为《车辆状态估计作业II》，主要内容是通过扩展卡尔曼滤波器（EKF）进行车辆状态估计的实现。具体任务包括：下载vehicle_state_estimation.zip压缩包，根据运动模型（IMU+轮速）完成EkfPredict()函数预测部分，根据测量模型（GPS）完成EkfUpdate()函数更新部分。然后，构建项目并运行节点，在RVIZ中可视化估计轨迹，预期结果是真实轨迹（红色）与估计轨迹（绿色）应非常接近。最后，撰写报告解释EKF函数的完成方法，并附上源代码和RVIZ中估计结果的截图。; 适合人群：具备一定机器人学、自动化控制理论基础，对ROS系统有初步了解的学生或研究人员。; 使用场景及目标：①学习如何基于ROS平台实现EKF算法进行车辆状态估计；②掌握运动模型和测量模型在EKF中的应用；③熟悉RVIZ工具的使用，能够将算法结果可视化展示。; 阅读建议：读者需要按照文档步骤逐步操作，注意理解每个函数的具体功能和实现细节，同时参考相关资料加深对EKF的理解，确保最终实现的效果满足预期要求。

2025-08-09

【自动驾驶领域】自主代客泊车（AVP）理论与实践课程大纲：涵盖定位、感知、规划与控制技术

内容概要：本文介绍了自主代客泊车（AVP）的理论与实践，由上海交通大学溥渊未来技术学院副教授秦通主讲。课程分为十个章节，涵盖了从自主停车的基础概念到具体技术实现的各个方面。课程首先介绍了自主停车的意义及其应用场景，如减少停车难度、节省时间和优化资源利用。接着详细讲解了坐标变换、运动估计、相机模型、语义分割、停车场地图构建、语义定位、轨迹规划以及车辆控制等关键技术。每个章节都配有相应的作业，帮助学生巩固所学内容。最后，课程还包括一个最终模拟项目和前沿分享，使学生能够全面掌握AVP的技术体系。适合人群：对自动驾驶和智能交通领域感兴趣的高校学生、研究人员及工程师，尤其是具备一定编程基础和技术背景的学习者。使用场景及目标：①了解AVP的基本原理和应用场景；②掌握自主停车系统的核心技术，如坐标变换、感知、规划和控制；③通过实际项目操作，提升动手能力和解决实际问题的能力；④为未来从事自动驾驶相关研究或工作打下坚实基础。其他说明：本课程要求学员具备Linux系统操作、C++编程技能、ROS使用经验以及Python/Pytorch的基础知识。此外，硬件方面需要一台配置有Nvidia GPU的计算机，以支持深度学习相关的实验。课程还提供了丰富的参考资料和学习材料，帮助学生更好地理解和掌握相关知识点。

2025-08-09

【自动驾驶泊车域专题课程-作业一答案代码】基于Ubuntu的ROS环境搭建与车辆可视化编程实践：初学者指南及RVIZ应用

【自动驾驶泊车域专题课程--作业一答案代码】基于Ubuntu的ROS环境搭建与车辆可视化编程实践：初学者指南及RVIZ应用

2025-08-09

【自动驾驶泊车域专题课程-作业一】基于Ubuntu的ROS环境搭建与车辆可视化编程实践：初学者指南及RVIZ应用

内容概要：本文档是关于车辆可视化的作业指南，主要分为两部分内容。第一部分针对Linux/ROS初学者，详细介绍了如何在Ubuntu 20.04上安装和配置ROS Noetic环境，并提供了多个初学者级别的ROS教程链接，涵盖从安装配置环境到创建和构建ROS包、理解ROS节点、主题和服务等内容。第二部分专注于RVIZ可视化，指导用户如何在本地计算机上运行并可视化车辆，包括将源代码放入工作空间、启动roscore、运行节点以及打开RVIZ等步骤。此外，还涉及一个编码任务，要求修改GeneratePose()函数中的x、y和yaw参数，使车辆能够按照指定形状行驶（如矩形、八字形或三角函数曲线）。适合人群：对Linux和ROS有初步了解的初学者，特别是希望深入学习ROS系统及其应用的学生或工程师。使用场景及目标：①帮助用户掌握ROS环境的搭建与配置；②让用户熟悉ROS的基本概念和工具，如节点、主题和服务；③通过实际操作RVIZ实现车辆的可视化，增强对ROS的理解；④通过修改代码实现特定轨迹的车辆运动，提高编程能力。阅读建议：由于本指南包含了大量实践操作的内容，建议读者按照步骤逐一进行尝试，并结合官方提供的教程资源，确保每个环节都能顺利执行。对于编码任务部分，应先理解相关数学原理再动手实践，以便更好地完成任务。

2025-08-09

minist 全部数据集

2025-07-30

Music-Downloader-master.zip

Music-Downloader-master 的相关信息如下： ‌GitHub 仓库‌ 项目地址：kyledong/Music-Downloader‌1 描述：一个音乐下载工具，支持从多个平台下载音乐，界面简洁且功能实用。更新记录：最近一次更新于 2019 年 6 月 30 日，修复了部分文件下载问题‌1。 ‌其他相关项目‌ ‌netease-music-downloader‌：支持网易云音乐的单曲/专辑下载，自动创建目录并跳过已下载文件，可通过 npx 直接运行‌2。 ‌Apple Music Downloader‌：需配合 MuMu 模拟器或 WSL 使用，支持高分辨率无损音乐下载，需配置 Apple Music 账号‌3。 ‌Macsome YouTube Music Downloader 替代方案‌：包括 yt-dlp、youtube-dl 等开源工具，支持 YouTube 音乐转换和下载‌4。 ‌注意事项‌ 部分工具需科学上网或特定环境（如模拟器、WSL）‌23。使用前需确认版权合规性，避免下载受保护内容‌24。

2025-07-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

yolov10s.onnx

rknn-toolkit-lite2-1.6.0-cp38-cp38-linux-aarch64.whl

【计算机视觉】基于Bisenet的地下泊车场景仿真数据集训练与推理：环境配置、常见问题及关键参数解析

【计算机视觉】 基于IPM的全景相机图像拼接算法实现：自动化停车系统中的关键投影技术开发与应用

自动驾驶基于扩展卡尔曼滤波的车辆状态估计实现：预测与更新模型及ROS环境下的轨迹可视化系统设计

【自动驾驶领域】自主代客泊车（AVP）理论与实践课程大纲：涵盖定位、感知、规划与控制技术

【自动驾驶泊车域专题课程-作业一答案代码】基于Ubuntu的ROS环境搭建与车辆可视化编程实践：初学者指南及RVIZ应用

【自动驾驶泊车域专题课程-作业一】基于Ubuntu的ROS环境搭建与车辆可视化编程实践：初学者指南及RVIZ应用

minist 全部数据集

Music-Downloader-master.zip

空空如也

【计算机视觉】基于IPM的全景相机图像拼接算法实现：自动化停车系统中的关键投影技术开发与应用