- 博客(239)
- 收藏
- 关注
原创 食品计算—Food Portion Estimation via 3D Object Scaling
基于图像的方法缓解了传统方法中用户负担重和主观偏差大的问题。然而,由于智能手机或可穿戴设备拍摄的食物图像是二维表示,导致三维信息的丢失,因此精确的食物分量估计仍然是一项主要挑战。本文提出了一个新框架,能够从二维图像中估计食物的体积和能量,该方法结合了三维食物模型和用餐场景中的物理参照物。
2025-06-07 14:33:07
473
原创 自动驾驶系统研发系列—从LSS到BEVFormer:视觉BEV感知算法的演进与实战部署思考
在自动驾驶逐渐向L3+推进的过程中,视觉系统面临的最大挑战不再是识别能力,而是如何在复杂感知环境中构建稳定、结构化的场景表示。多摄像头的异视角信息融合往往受限于透视畸变、光照变化和遮挡问题。为此,Bird’s Eye View(BEV)感知应运而生,它提供了一种将所有视觉信息统一映射到俯视图网格的方式。通过这种“上帝视角”,我们可以在几何对齐的空间中分析车道线、障碍物甚至动态目标,从而更自然地与决策模块对接。换句话说,BEV不只是感知方式的转变,它实际上是整个自动驾驶感知系统架构的一次重构。
2025-06-07 08:45:00
229
原创 食品计算—Dpf-nutrition: Food nutrition estimation via depth prediction and fusion
本文提出DPF-Nutrition,一种基于单目图像的食物营养估计新方法。通过深度预测模块生成深度图以恢复三维信息,结合RGB-D融合模块(含跨模态注意力块和多尺度网络)提升估计精度。在Nutrition5k数据集上的实验表明,该方法对热量、质量等营养素的平均估计误差降至17.8%,较现有单目方法提升11.3%,且无需额外深度传感器。研究首次将深度预测与RGB-D融合技术结合,为自动化饮食监测提供了高效低成本解决方案,助力健康管理。
2025-06-04 16:00:14
618
原创 食品计算—Rapid non-destructive analysis of food nutrient content using swin-nutrition
本文提出了一种名为Swin-Nutrition的食品营养无损检测方法,通过结合Swin Transformer和特征融合技术实现对食品热量、质量、脂肪等营养成分的快速评估。该方法采用Swin Transformer作为主干网络提取多尺度特征,并设计特征融合模块提升预测精度。在Nutrition5K数据集上的实验表明,该方法在五项营养指标上的平均绝对误差仅为15.3%-22.1%,显著优于传统方法。该研究为计算机视觉在食品营养检测领域的应用提供了高效解决方案,有助于推动公众饮食健康管理的发展。
2025-06-04 15:56:30
920
原创 自动驾驶系列—WiseAD: Knowledge Augmented End-to-End Autonomous Driving with Vision-Language Model
WiseAD是一种专为自动驾驶设计的知识增强型视觉-语言模型,旨在提升端到端自动驾驶系统的场景理解与轨迹规划能力。传统方法依赖规则或模仿学习,缺乏人类驾驶员的显性知识推理能力。WiseAD基于轻量级MobileVLM架构,通过整合多源驾驶知识数据集(如LingoQA、DRAMA),扩展模型在场景描述、风险分析、行为解释等维度的“知识深度”与“广度”。创新性地联合训练驾驶知识与轨迹规划任务,将轨迹文本化以实现语言模型对齐。
2025-06-02 15:39:27
817
原创 国内三维视觉公司深度盘点
最近几年,国内三维视觉公司如雨后春笋般涌现。有人将其视为 AI 落地的最后一个“闭环”,也有人认为这是通向智能制造的底层基石。不管哪种说法,我们确实看到越来越多的公司在悄悄构建自己的三维视觉矩阵,不仅做传感器,也做 SDK,不只是采集数据,更提供感知、理解、控制的一体化解决方案。
2025-06-02 08:45:00
1246
原创 自动驾驶系统研发系列—激光雷达感知延迟:自动驾驶安全的隐形隐患?
激光雷达虽以毫米级精度成为自动驾驶的"黄金标准",但其感知延迟(约300毫秒)成为重大安全隐患。在120公里时速下,延迟导致10米;盲驾距离,严重影响突发情况响应能力。多传感器融合虽提升感知完整性,却进一步增加同步与处理延迟。这种架构性延迟在复杂交通场景中可能造成决策窗口丢失,甚至引发事故。
2025-06-01 17:36:09
338
原创 自动驾驶系列—A Survey on Deep Learning-Based Lane Detection Algorithms for Camera and LiDAR
系统梳理了近年来基于深度学习的算法进展。文章从功能模块(预处理、特征提取、检测头等)详细解析2D/3D视觉检测方法,并首次涵盖激光雷达点云及多传感器融合等新兴方向。通过对比主流数据集(如TuSimple、CULane、ApolloScape)和评估指标,分析了不同算法的优劣。针对光照变化、复杂场景等挑战,文章指出未来研究方向包括跨域泛化、多模态融合及轻量化部署。
2025-06-01 09:55:40
711
原创 自动驾驶系统研发系列—端到端自动驾驶:愿景、陷阱与现实博弈
端到端自动驾驶的技术挑战与工程实践思考 本文从一线从业者视角,深入剖析了端到端自动驾驶技术的真实挑战。文章指出,端到端并非万能方案,而是对系统能力的全面考验。关键难点包括:感知与规划的耦合问题、数据闭环构建、算力资源需求、多模态标注体系等深层工程挑战。特别强调了covariate shift、多模态输出监督、累积误差等"隐形困难"的存在,并提出了更合理的评估指标体系建议。
2025-05-31 21:01:19
342
原创 自动驾驶系列—Monocular 3D Lane Detection for Autonomous Driving
单目视觉3D车道线检测研究综述 本文系统梳理了自动驾驶中单目视觉3D车道线检测的研究进展。作为场景理解的核心任务,3D车道检测因其提供深度、曲率等关键信息,在复杂道路环境下展现出比2D检测更优越的性能。论文首先分析了两大技术路线:传统人工特征方法和基于深度学习的CNN、Transformer及混合架构方法,重点介绍了3D-LaneNet、PersFormer等代表性工作。同时指出当前面临的三大挑战:数据变异性大、计算资源需求高和实时性要求严格。文章还整理了现有数据集,探讨了未解决的技术难题。
2025-05-31 15:22:31
980
原创 自动驾驶系列—GLane3D: Detecting Lanes with Graph of 3D Keypoints
在三维空间中实现准确且高效的车道线检测,对于自动驾驶系统至关重要,其中鲁棒的泛化能力是 3D 车道检测算法的首要要求。考虑到全球车道结构的巨大差异,要实现高度的泛化能力尤其具有挑战性,因为算法必须能够准确识别各种不同的车道线模式。传统的自顶向下方法严重依赖于从训练数据集中学习车道特征,往往难以应对具有未见属性的车道结构。为了解决这一泛化能力的局限,我们提出了一种方法,首先检测车道的关键点,然后预测它们之间的顺序连接,以构建完整的三维车道线。
2025-04-17 17:28:06
1351
1
原创 食品计算—Coarse-to-fine nutrition prediction
健康的饮食摄入对生活质量有广泛影响,而营养预测在饮食辅助决策中起着重要作用。给定一张食物图像,现有的营养预测方法通常直接回归营养成分含量。然而,由于食物图像中存在诸如拍摄角度和光照条件等复杂变化,直接回归营养含量面临巨大挑战。食物图像数据的复杂性导致输入空间具有高维且特征丰富的特性,这使得传统回归模型难以高效地进行搜索和优化。因此,直接回归的范式通常会产生不准确的营养预测结果。
2025-04-17 17:24:55
766
原创 食品计算—CookingDiffusion: Cooking Procedural Image Generation with Stable Diffusion
近年来,文本生成图像(text-to-image generation)模型在生成多样化且逼真的图像方面取得了显著进展。这一成功也延伸到了食物图像生成领域,在该领域中,诸如烹饪风格、食材和菜谱等多种条件输入被广泛应用。然而,目前仍有一个尚未被探索的挑战,即如何根据菜谱中的烹饪步骤生成一系列的过程图像。这项能力不仅可以通过视觉引导提升用户的烹饪体验,还有可能促成一个智能烹饪模拟系统的发展。
2025-04-09 17:42:38
1133
原创 食品计算—Retrieval Augmented Recipe Generation
近年来,从食物图像生成菜谱的研究逐渐受到广泛关注。现有的方法通常采用两阶段训练策略首先从食物图像中预测其所含食材;然后结合图像和预测出的食材生成烹饪步骤。近年来在多种视觉与语言任务中取得显著成功的大规模多模态模型(Large Multi-modal Models, LMMs),为“从图像直接生成食材和烹饪步骤”这一任务带来了新的希望。生成内容出现“幻觉”(hallucination)现象,即生成了与图像不符或虚假的信息,从而导致生成结果的性能不佳。
2025-04-09 17:40:02
696
原创 食品计算—From canteen food to daily meals: Generalizing food recognition to more practical scenarios
食品类别的精准识别在智能健康管理中扮演着关键角色,近年来受到广泛研究关注。诸如 Food-101 和 VIREO Food-172 等知名基准数据集,为该领域研究的繁荣提供了丰富的食物图像资源。然而,这些数据集大多是精心收集自食堂场景,与日常生活中的食物外观存在一定差异。这种差异带来了巨大挑战,使得在食堂数据集上训练的分类器难以有效迁移至人类日常生活中遇到的更广泛情境。为此,我们提出了两个全新的基准数据集,分别命名为和,专门用于收集日常饮食中的食物图像。
2025-04-07 08:35:47
970
原创 食品计算—Navigating weight prediction with diet diary
当前的食品分析研究主要集中在诸如食物识别、菜谱检索以及基于单张图像的营养估计等任务上。然而,在探索食物摄入对生理指标(如体重)随时间变化的影响方面,仍存在显著的研究空白。本文针对这一问题,引入了DietDiary 数据集,该数据集包含真实用户的每日饮食日记和对应的体重测量数据。此外,我们提出了一个新颖的任务 ——基于饮食日记的体重预测任务,旨在利用历史的食物摄入记录和体重信息来预测未来体重变化。为了解决这一任务,我们提出了一个模型无关的时间序列预测框架。
2025-04-07 08:32:57
680
原创 食品计算—Ingredient-Guided RGB-D Fusion Network for Nutritional Assessment
农产品的营养价值是评估其质量的重要指标,直接影响人们的饮食选择和整体健康水平。营养评估研究通过分析食物所含营养成分,为食品的生产、加工和销售提供了科学依据。然而,传统方法常常存在准确率不高、耗时长、专业人才短缺等问题。随着人工智能的快速发展,基于视觉的营养评估方法为改善膳食健康提供了更便捷的手段。然而,现有的基于 RGB 图像的视觉方法仍面临诸多挑战,如受光照变化影响严重,导致营养评估精度下降。
2025-03-31 15:52:14
354
原创 食品计算—Vision-based food nutrition estimation via RGB-D fusion network
随着深度学习技术的发展,基于视觉的食物营养估计因其在准确性和效率方面的优势,正逐渐进入公众视野。本文设计了一种RGB-D 融合网络,结合了多模态特征融合(MMFF)和多尺度融合,用于基于视觉的营养评估。MMFF 通过平衡特征金字塔与卷积块注意力模块实现了有效的特征融合;多尺度融合则通过**特征金字塔网络(FPN)**整合不同分辨率的特征。这两种机制均增强了特征表示能力,从而提升了模型的性能。与当前最先进的方法相比,我们方法的。
2025-03-29 10:45:36
669
原创 食品计算—Nutrition5k: Towards Automatic Nutritional Understanding of Generic Food
从视觉数据中理解食物的营养成分是一个具有挑战性的计算机视觉问题,但它有望对公共健康产生积极而广泛的影响。该领域的研究受限于当前可用的数据集,这些数据集在多样性或营养理解能力训练所需的标注方面存在不足。我们提出了 Nutrition5k,这是一个包含 5000 个多样化真实世界食物菜品的新数据集,配套有对应的视频流、深度图像、食材重量和高精度的营养成分标注。
2025-03-28 17:13:24
1111
原创 食品计算—MetaFood3D: 3D Food Dataset with Nutrition Values
食品计算在计算机视觉(CV)中既重要又具有挑战性。它因在各种应用中的频繁出现而显著推动了CV算法的发展,这些应用包括分类、实例分割到三维重建。食品的多变形状和纹理,加上形式的高度变化以及包括语言描述和营养数据在内的大量多模态信息,使得食品计算对现代CV算法而言是一项复杂而艰巨的任务。三维食品建模是解决与食品相关问题的新前沿,因为它具有处理随机相机视角的内在能力,并且为计算食品分量提供了直观的表示方式。
2025-03-27 10:36:57
1226
原创 食品计算—Augmented/mixed reality technologies for food: A review
食品是一个广泛且全球性的话题,代表着经济的重要组成部分。在工业 4.0时代的推动下,前沿技术在食品行业的应用潜力巨大。近年来,增强现实(AR)和混合现实(MR)在食品领域的应用受到了越来越多的关注。为了全面了解AR/MR 在食品行业的应用,本研究在Scopus数据库中进行了广泛的在线期刊搜索使用了**“增强现实”“混合现实”** 和“食品”作为搜索关键词,限定搜索范围为论文标题、摘要和关键词。研究筛选流程全文阅读,筛选符合研究范围的论文。
2025-03-26 22:56:28
1066
原创 食品计算—FoodSky: A Food-oriented Large Language Model that Passes the Chef and Dietetic Examination
食物是人类生活的基础,不仅是营养来源,也是文化认同和社交互动的基石。随着全球饮食需求和偏好的日益复杂,食品智能(Food Intelligence)变得尤为重要,以支持食品感知与推理,从菜谱生成、膳食推荐到饮食-疾病关联发现和理解等多个任务。为此,借助大语言模型(Large Language Models, LLMs)在多个领域和任务中的强大能力,我们引入面向食品的 LLM——FoodSky,用于通过感知与推理理解食品数据。考虑到中餐的复杂性和代表性。
2025-03-21 21:54:37
799
原创 RCW 后碰撞预警系统——您的安全后盾
RCW(Rear Collision Warning)后碰撞预警系统是一项智能驾驶辅助功能,专注于保护您的爱车和家人安全。通过先进的毫米波雷达和后置摄像头技术,RCW可以实时监测后方车辆的速度、距离和轨迹。警示您:通过声光报警,提醒您注意后方车辆动态。协作后车:通过尾灯快速闪烁,向后车发出警示,帮助其及时反应。精准预测:动态计算追尾时间(TTC),智能调整预警策略。
2024-12-23 11:22:39
1236
原创 自动驾驶系统研发系列—追尾风险不再隐形:解密后碰撞预警系统(RCW)的技术与应用
后碰撞预警系统(RCW,Rear Collision Warning)是一种先进的智能驾驶辅助功能,旨在主动减少高速或低速驾驶场景中的追尾事故风险。它通过后置毫米波雷达(LRSDS、RRSDS)和后置摄像头的协同工作,实时监测车辆正后方的目标动态,包括目标车辆的类型(如汽车、摩托车、电动车等)、接近速度、方向以及与本车的相对距离。RCW系统在检测到潜在的追尾风险时,会根据碰撞风险等级通过人机交互系统(HMI)向驾驶员发出预警信号,如声音警报、仪表提示等,提醒驾驶员迅速采取相应措施(如加速、换道或减速)
2024-12-23 11:10:51
634
原创 食品计算—FoodSAM: Any Food Segmentation
在本文中,我们探讨了在食品图像分割任务中的零样本能力。为了解决 SAM 生成的掩码中缺乏类别特定信息的问题,我们提出了一个新框架,称为FoodSAM。该创新方法将粗语义掩码与 SAM 生成的掩码相结合,以提升语义分割的质量。此外,我们注意到食品中的食材可以被视为独立的个体,这启发我们在食品图像上执行实例分割。进一步地,FoodSAM通过集成一个目标检测器,将其零样本能力扩展到全景分割,从而有效捕获非食品对象的信息。受最近可提示分割(promptable segmentation)成功的启发,我们还将。
2024-12-01 00:43:17
922
原创 食品计算—A Large-Scale Benchmark for Food Image Segmentation
食品图像分割是一项关键且不可或缺的任务,对开发与健康相关的应用(例如估算食品热量和营养成分)至关重要。缺乏高质量、具有细粒度食材标签和像素级位置掩码的食品图像数据集——现有数据集要么仅具有粗略的食材标签,要么规模较小。食品的复杂外观使得在食品图像中定位和识别食材变得困难。例如,图像中的食材可能相互重叠,同一种食材在不同食品图像中的外观可能完全不同。在本研究中,我们构建了一个新的食品图像数据集FoodSeg103(及其扩展FoodSeg154),该数据集包含9,490张图像。
2024-11-30 10:17:17
1073
原创 增强现实系列—One-2-3-45++: Fast Single Image to 3D Objects with Consistent Multi-View Generation
近年来,开放世界的3D目标生成技术取得了显著进展,其中图像到3D的方法相比文本到3D方法提供了更精细的控制。然而,大多数现有模型在快速生成速度和高保真度输入图像两方面表现不足,而这两点对于实际应用至关重要。在本文中,我们提出了一种名为 One-2-3-45++ 的创新方法,可以在约一分钟内将单张图像转化为详细的3D纹理网格。我们的方法旨在充分利用嵌入在2D扩散模型中的丰富知识,以及来自宝贵但有限的3D数据的先验知识。首先对2D扩散模型进行微调,以生成一致的多视图图像;
2024-11-26 15:48:20
931
原创 自动驾驶系列—倒车从此无忧!RCTA/B功能为你打造全方位倒车守护
倒车侧向警告(RCTA)和倒车侧向制动(RCTB),是专为解决倒车安全问题设计的智能驾驶辅助功能。
2024-11-25 08:08:58
1582
原创 自动驾驶系统研发系列—智能驾驶倒车盲区终结者:智能侧向警告与制动技术解析
RCTA是一种在倒车过程中,实时监测车辆两侧及后方目标的功能。当系统检测到侧后方存在潜在的碰撞风险时,会通过灯光闪烁、声音警告等方式提醒驾驶员,帮助其避免事故发生。功能特点灯光报警:盲点灯闪烁或中控仪表显示危险信息。声音警告:通过蜂鸣器发出报警声。适用场景:主要用于停车场出车位、狭窄巷道等复杂环境下的倒车。RCTA和RCTB功能是智能驾驶技术在车辆安全领域的重要应用,它们通过对环境的实时监测、驾驶员的多样化警告和自动干预措施,有效减少了倒车事故的发生。
2024-11-25 08:05:32
417
原创 自动驾驶系列—告别眩光烦恼:智能大灯如何守护夜间行车安全
智能大灯控制(IHC,Intelligent Headlight Control)通过智能感知和自动切换远近光灯,让驾驶员在夜间行驶时更加专注于道路,无需担心灯光操作。无论是黑暗的乡村道路还是灯火通明的城市街道,IHC都能根据环境自动调节,既优化视野又避免对其他驾驶员造成眩光干扰。
2024-11-19 23:25:17
1103
原创 自动驾驶系统研发系列—智能驾驶核心功能:IHC如何提升夜间驾驶体验?
智能大灯控制(IHC)是一种高级驾驶辅助功能,旨在为驾驶员提供更加安全、便捷的夜间驾驶体验。通过集成前视摄像头、光照传感器以及车身控制模块(BCM),IHC功能能够实时感知前方环境变化,并智能决策远近光灯的切换。IHC系统通过前视摄像头获取道路环境的实时信息,包括光照强度、车辆位置、道路照明情况、行人动态等多维度数据。光照传感器的加入为系统提供了精确的环境亮度数据,使得系统能够在不同场景下快速响应。例如,在完全黑暗的环境中,当检测到道路无其他车辆时,系统会自动切换至远光灯模式以最大化驾驶员视野;
2024-11-19 23:22:54
511
原创 自动驾驶系列—面向自动驾驶的模型迭代:工具、平台与最佳实践
自动驾驶技术的关键在于高效、可靠的感知、决策和控制系统,而这一切的核心是深度学习模型的构建与优化。然而,自动驾驶场景的复杂性和多样性决定了仅靠一次模型训练远不足以应对实际应用中的挑战。因此,模型迭代成为关键。通过不断的训练和评测循环,开发者可以逐步提高模型的精度、泛化能力和鲁棒性,从而更好地适应各种驾驶环境。模型迭代不仅仅是训练数据和模型优化的技术过程,更是自动驾驶研发效率和竞争力的体现。自动驾驶模型迭代是实现高可靠性自动驾驶系统的关键。
2024-11-18 22:17:46
1202
原创 自动驾驶系列—探索自动驾驶数据管理的核心技术与平台
自动驾驶技术的快速发展离不开高质量数据的支撑。从传感器采集、存储到后续的数据标注和模型训练,整个过程需要处理大量的复杂数据。随着自动驾驶测试范围的扩大和传感器种类的增多,如何高效地管理这些数据,成为了行业中的重要课题。自动驾驶数据不仅数量庞大,还具有多样性(如视频、点云、GPS轨迹等)和时效性(实时同步要求)。在实际应用中,数据管理涉及到采集、存储、索引、检索、共享以及生命周期管理等多个环节。因此,构建高效可靠的数据管理体系,是自动驾驶系统研发中不可或缺的一部分。
2024-11-18 22:15:21
1378
原创 自动驾驶系列—深入解析自动驾驶车联网技术及其应用场景
随着自动驾驶技术的飞速发展,车联网(Vehicle-to-Everything,V2X)逐渐成为实现智能交通和安全驾驶的重要组成部分。车联网不仅连接了车辆与周边环境,还能够实现车辆间的信息交互以及与交通基础设施的互联,增强了自动驾驶系统的环境感知能力、决策支持和驾驶安全性。自动驾驶车联网模块的开发不仅仅局限于信息的传递,它还需满足实时性、低延迟和高可靠性,以确保自动驾驶车辆在复杂交通环境下能够做出正确且及时的反应。自动驾驶车联网模块的广泛应用能够显著提升自动驾驶车辆的安全性和效率。
2024-11-17 08:56:49
1903
原创 自动驾驶系列—自动驾驶数据脱敏:保护隐私与数据安全的关键技术
在自动驾驶的研发与测试过程中,车辆每天会生成海量的数据。这些数据不仅包括传感器采集的环境信息(如摄像头、雷达、激光雷达等),还可能包含位置信息、道路特征、车辆状态以及一些与用户隐私有关的敏感信息。为了在数据共享、传输和存储过程中保护隐私,数据脱敏成为不可或缺的技术手段。数据脱敏技术的应用不仅是出于合规性考虑(如GDPR等隐私法),更是自动驾驶技术成熟化和商业化的必要条件。只有在保护用户隐私的前提下,自动驾驶数据才能在更多场景中实现高效的分析、共享和研究,从而推动自动驾驶技术的进一步发展。
2024-11-17 08:54:48
1636
原创 自动驾驶系列—行车安全新高度:揭秘ESS如何让避让更精准
ESS是一种专为紧急避险场景设计的驾驶辅助功能。通过智能感知系统,实时监测前方可能的碰撞风险,当驾驶员尝试主动避让时,ESS提供转向力辅助,帮助驾驶员精确避开障碍物或行人。ESS不仅缓解了驾驶员的心理压力,还有效降低了追尾和碰撞行人的风险。
2024-11-16 14:35:17
1688
原创 自动驾驶系统研发系列—智能驾驶新高度:解析ESS驾驶员转向辅助系统
ESS是一种智能驾驶辅助功能,专注于在紧急情况下辅助驾驶员转向,避让前方车辆或行人。该功能的核心作用是当车辆行驶过程中检测到追尾风险,并且驾驶员有转向避让动作时,ESS系统会计算最佳转向轨迹,协助驾驶员将车辆引导至安全位置。ESS功能主要支持当前车道内的同向运动目标(如车辆或行人),但对于横穿目标或对向目标不提供支持。此外,ESS功能通过严谨的条件判断与状态管理,确保仅在避让安全的情况下激活功能,同时避免因错误判断而引发新的风险。
2024-11-16 11:11:00
2331
原创 自动驾驶系列—从数据采集到存储:解密自动驾驶传感器数据采集盒子的关键技术
随着自动驾驶技术的发展,对数据的需求变得愈发关键。为了构建一个可靠的自动驾驶系统,传感器数据采集盒子成为了数据采集、处理和存储的关键硬件设备。在本文中,我们将深入探讨自动驾驶车辆传感器数据采集盒子的工作原理、硬件配置、时间戳同步、数据存储等重要方面,并提供一些实际应用场景的分析。在自动驾驶研发中,传感器数据的获取、同步和管理直接影响了系统的精度和稳定性。自动驾驶车辆通过不同种类的传感器(如GPS、IMU、激光雷达、摄像头、毫米波雷达等)感知环境,每种传感器的数据格式、刷新率和精度要求各不相同。
2024-11-14 23:02:41
1499
原创 增强现实系列—Encode-Store-Retrieve: Augmenting Human Memory through Language-Encoded Egocentric Perception
我们依赖自身的记忆来编码、存储和提取我们的经历。然而,记忆可能会出现丢失的情况。一种有前景的记忆增强方法是利用增强现实头戴式显示设备来捕捉并保存第一视角的视频,这种做法通常称为生活记录(lifelogging)。然而,通过生活记录产生的大量视频数据带来了重大挑战,目前的技术还无法有效地编码和存储如此庞大的数据量。此外,从大量视频档案中检索特定信息需要大量计算能力,这进一步增加了快速访问所需内容的难度。为了解决这些挑战,我们提出了一种记忆增强代理,它利用自然语言编码视频数据并将其存储在向量数据库中。
2024-11-12 08:10:45
682
原创 自动驾驶系列—自动驾驶中的短距离感知:超声波雷达的核心技术与场景应用
在自动驾驶系统中,环境感知是实现自动驾驶的核心环节之一。超声波雷达(Ultrasonic Sensors System,简称USS)作为一种短距离环境感知传感器,因其成本低、功耗小、对环境的穿透性强,广泛应用于自动驾驶车辆的周围环境感知中。USS主要用于自动泊车、低速防碰撞等近距离应用场景,在狭窄空间的停车或低速下的行人检测等方面有着独特优势。超声波雷达通过发射超声波并接收反射信号来测量物体距离,因此能够在短距离内高效地识别障碍物。USS数据的采集、处理和分析,是自动驾驶车辆感知系统的重要组成部分。
2024-11-11 22:30:11
2099
后端开发 + SQL与NoSQL数据库 + 电子商务平台数据管理 + 用户数据和交易记录的存储与查询
2024-08-17
数据分析 + 性能分析 + 数据处理 + 识别性能瓶颈和优化数据处理流程
2024-08-17
Python编程 + 上下文管理器 + 资源监控 + 系统资源管理与性能监控
2024-08-16
AR开发基础 + ARKit + 平面检测与视觉效果 + 开发初学者教育与引导
2024-08-10
计算机视觉-Flask框架-SQLite数据库-图像展示与筛选-开发示例
2024-07-30
七夕特献:用代码编织爱情的浪漫,程序员的专属爱情证书生成器
2024-07-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人