自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

xiaomu_347的博客

一只误入歧途的编程喵

  • 博客(203)
  • 资源 (11)
  • 收藏
  • 关注

原创 深度学习框架比较分析及各种版本mnist识别

现在市场上流行的深度学习框架很多,常用的有tensorflow, keras,MXNet, Torch, Caffe, Theano等几种,通过对比分析可以得到:框架 开发语言 优劣及难易程度 tensorflow c++/cuda/python 资料全,灵活性好,适应性广,但前期上手难 keras c++/cuda/python ...

2019-09-06 09:37:31 780

原创 深度学习中常见的打标签工具和数据集集合

集大家之所长汇集于此,希望对有需要的你能有所帮助。一、打标签工具(1)labelimg/labelme这两款工具简便易行,前者主要用于对目标进行大致的标定,用于常见的框选标定,后者主要用于较为细致的轮廓标定,多用于mask rcnn等。安装也是很方便的,直接在终端下用pip install labelimg即可(至于labelme,需要先安装pyqt,所以先pip insta...

2018-11-05 11:12:34 50637 12

转载 从CNN到SSD目标检测机器学习方法总结

目标检测方法比较:object detection我的理解,就是在给定的图片中精确找到物体所在位置,并标注出物体的类别。object detection要解决的问题就是物体在哪里,是什么这整个流程的问题。其中检测算法的发展如下,本文主要关注后半部分的,首先可以看一下CNN,它主要用来提取图像特征做分类。(一)图像分类:CNNhttps://blog.youkuaiyun.com/l...

2018-09-03 11:36:56 5629 1

原创 Windows下用c++来调用tensorflow训练好的模型

在尝试用c++来调用tensorflow训练好的模型时确实花了一些时间,现在总结一下,以供后续的学习: 首先我想说明的一下是常见的tensorflow训练好的模型保存方式有两种:ckpt格式和pb格式,其中前者主要用于暂存我们训练的临时数据,避免发生意外导致训练终止,前面的努力全部白费掉了。而后者常用于将模型固化,提供离线预测,用户只要提供一个输入,通过模型就可以得到一个预测结...

2018-07-14 11:13:51 37862 123

原创 好玩有趣的github开源项目分享(持续更新)

这个项目基于OpenAI o3-mini可以实现对开源项目整体结构进行分析,然后到处uml结构图,这样可以有助于快速理解整个项目代码结构,快速上手,尤其是针对不熟悉的项目时。日常在逛github时,碰到一些有意思的开源项目,今天在这里和大家一起分享。,可以自己本地部署也可以线上体验。

2025-04-01 08:59:11 207

原创 跨语言调用神器SWIG学习笔记

还记得以前python调研c++脚本时的各种苦楚,前面也总结了,今天和大家再分享一个跨语言调研的利器。SWIG 是一个软件开发工具,能够简化不同编程语言与 C 和 C++ 程序连接的开发任务。简单理解它是一款编译器,它可以获取 C/C++ 声明并创建访问这些声明所需的包装器,从而可从包括 Perl、Python、Tcl、Ruby、Guile 和 Java 在内的其他语言访问这些声明。SWIG 通常不需要修改现有代码,而且通常只需几分钟即可构建一个可用的接口。

2025-03-26 10:20:38 13

原创 大模型微调工具

大模型微调(Fine-tuning)工具库可以帮助开发者高效地微调大模型,减少计算资源消耗,提高适配性。以下是一些常见的微调工具库

2025-02-12 15:33:40 83

原创 注册器机制Registry

注册机制(Registry)是一种将名称与具体实现(如类、函数)动态绑定的设计模式,广泛应用于模块化系统和开源框架中,以提高代码的可配置性和扩展性。内部实现:注册器内部通过字典(如_obj_map)存储名称与对象的映射。但是需要注意与内置的getattr()函数区分开来,两者在动态性上互补,但解决的问题层次不同。显式注册到全局字典,通常用装饰器或注册函数。内置反射机制,直接通过字符串访问对象属性。集中管理全局名称-对象映射,支持扩展性。动态方法调用、反射式编程、简化条件逻辑。动态访问对象现有属性或方法。

2025-02-11 15:37:26 38

原创 2024-2025自动驾驶技术演进与产业破局的深度实践——一名自动驾驶算法工程师的年度技术总结与行业洞察

2024年是自动驾驶行业从"技术验证"迈向"商业化落地"的关键转折点

2025-01-23 15:50:27 1525

原创 TVM框架学习笔记

tvm模型部署推理

2025-01-23 14:32:31 169

原创 DeepStream使用简介

deepstream是 NVIDIA 提供的一个基于 GStreamer 的多媒体处理框架,专为构建高效的智能视频分析(IVA)应用而设计。它结合了深度学习、计算机视觉和视频处理技术,广泛应用于视频监控、自动驾驶、零售分析等领域。DeepStream 支持多种深度学习模型(如 TensorRT、PyTorch、TensorFlow 等),并提供了高效的硬件加速(利用 GPU 和 NVIDIA 的硬件编解码器)。

2025-01-17 09:42:00 908

原创 智驾大模型应用

过去的十年自动驾驶在学术界和工业界都得到了快速发展。然而,其有限的可解释性仍然是一个悬而未决的重大问题,严重阻碍了自动驾驶汽车的商业化和进一步发展。以前用小语言模型的方法,由于缺乏灵活性、泛化能力和鲁棒性而未能解决这个问题。最近,多模态大语言模型(LLM)因其通过文本处理和推理非文本数据(如图像和视频)的能力而受到研究界的极大关注。

2025-01-02 15:48:24 116

原创 deepseek-v3 llm结构详解

在后训练阶段,包括监督微调(SFT)和强化学习(RL),以使模型与人类偏好对齐,并进一步释放其潜力.同时,从DeepSeek-R1系列模型中提取推理能力,并保持模型准确性和平衡。DeepSeek-V3是一个大型的专家混合(MoE)模型,拥有6710亿个参数,其中每个token激活37亿个参数.它采用多头潜在注意力(MLA)和DeepSeekMoE架构,以实现高效的推理和经济的训练成本,此外,DeepSeek-V3引入了无辅助损失的负载平衡策略和多token预测训练目标,以提高模型性能。

2024-12-30 12:08:16 240

原创 从VLM到VLA概论

智驾视觉大模型

2024-12-27 17:43:07 657

原创 基于cursor+Sealos+devbox完成项目全流程开发部署

想要体验一个完整开发项目开始流程,需要提前做一些准备工作(下面所有操作只是为了展示,公司级别项目技术栈不完全相同,但是可以学习借鉴一下)

2024-12-27 17:35:59 614

原创 常见Attention模块

Attention-based方法因其可解释和有效性,受到了学术界和工业界的欢迎。但是,由于论文中提出的网络结构通常被嵌入到分类、检测、分割等代码框架中,导致代码比较冗余繁杂,如果是自己想要搭建一个网络结构想要插入这些模块的话就需要对上面代码进行梳理剥离核心代码块,下面对其日常使用的attention模块进行总结,尽量保证可以做到即插即用,简单快捷。

2024-12-23 16:16:03 37

原创 autogen+ollama+litellm实现本地部署多代理智能体

autogen 是一个专门为大语言模型 (LLMs) 驱动的自治代理 (autonomous agents) 设计的 Python 库,由 Microsoft 开发和维护。它通过高度模块化和可扩展的架构,支持用户快速构建和运行多代理系统,这些代理可以在没有明确人类干预的情况下协作完成复杂任务。AutoGen 支持以最少的工作量构建基于多代理对话的下一代 LLM 应用程序。它简化了复杂的 LLM。它最大限度地提高了 LLM并克服了它们的弱点。

2024-11-23 20:52:54 668

原创 stable diffusion生成模型

stable diffusion使用

2024-11-22 20:24:46 380

原创 python协程学习笔记

语法,可以实现高效的并发处理,适合 I/O 密集型任务(如网络请求、文件读写)而非 CPU 密集型任务。让你在单线程中实现高效并发,非常适合需要处理大量异步 I/O 操作的场景。是 Python 的内置异步 I/O 库,用于编写异步程序。

2024-11-18 15:12:15 960

原创 手把手带你本地构建自己的RAG模型

对于大模型而言,为了增强模型在特定领域的性能,常见的做法有基于rag和finetune两种模式,当数据量较小时,一般采用前者,这样能保证模型的效果且成本小。而finetune的方式也有很多,比如sft,lora等。

2024-11-14 12:09:36 257

原创 LLM模型量化

LLM模型量化部署

2024-11-06 15:20:20 143

原创 基于transformer构建训练自己的llava模型

2. 在`tokenizer_config.json`文件里面的`additional_special_tokens` 里面加上 `""`,可以验证一下,》修改qwen的tokenizer的相关文件:设置``这个token id。这一步感觉有点像pytorch的构建自己训练数据的datasets和dataloader。基于上面构建好的网络结构,下面首先准备好训练数据,当完成新模型的替换和生成后,测试一下新的模型。》util处理:打印其他信息。》,然后下载与训练模型。

2024-10-30 15:17:18 150

原创 基于NERF技术重建学习笔记

基于nerf场景重建渲染

2024-10-24 17:21:16 1085

原创 Maptr|maptrv2网络结构

由于点和方向边在起始点未知的情况下其实是能对同一地图元素够成很多种表达的,对此文章对一个元素穷举了其所有可能存在的等效表达并将其运用到的实例匹配中去,这样可以有效避免一些特意场景下的歧义情况(如对象车道中间的分割线或是人行横道的多边形区域 )。作者提出一种统一的基于排列的建模方法,即将高清地图中的元素(线条状或是多边形的)构建为由一组点和带方向边的组合,避免地图元素模糊定义并且可以简化学习。上文提到对于地图元素的建模是点和带方向边的组合,那么这些组合是如何与GT进行匹配的呢?

2024-10-22 22:20:13 122

原创 基于docker运行windows系统

作为一个开发人员,日常生活基本是在mac和ubuntu系统上操作,但是时不时会有 Windows 使用的场景,不论是运行某个指定的软件,还是要做一些跨平台软件的功能验证。这个 Windows 容器会使用 vCPU x2、4GB 内存、64G 的磁盘空间,来满足 Win11 的最低安装需求。我们可以根据自己的实际需求,来动态的调整容器的硬件资源限制。由于系统镜像一版比较大,每次启动docker如果都进行下载的话,碰上网络情况不佳的时候就会很耗时,这时候可以先离线下载好系统镜像,然后将文件重命名为。

2024-10-21 15:27:55 1194 1

原创 UniAD-端到端自动驾驶大模型学习笔记

UniAD是2023年由中科院和清华大学团队提出的一篇关于自主驾驶的研究论文,重点探讨了如何通过规划导向的学习框架来解决传统端到端自主驾驶中感知、预测和决策分离的问题。其主要贡献是提出了一种新的,以更好地将感知、规划和控制整合在一起,从而提高端到端自主驾驶的性能和可靠性。

2024-10-20 16:34:16 169

原创 leetcode经典算法题总结

针对leetcode算法题常见的五大经典复杂算法进行如下总结

2024-10-08 16:45:42 696

原创 LLM大模型学习总结

目前国内外开源/闭源LLM模型种类比较繁多,如何选择一个合适的基座模型来适配自己业务就显得很重要了,根据。针对目前较为主流的中文开源llm,从模型评测、初步体验和部署等方面,下面详细总结了4个比较常用的开源大模型特点。

2024-10-07 15:14:01 280

原创 自动驾驶目前端对端算法现状

首先,传统智驾方案和“两段式”端到端方案都是依靠人为定义的规则在传递显性信息,存在信息误 差和丢失,难以完整准确还原外部场景,而一体化端到端自动驾驶大模型最明显的优势就在于信 息的无损传递,端到端模型基于原始信息进行学习、思考和推理,最终能像人一样综合理解复杂 的交通环境,并且能够不断成长,有着更高的能力上限。端到端技术方案基于深度神经网络,通过摄像头采集驾驶场景的信息,将其作为深度卷积神经网络模型的输入,再不断对网络模型进行训练,得到学习好的网络参数,从而对智能车方向盘转角进行预测。

2024-09-28 22:11:00 133

原创 python的高级用法

对于python的使用,我们常见的用法是python xx.py直接执行脚本,有时可能您需要在脚本的第一行添加(#!/usr/bin/env python3 或 #!/usr/local/bin/python3),然后chmod确保脚本文件具有可执行权限。这样脚本就可以在终端直接运行。

2024-09-28 19:26:07 601

原创 常用的图像检测代码(凸包,旋转框)

日常目标检测都是直接正常矩阵框检测,但是对一些精密检测涉及到旋转框检测,这时候满足旋转框iou计算。(1)图像边缘与轮廓检测。最后显示结果对比如下。

2024-09-27 11:30:04 44

原创 c/c++脚本gdb调试

对于c/c++脚本,想要对其进行单步调试,如果不借助ide的情况下,这里首推gdb这款工具

2024-09-25 15:31:08 601

原创 slam入门学习笔记

是Simultaneous localization and mapping缩写,意为“同步定位与建图”,主要用于解决机器人在未知环境运动时的定位与地图构建问题,目前广泛用于机器人定位导航领域,VR/AR方面,无人机领域,无人驾驶领域等。

2024-09-24 11:13:28 1686

原创 自动驾驶自动泊车场景应用总结

自动泊车技术是当前智能驾驶技术的一个重要分支,其目标是通过车辆自身的感知、决策和控制系统,实现车辆在有限空间内的自主泊车操作。目前自动泊车可分为半自动泊车、全自动泊车、记忆泊车、四种产品形态,其中, 根据搭载传感器和使用场景的不同,全自动泊车又可分为基于超声波的全自动泊车、超声波融合环视摄像头的全自动泊车、遥控泊车三种形态。随着自动泊车技术的不断迭代,自动泊车功能的实用性也越来越强。目前存在的自动泊车的典型方案如下。

2024-09-12 15:22:07 691

原创 nvidia常用的一些工具

Nvidia作为GPU王者,无论是生产学习游戏都占据半壁江山,尤其是AI时代的爆发,让Nvidia的生意更是如日中天。下面对Nvidia开放的一些免费工具进行总结,学会怎么使用会让我们更好的发挥Nvidia系列产品的性能。

2024-09-12 10:28:05 1335

原创 深度学习数据标注闭环

数据闭环是指运用AI大模型等新技术,对数据挖掘、自动标注、模型训练、仿真测试进行升级,让智驾数据运用从小规模且重人工的方式,转化为可大规模运用且高自动化运转的方式,实现智驾数据处理更流畅、智驾功能体验更佳。数据闭环的主要流程包括数据采集是数据闭环的起点,可以依靠传感器技术,通过道路采集车、量产车、车主数据贡献等方式进行数据采集,此外多模态大模型技术也能够通过场景生成进行数据采集,丰富数据库的内容,解决Corner case的问题。

2024-09-07 22:40:35 93

原创 Deepspeed/Accelerate框架学习笔记

在使用 DeepSpeed 训练大模型时,除了常规的模型设计和数据准备外,还需要特别关注内存管理混合精度通信优化和分布式训练的配置,以确保大模型能够高效、稳定地训练。参考链接:1、2、DeepSpeed-优快云博客。

2024-09-07 18:02:32 413

原创 目前主流soc芯片部署AI模型总结

最早的开源深度学习框架,为整个AI产业赋能,大大推动了整个行业的发展,优点是同时支持训练和推理、跨平台、开源社区力量强大、框架迭代开发快等,能够满足大部分企业的需求,但是在端侧部署存在以下问题,对移动端处理器(CPU、GPU、DSP)的优化有限,限制了一些算力要求较高的AI算法在端侧的应用。作为一个框架开发人员,因为这些硬件厂商的框架不开源,无法扩展其功能,如果算法中有些op转换不成功,就要给硬件厂商提case,基本要等很久才能支持(这里就不吐槽了)。

2024-09-04 16:25:19 117

原创 slam和三维重建学习笔记

SLAM注重实时性和动态环境下的自定位与地图生成,适用于移动设备的自主导航和环境感知。而三维重建专注于静态场景的高精度模型生成,适用于需要详细三维结构表示的应用。二者在处理方式、数据输入、输出结果和应用领域上都有显著的不同。相机姿态估计通过对多张图像中的特征点匹配,利用对极几何中的基本矩阵和本质矩阵关系,推导出相机的相对位置和方向。最终,通过捆绑调整等优化手段,得到准确的相机姿态。这是三维重建和SLAM中实现空间场景理解的关键步骤。基本矩阵是两张图像中对应点对的几何约束,而不是直接描述图像之间的旋转和平移。

2024-09-02 10:51:36 859

原创 交叉编译学习总结

后缀,但它实际上是一个可在 Unix 系统上运行的可执行文件,并不是 Windows 可执行文件格式。要生成可以在 Windows 上运行的可执行文件,您需要在 Windows 上使用 MinGW 或者在其他操作系统上使用交叉编译工具链来生成真正的 Windows 可执行文件。通过这些步骤,您就可以在 Linux 或 macOS 上轻松生成 Windows 可执行文件。这样生成的 `hello.exe` 文件可以直接在 Windows 系统上运行。》在 Linux 上安装 MinGW 交叉编译工具链。

2024-09-01 19:50:50 1064

基于clip+chromdb实现图文检索,带web界面

基于clip+chromdb实现图文检索,可以基于web界面实现以文搜图,以图搜图基本功能。

2025-01-07

yolo系列预训练权重.txt

在训练yolov模型时,难以避免的会用到预训练模型,这里帮你整理了yolo系列训练所需要的大部分预训练权重,避免了你需要在外网下载的龟速,希望可以帮到正在需要的你。

2021-03-03

matrixcookbook.pdf

在刚接触机器学习时,对误差传导求解是不是一脸懵逼,对神经网络信息前向传递,误差反向传导的流程推理是不是很不熟练,尤其是矩阵求导,向量求导,雅克比矩阵、hessen矩阵等,那么这份资料也许可以助你一臂之力。

2020-08-23

rufus_files.7z

针对轻量软件Rufus在制作系统盘时会出现需要下载ldlinux.sys和ldlinux.bss文件,而下载又总是失败,故在这里提供给需要的大家!只需要将rufus_files文件解压到和Rufus同一路径即可,制作时会自动检查读取。

2020-05-03

get_pre_model.zip

忍受不了预训练下载参数慢的小伙伴们看过来吧!这里让你畅想飞翔版的感觉

2019-10-27

GitLearning.docx

对于需要协调合作的项目而言,这时候我们需要借助到git来帮助我们更好的进行开发和版本控制。

2019-08-04

利用socket实现客户端服务器之间简单通信

利用socket实现客户端与服务器之间的简单通信,快速熟悉掌握三次握手与四次挥手。。。

2018-12-06

通信协议面试总结

通过面试的洗礼总结的通信协议相关的问题,希望可以助你一臂之力。

2018-09-26

手机端实现机器学习分类app

直接下载到手机上就可以体验到目标检测识别的乐趣了。。

2018-08-09

opencv3 毛星云 随书代码

希望可以帮到处在图像处理初级阶段的你

2017-07-29

MFC包含的库文件集合

想要做界面而又不太熟悉mfc封装的库,那就看过来,希望可以帮到你。

2017-07-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除