- 博客(26)
- 收藏
- 关注
原创 SLAM Cartographer原理与应用
Cartographer是google推出的一套基于图优化的SLAM算法。Cartographer算法并没有给人惊艳的感觉,但该算法的主要目标是实现低计算资源消耗,达到实时SLAM的目的。
2024-10-22 18:58:14
830
原创 Llama3.1论文解读
发布计划:Llama 3模型将在更新版本的Llama 3社区许可下公开发布,包括预训练和后训练版本的405B参数语言模型和新的Llama Guard模型。发布:Llama 3模型包括预训练和后训练版本,以及用于输入输出安全的Llama Guard 3模型。缩放律:通过实验确定最佳模型大小和训练token数量,最终决定训练405B参数的旗舰模型。视觉适配器训练:训练适配器将预训练的图像编码器集成到语言模型中,并训练视频适配器。多模态编码器预训练:训练图像和语音编码器,分别使用图像-文本对和自监督方法。
2024-10-21 01:29:44
1231
原创 ChatGLM:大型语言模型家族,从GLM - 130B到GLM - 4所有工具论文解读
GLM - 4系列包括GLM - 4、GLM - 4 - Air和GLM - 4 - 9B,是能力最强的模型,融合了前三代ChatGLM的经验和教训。预训练在十万亿个主要为中文和英文的标记上进行,主要针对中文和英文进行了校准。校准流程包括有监督微调(SFT)和从人类反馈中学习(RLHF)。GLM - 4全工具模型能理解用户意图,自主选择工具(如网络浏览器、Python解释器、文本到图像模型和用户自定义函数)完成复杂任务。
2024-10-21 00:39:14
1372
原创 ResNet论文解读
论文提出一种残差学习框架,以简化对远比以前使用的网络更深的网络的训练。明确地将这些层重新表述为参照层输入来学习残差函数,而非学习无参考的函数。提供全面的实验证据表明,这些残差网络更易于优化,并且能够通过深度的显著增加来提高精度。
2024-10-21 00:29:33
726
原创 Transformer论文解读
Transformer,该架构完全基于注意力机制,摒弃了递归和卷积。实验表明,在机器翻译任务中,Transformer在质量上优于现有模型,且更易于并行化,训练时间显著减少。
2024-10-20 23:46:05
1042
原创 Qwen2技术报告解读
介绍了最新的大型语言模型和多模态模型Qwen2系列。该系列包括参数范围从0.5亿到720亿的基础型和指令微调型语言模型,涵盖密集模型和混合专家模型。Qwen2在多个基准测试中表现优异,超越了之前的开源模型,并在语言理解、生成、多语言能力等方面展现出竞争力。旗舰模型Qwen2-72B在多项基准测试中得分领先,指令微调版本Qwen2-72B-Instruct在多语言翻译和实时代码基准测试中表现出色。Qwen2支持约30种语言,显示出强大的多语言能力。
2024-10-20 19:23:44
1422
原创 人工反馈强化学习(RLHF)
利用人工反馈进行微调是使语言模型与人类意图相一致的一个有希望的方向。专注于微调对齐语言模型的方法。使用来自人工反馈的强化学习(RLHF)微调GPT-3。这种技术使用人类的偏好作为奖励信号来微调模型。收集了一个数据集,用于在更大的API提示集上对模型的输出进行人工标记的比较。在数据集上训练一个奖励模型(RM),以预测标签器更喜欢输出哪个模型。使用此RM作为奖励函数,并使用PPO算法微调监督学习基线以最大化此奖励。
2024-10-05 20:32:47
1417
原创 C++中进行CUDA编程
C++ 是一种常用的高性能计算语言,它具有高效的内存管理和并行处理能力。CUDA(Compute Unified Device Architecture)是 NVIDIA 公司推出的一种用于在 NVIDIA GPU 上编程的接口。CUDA 允许开发者以高效的方式利用 GPU 的并行处理能力,从而提高计算性能。介绍如何使用 C++ 和 CUDA 搭建高性能计算系统。
2024-10-05 19:54:19
1856
1
原创 模型转换成移动端格式
移动端应用有Android原生、IOS原生程序,有flutter应用程序。Android原生程序可以将.pt格式模型进行集成; flutter应用程序可以通过flutter_pytorch 插件集成.pt格式模型; IOS原生程序可以集成.mlmodel格式的模型文件,这就要求将模型由.pt格式转换成.mlmodel格式。介绍在Pytorch中如何把模型由.pth转换成.pt与由.pt转换成.mlmodel格式。
2024-10-05 19:24:52
782
原创 DeepSpeed实现分布式训练与分布式推理
DeepSpeed是一个由微软开发的分布式训练工具,它通过ZeRO技术优化内存占用,支持更大规模的模型训练。ZeRO通过分片模型参数、优化器状态和梯度来减少显存需求,分为多个阶段,如Stage1、2和3,每个阶段逐步增加内存优化程度。混合精度训练结合FP16和FP32,降低显存使用。DeepSpeed的核心在于,GPU显存不够,CPU内存来凑。
2024-09-19 14:53:19
2690
原创 Docker安装与创建镜像及实现容器之间通信
Docker 是一种轻量级的容器化技术,主要原理是利用Linux操作系统的cgroups、namespaces 和 AUFS 等特性来虚拟化系统资源,使得应用程序可以被封装成一个可移植、可靠、可复制的容器,在不同的环境中运行且无需担心环境差异导致的兼容性问题。
2024-09-19 14:38:50
1145
原创 推理引擎TensorRT安装与多线程推理(Python)
TensorRT 是由 Nvidia 发布的一个机器学习框架,用于在其硬件上运行机器学习推理。它能针对 Nvidia 系列硬件进行优化加速,实现最大程度的利用 GPU 资源,提升推理性能。在训练了神经网络之后,TensorRT 可以对网络进行压缩、优化以及运行时部署,支持当前多种深度学习框架(TensorFlow, Pytrch,Mxnet,Caffe2,Theano, PaddlePaddle)。
2024-09-19 14:06:16
995
原创 文生图模型StableDiffusion技术原理与训练推理方法
为了在有限的计算资源上训练DMs,同时保留其质量和灵活性,将其应用于强大的预训练自动编码器的潜在空间。与之前的工作相比,在这种表示上训练扩散模型首次能够在复杂性降低和细节保留之间达到近乎最优的平衡点,极大地提升了视觉保真度。通过在模型架构中引入交叉注意力层,将扩散模型转变为强大的通用条件输入生成器,如文本或边界框,并且以卷积方式实现高分辨率合成成为可能。
2024-09-18 20:19:21
1811
原创 多模态大模型LLaVA技术原理与训练方法
LLaVA,一个端到端训练的大型多模态模型,连接视觉编码器和LLM,以实现通用的视觉和语言理解。使用机器生成的指令跟踪数据对大型语言模型(LLM)进行指令调优,已被证明可以提高新任务的零样本能力,
2024-09-18 19:49:46
2246
原创 数字人模型Wav2Lip技术理论与模型训练
Wav2Lip研究了将任意身份的说话人脸视频与目标语音片段进行唇同步的问题。通过从强大的唇同步判别器中学习来实现。Wav2Lip提出了新的、严格的评估基准和指标,以准确测量不受约束视频中的唇同步。在具有挑战性的基准上的广泛定量评估表明,Wav2Lip模型生成的视频的唇同步准确性几乎与真实同步视频一样好。Wav2Lip模型可以实现广泛的现实应用。
2024-09-18 18:28:38
1744
原创 数字人模型NeRF的技术理论与模型训练
NeRF在合成复杂场景的新视图方面取得了最先进的结果。该算法使用全连接(非卷积)深度网络表示一个场景,其输入是单个连续的5D坐标在空间位置(x, y, z)和观看方向(θ, ϕ),其输出是该空间位置的体密度和与视图相关的发射辐射度。通过查询沿相机射线的5D坐标来合成视图,并使用经典的体渲染技术将输出的颜色和密度投影到图像中。NeRF能有效优化神经辐射场,以渲染具有复杂几何和外观的场景的真实感新视图,并展示了优于之前在神经渲染和视图合成方面的工作的结果。
2024-09-18 18:18:02
1161
原创 PP-OCR技术原理与实现方法
本文介绍了一种实用的超轻量级OCR系统PP-OCR,能精准识别多种场景下的图片中文本。该系统由文本检测、检测框矫正和文本识别三部分组成
2024-09-06 18:24:37
1473
原创 人脸识别ArcFace算法原理与实现
在深度学习用于人脸识别方面,为了提高识别的准确率,研究者提出了ArcFace 技术。ArcFace 通过在 Softmax 损失函数上添加一种角度余弦距离的 margin 来提高人脸识别的准确率,ArcFace 始终优于 SOTA,且容易实现,计算开销可忽略不计。
2024-09-06 17:56:55
2239
原创 用YOLOv8模型实现目标检测、旋转边界框检测、姿势识别、图像分割及视频跟踪
YOLO(you only look once)是一阶段目标检测模型的开山之作,在图像目标检测领域一向以响应速度快著称,它同是兼顾了模型的准确性,在两者之间做到很好的平衡。经过多版本迭代,到YOLOv8,是一个功能强大,受到广大开发者欢迎与喜爱的目标检测模型,另外,在同一套代码中,它可以分别实现图像分类、姿势识别、图像分割,并且在目标检测、姿势识别、图像分割模型基础上实现视频跟踪功能。
2024-09-06 17:33:23
2859
原创 翻拍、模糊图片的判断,重复图片的判断
利用预训练的ResNet18模型进行图像二分类微调训练,实现准确率达99%的判别效果。利用预训练的ResNet50模型提取图像特征并两两计算余弦相似度,根据余弦相似度判断是否重复图片
2024-09-05 20:53:07
1812
3
原创 回归、分类、生成三大任务实现原理
在机器学习与深度学习相关项目需求实现中,通常可以细分成很多个回归、分类、生成任务的实现,由这些任务组成一个完整的任务
2024-09-05 20:32:59
3458
原创 反向传播数学原理
正向传播求损失,反向回传误差”,在前向传播(FP)后,可获得损失函数,在损失函数基础上,利用复合函数链式求导法则,从后向前,分别对每个权重、偏置进行梯度下降,利用学习率更新权重与偏置,以获得最小损失的参数(权重、偏置)与模型。
2024-09-05 15:28:15
277
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人