
AI
文章平均质量分 84
奇华智能
关注AI技术和AI设备
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
TensorRT加速原理和实践
该部分将网络中的convolution、bias和ReLU层进行融合,调用一个统一的kernel进行处理,让kernel lauch时间减少,实现加速。此外,还会消除一些output未被使用的层、聚合一些相似的参数和相同的源张量。使用混合精度,降低数据的大小,减少计算量。例如:使用FP32、FP16、INT8精度。原创 2025-07-22 12:24:25 · 723 阅读 · 0 评论 -
YoloV8+tensorrt实现实例分割C++实现
Yolov8实现实例分割,从模型转换到tensorrt推理的实现原创 2025-05-19 14:48:29 · 1058 阅读 · 0 评论 -
一文搞懂 GPU 的概念、工作原理,以及与 CPU 的区别
一言以蔽之,GPU不管是处理图形渲染、数值分析,还是处理AI推理。底层逻辑都是将极为繁重的数学进行任务拆解,化繁为简。然后,利用GPU多流处理器的机制,将大量的运算拆解为一个个小的、简单的运算,并行处理。我们也可以认为一个GPU就是一个集群,里面每个流处理器都是一颗CPU,这样就容易理解了。以上是关于GPU概念、工作原理的简要介绍。说是简单,其实在图形处理方面,还有很多深层次的处理逻辑没有展开,比如像素位置变换、三角原理等等。感兴趣的小伙伴可以深入研究下。原创 2025-05-09 11:23:24 · 2058 阅读 · 0 评论 -
一文搞懂AI人工智能大模型训练、推理、微调
一文搞懂AI人工智能大模型训练、推理、微调原创 2025-04-28 17:48:40 · 1613 阅读 · 0 评论 -
LLM开源大模型汇总(截止2025.03.09)
技术,ChatGLM2-6B 有更高效的推理速度和更低的显存占用:在官方的模型实现下,推理速度相比初代提升了 42%,INT4 量化下,6G 显存支持的对话长度由 1K 提升到了 8K。开源了六种大小的基础和聊天模型,即0.5B、1.8B、4B、7B、14B、32B、72B 和 110B,以及 MoE 模型(64个expert)开源了0.5B、1.5B、7B、57B-A14B(共57B但激活14B)和72B等五种模型。开源了0.5B、1.5B、3B、7B、14B、32B和72B等七种模型。原创 2025-03-10 15:21:16 · 1442 阅读 · 0 评论 -
大模型Transformer的MOE架构介绍及方案整理
deepseek最近引起了NLP领域的极大关注,也让大家进一步对MOE架构提起了信心,借此机会整理下MOE的简单知识和对应的大模型。本文的思路是MOE的起源介绍、原理解释、再到现有MOE大模型的整理。原创 2025-03-10 15:15:18 · 2702 阅读 · 0 评论 -
大模型部署TensorRT-LLM保姆级教程(三)- 使用Triton推理服务框架部署模型
TensorRT-LLM 是一个用于定义大语言模型并构建 TensorRT 引擎的 Python API,以高效地在 NVIDIA GPU 上执行推理。TensorRT-LLM 包含用于创建 Python 和 C++ 运行时以及执行这些 TensorRT 引擎的组件。它还包括一个用于与NVIDIA Triton 推理服务集成的后端(tensorrtllm_backend);使用 TensorRT-LLM 构建的模型可以在单个 GPU或在具有多个 GPU 的多个节点上执行((使用张量并行或流水线并行))。原创 2025-03-05 20:08:53 · 1120 阅读 · 0 评论 -
大模型部署TensorRT-LLM保姆级教程(一)- 快速入门
同时,它的接口和文档相对较少,用户可能需要更深入地了解其底层实现和使用方式,这对于初学者来说可能会增加学习和使用的难度。并且 FastTransformer 的生态较小,可用的资源和支持较少,这也会增加使用者在理解和应用 FastTransformer 上的困难。Protobuf是一种轻量级的、高效的数据交换格式,但它在序列化和反序列化大型数据时有一个默认的大小限制。随着大模型的爆火,投入到生产环境的模型参数量规模也变得越来越大(从数十亿参数到千亿参数规模),从而导致大模型的推理成本急剧增加。原创 2025-03-05 19:58:31 · 1239 阅读 · 0 评论 -
一文帮你吃透transformer(大模型的基石)
Transformer由论文提出,现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取,其作为Tensor2Tensor包的一部分。哈佛的NLP团队也实现了一个基于PyTorch的版本,并注释该论文。在本文中,我们将试图把模型简化一点,并逐一介绍里面的核心概念,希望让普通读者也能轻易理解。Transformer 与 RNN 不同,可以比较好地并行训练。原创 2025-02-20 19:31:06 · 1269 阅读 · 0 评论 -
C++使用Onnxruntime/TensorRT模型推理
onnxruntime和tensorrt是我们常用的两种推理方式,下面整理了两个推理示例,仅供参考。原创 2025-02-17 19:24:58 · 782 阅读 · 0 评论 -
C++实现yolov8+onnx+tensorrt模型转换
使用TensorRT进行加速推理时,需要先将onnx格式转化为tensorrt格式,以下是使用C++来进行转化代码以及对应的CMakeLists.txt文件。本文主要为大家详细介绍了如何使用C++将yolov8 onnx格式转化为tensorrt格式,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一下。以yolov8为例,使用cmake编译好后会生成build可执行文件,执行以下命令即可等待生成yolov8x.engine文件。原创 2025-02-17 15:56:51 · 597 阅读 · 0 评论 -
使用onnxruntime-gpu 推理,如何限制GPU显存大小?
使用 onnxruntime-gpu 进行推理,运行时间久了,显存被拉爆。原创 2025-01-16 15:26:53 · 843 阅读 · 0 评论 -
目标检测中的FPN+RPN
在聊Feature Pyramid Networks(FPN)和Region Proposal Networks(RPN)之间先熟悉一下Faster R-CNN的背景。与算法如yolo系列相比,Faster RCNN做为典型的算法最大的区别就在于其先通过RPN找到proposal,在对proposa分类,经历了两个网络。转载 2024-11-18 10:52:15 · 245 阅读 · 0 评论 -
一文搞懂Faster RCNN
在介绍RPN前,还要多解释几句基础知识,已经懂的看官老爷跳过就好。对于单通道图像+单卷积核做卷积,第一章中的图3已经展示了;对于多通道图像+多卷积核做卷积,计算方式如下:图5 多通道卷积计算方式如图5,输入有3个通道,同时有2个卷积核。对于每个卷积核,先在输入3个通道分别作卷积,再将3个通道结果加起来得到卷积输出。所以对于某个卷积层,无论输入图像有多少个通道,输出图像通道数总是等于卷积核数量!转载 2024-11-18 10:47:48 · 162 阅读 · 0 评论 -
MMDetection官方教程 技术细节 | 四
模型参数在开始时仅同步一次。在向前和向后传递之后,所有GPU之间的梯度都将减小,优化器将更新模型参数。通常,数据集定义了如何处理注释,数据管道定义所有准备数据字典的步骤。由于对象检测中的数据大小可能不同(图像大小,gt bbox大小等),因此我们在MMCV中引入了一种新类型。我们将发布更多组件(backbones, necks, heads) 用于研究的目的。如果我们要实现一些新组件,例如,路径聚合网络中用于实例分段的路径聚合FPN结构(在本节中,我们将介绍训练检测器的主要单元:数据管道,模型和迭代管道。转载 2024-10-14 17:30:59 · 200 阅读 · 0 评论 -
C++ TensorRT部署实战:YOLOv5模型部署
TensorRT是英伟达官方提供的一个高性能深度学习推理优化库,支持C++和Python两种编程语言API。通常情况下深度学习模型部署都会追求效率,尤其是在嵌入式平台上,所以一般会选择使用C++来做部署。本文将以YOLOv5为例详细介绍如何使用TensorRT的C++版本API来部署ONNX模型,使用的TensorRT版本为8.4.1.5,如果使用其他版本可能会存在某些函数与本文描述的不一致。另外,使用TensorRT 7会导致YOLOv5的输出结果与期望不一致,请注意。本文以YOLOv5。转载 2024-10-08 19:44:13 · 645 阅读 · 0 评论 -
YoloV8 single channel train + Onnx trans
yolov8目前不支持单通道图片训练,需要修改后才能支持。原创 2024-09-03 16:20:35 · 732 阅读 · 0 评论 -
一文搞懂CUDA, CUDA Toolkit, CUDA Driver, CUDA Runtime, nvcc之间的关系及其版本兼容性
先介绍CUDA是什么:官方定义:CUDA(Compute Unified Device Architecture),是显卡厂商NVIDIA推出的运算平台。CUDA™是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。开发人员可以使用C语言来为CUDA™架构编写程序,所编写出的程序可以在支持CUDA™的处理器上以超高性能运行。CUDA。转载 2024-08-22 15:00:08 · 5552 阅读 · 3 评论 -
快速掌握AI的最佳途径实践
普通人想要快速掌握AI,需要从基础知识做起,通过实战项目增强实际操作能力,利用网络资源和社区进行自我提升,并选择合适的学习路径进行系统性的学习。同时,持续更新自己的知识库,以跟上AI技术的发展步伐,是确保长期进步的关键。AI的普及和应用已经深入到各行各业,从医疗到金融,再到娱乐和教育,AI正在改变我们的生活。AI是一个快速发展的领域,新的技术和理论不断涌现。参加AI领域的研讨会和工作坊,直接从专家那里获得最新的信息和见解。:通过关注AI领域的专栏和话题,获取最新的技术动态和经验分享。原创 2024-07-08 17:28:39 · 1266 阅读 · 0 评论 -
16个顶级计算机视觉算法库
TorchVision是PyTorch库的一个扩展库,TorchVision拥有计算机视觉中最常见的图像转换功能,还包含计算机视觉神经网络的数据集和模型架构以及常见数据集。它包含数学库、并行算法库、图像和视频库、通信库和深度学习库,可用于各种任务,例如:人脸识别、图像处理、3D图形渲染等。Keras是一个基于Python的开源软件库,对初学者来说特别易用,它允许快速构建神经网络模型,是一个模块化的AI工具箱,计算机视觉工程师可以利用它来快速组装应用、训练模型。因此,对高质量计算机视觉库的需求也相应增加。转载 2024-06-19 20:10:15 · 2664 阅读 · 0 评论 -
windows下安装cuda+cudnn+python人工智能环境
以Tesla T4显卡为例。原创 2024-06-07 17:55:50 · 535 阅读 · 0 评论 -
一些DAG流程框架
AI之风盛行,为什么这么说?记得去年参加公司的校园招聘时,在面试的50人中95%的人学校都有人工智能的课程,如python、matlab等,但很少的人从事过具体应用实践,更不必说工程化场景了,由此看出AI的热度。人工智能前景的确很不错,市场也确实很有刚需,但真正要掌握好,真不是照着教科书打个helloworld那么容易。所以说,为了降低门槛,一直想做个工具,实现从数据准备、特征工程、模型训练、到评估的整个过程,也就是常说由多任务组成的pipeline。在一个流程系统中,任务间往往存在复杂的依赖关系,为保转载 2022-01-06 20:47:07 · 4218 阅读 · 0 评论 -
Python cv2.minMaxLoc方法代码示例
本文整理汇总了Python中cv2.minMaxLoc方法的典型用法代码示例。如果您正苦于以下问题:Python cv2.minMaxLoc方法的具体用法?Python cv2.minMaxLoc怎么用?Python cv2.minMaxLoc使用的例子?那么恭喜您, 这里精选的方法代码示例或许可以为您提供帮助。您也可以进一步了解该方法所在模块cv2的用法示例。在下文中一共展示了cv2.minMaxLoc方法的22个代码示例,这些例子默认根据受欢迎程度排序。您可以为喜欢或者感觉有用的代码点赞,您的评价将转载 2020-12-16 15:31:01 · 7096 阅读 · 1 评论 -
基于深度学习的目标检测综述
导言随着深度学习和计算机视觉的快读发展,相关技术已经在诸多领域广泛应用。目标检测(Object Detection)作为图像理解中的重要一环,其任务是找出图像中所有感兴趣的目标(物体),确定它们的位置和大小,是机器视觉领域的核心问题之一。1 什么是目标检测目标检测的任务是找出图像中所有感兴趣的目标(物体),确定它们的位置和大小。由于各类物体有不同的外观,形状,姿态,加上成像时光照,遮挡等因素的干扰,目标检测一直是机器视觉领域最具有挑战性的问题。首先,我们考虑下如何理解一张图片?根据任务需要,转载 2020-12-10 20:46:24 · 1930 阅读 · 0 评论 -
聊天机器人的几种主要架构实现
https://cloud.tencent.com/developer/article/1542301原创 2020-04-21 17:01:33 · 2036 阅读 · 0 评论 -
Dlib的编译安装——macos or linux
安装libboost需要首先安装boost库,如下:linuxsudo apt-get install libboost-all-devmacbrew install libboost-all-dev注:你得安装了brew工具从github克隆库:git clone https://github.com/davisking/dlib.gitbuildcd dlibmkdir build; cd ...原创 2018-06-29 10:50:19 · 1709 阅读 · 0 评论 -
ELK实践文档收集——持续更新
https://mp.weixin.qq.com/s/eVukCJI-U7uWsoO7uLacUAhttps://www.cnblogs.com/kevingrace/p/5919021.htmlhttps://www.cnblogs.com/zclzhao/p/5749736.htmlhttps://blog.51cto.com/13527416/2117141https://b...原创 2018-08-20 11:42:45 · 296 阅读 · 0 评论