自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 收藏
  • 关注

原创 GLM-4V模型学习

智谱AI引领技术前沿,推出了新一代预训练模型GLM-4系列,其中的GLM-4-9B作为开源版本,展现了其在人工智能领域的深厚实力。在语义理解、数学运算、逻辑推理、代码编写以及广泛知识领域的数据集测评中,GLM-4-9B及其人类偏好对齐的版本GLM-4-9B-Chat均以超越Llama-3-8B的优异表现,证明了其卓越的性能。

2024-06-22 16:05:26 1802

原创 GLM+vLLM 部署调用

vLLM 框架是一个高效的大型语言模型(LLM)推理和部署服务系统

2024-06-13 23:55:30 2877 1

原创 LMDeploy 量化部署

在深入探讨LMDeploy的量化方案之前,我们先来理解两个核心概念:计算密集型和访存密集型。计算密集型场景意味着推理过程中,数值计算占据了大部分时间;而访存密集型则是指数据读取占据了推理的主要时间。对于LLM(大型语言模型)这类Decoder Only架构的模型,其推理过程往往表现为访存密集型,因此,如何有效减少访存占用的显存空间,对提升GPU计算效率至关重要。

2024-06-13 14:19:19 1265

原创 ChatGLM-Lora微调

LoraConfig这个类中可以设置很多参数,但主要的参数没多少,简单讲一讲,感兴趣的同学可以直接看源码。task_type:模型类型:需要训练的模型层的名字,主要就是attention部分的层,不同的模型对应的层的名字不同,可以传入数组,也可以字符串,也可以正则表达式。rlora的秩,具体可以看Lora原理lora_alphaLora alaph,具体作用参见Lora原理指定的是除了拆成lora的模块,其他的模块可以完整的指定训练。Lora的缩放是啥嘞?当然不是r(秩),这个缩放就是, 在这个。

2024-06-11 21:43:51 1390

原创 大模型学习之GLM结构

随着人工智能技术的不断进步,自然语言处理(NLP)领域也迎来了革命性的发展。OpenAI的ChatGPT及其后续产品在全球范围内引起了广泛关注,展示了大型语言模型(LLM)的强大能力。在这一背景下,GLM(General Language Model)作为一种创新的预训练语言模型,以其独特的自编码和自回归结合的训练方法,为NLP领域带来了新的视角。

2024-06-11 00:09:49 2673

原创 InternLM Xtuner Qlora 微调

大模型微调

2024-06-10 13:25:23 1178

原创 ChatGLM之modeling_glm.py代码理解

本文是对ChatGLM的model部分进行讲解,主要讲解时modeling_glm的代码,更接近ChaGLM计算的核心去了解,大模型chatGLM的运行逻辑!本文只是对代码内容进行个人理解的解释,如有问题欢迎批评改造。后续会逐步展开对chatGLM项目的讲解。让更多人了解chatGLM,从而更好理解大模型。

2023-07-16 22:07:05 2067 5

原创 大语言模型之人类反馈学习RLHF

传统的强化学习方法通常使用手工设计的奖励函数,但这种方法往往难以捕捉到复杂任务中的细微差别和人类的偏好。在这种模式下,人类标注者通过与模型交互,向模型提供反馈和指导,帮助模型学习如何进行摘要生成任务。通过与人类标注者的互动,模型可以逐步优化自身的生成能力,并生成更加准确和合理的摘要。这些选择被用作奖励信号,用于训练深度强化学习模型。这种方法不仅能够提高强化学习模型的性能,还能够使模型的行为更加符合人类的期望和偏好。通过结合人类的专业知识和判断力,可以提供更准确的标签和反馈,从而改善模型的生成能力和表现。

2023-06-10 23:56:52 1411

原创 自学大语言模型之GPT

GPT是由OpenAI于2018年发布的模型。它采用了Transformer的编码器架构,通过自回归语言模型的方式进行预训练。

2023-06-07 23:48:32 3011

原创 自学大语言模型之Bert和GPT的区别

GPT:GPT是一种基于Transformer的生成式预训练模型,其目标是通过自回归语言模型预训练来学习生成连贯文本的能力。BERT:BERT是一种基于Transformer的预训练模型,它的目标是通过双向语言模型预训练来学习上下文相关的词表示。通过大规模的预训练数据和迭代的优化过程,

2023-06-05 22:45:37 16818

原创 自学大语言模型之BERT

BERT 模型是一种双向变换器,使用掩码语言建模目标和对包含多伦多图书语料库和维基百科的大型语料库的下一句预测的组合进行预训练。BERT 旨在通过联合调节所有层中的左右上下文来预训练未标记文本的深度双向表示。

2023-06-03 20:09:41 1995

原创 自学大语言模型之ChatGLM(一)

大语言模型GLM

2023-05-21 10:24:07 1381

原创 自学大语言模型的应用程序框架Langchain(初入门)

LangChain 是一个用于开发由语言模型驱动的应用程序的框架。Be data-aware:将语言模型连接到其他数据源Be agentic:允许语言模型与其环境交互使用语言模型是迈出的重要第一步。通常,在应用程序中使用语言模型时,你并不会直接将用户输入发送给语言模型。相反,你可能会将用户输入组合成一个提示,并将该提示发送给语言模型。例如,在前面的例子中,我们传递的文本是硬编码的,要求输入一个制造彩色袜子的公司的名称。

2023-05-13 19:40:29 5290

原创 注意力机制之SGE Attention

然而,这些子特征的激活往往在空间上受到相似模式和噪声背景的影响,从而导致错误的定位和识别。本文提出了一个空间组增强(SGE)模块,该模块可以通过为每个语义组中的每个空间位置生成一个注意因子来调整每个子特征的重要性,从而每个单独的组可以自主地增强其学习的表达,并抑制可能的噪声。注意因素仅由各组内部的全局和局部特征描述符之间的相似性来引导,因此SGE模块的设计非常轻量级,几乎没有额外的参数和计算。的方法,生成了加权后的特征图,其中H*W为特征图的像素点个数,由avg_pool操作保证输出特征图形状一致。

2023-05-08 09:55:31 5037

原创 车道线检测

目前,车道线检测技术已经相当成熟,主要应用在自动驾驶、智能交通等领域。下面列举一些当下最流行的车道线检测方法:基于图像处理的车道线检测方法。该方法是通过图像处理技术从摄像头传回的图像中提取车道线信息的一种方法,主要是利用图像处理算法进行车道线的检测和识别,并输出车道线的位置信息。基于激光雷达的车道线检测方法。该方法通过激光雷达扫描地面,获取车道线位置信息。这种方法对于在光照较弱、天气恶劣的情况下车道线能更加准确地被检测出来。基于雷达与摄像头的融合车道线检测方法。

2023-04-25 17:14:50 7121 2

原创 Segment Anything Model代码讲解(五)之Transformer

TwoWayAttentionBlock类:定义了Transformer中的基本块,包括自注意力、点对图像的注意力、MLP层和图像对点的注意力。其中,点对图像的注意力和图像对点的注意力的区别在于queries和keys的不同。输入是点的embedding和图像的embedding,输出是处理后的点的embedding和处理后的图像的embedding。输入是图像的embedding、图像的位置编码和点的embedding,输出是处理后的点的embedding和处理后的图像的embedding。

2023-04-20 16:00:48 1661

原创 Segment Anything Model代码讲解(四)之prompt_encoder

【代码】Segment Anything Model代码讲解(四)之prompt_encoder。

2023-04-20 15:33:34 1984

原创 Segment Anything Model代码讲解(三)之mask_decoder

MaskDecoder类是掩码预测模型的主体,它接收图像特征、点和框的嵌入以及掩码嵌入作为输入,通过Transformer将它们编码为掩码的表示形式。同时,它还有一些后续处理的步骤,如通过超网络预测每个掩码的质量,以及通过卷积转置层将掩码上采样到原图尺寸。它输入每个掩码的表示形式,并输出一个长度等于掩码数量加一的向量,其中第一个元素是无用的预测(即掩码为零的情况)。接着,这个向量将作为加权掩码特征,用于计算掩码的质量分数。它使用掩码的表示作为输入,然后输出每个掩码的质量分数。

2023-04-20 15:19:53 2502

原创 注意力机制之MUSE Attention

在顺序学习中,自我注意机制被证明是非常有效的,并在许多任务中取得了显著的改善。虽然自注意可以模拟极长的依赖关系,但深层的注意力往往过于集中在单一的表征上,导致对局部信息的充分利用,并难以表征长序列。在序列到序列学习中,如何同时捕捉输入序列的全局和局部上下文信息,并且在保证性能的前提下,减少计算量和内存消耗。作者提出了一种新颖的并行多尺度注意力机制,通过不同的尺度来捕捉输入的局部和全局上下文信息。这种机制是通过对输入的不同子序列应用不同的卷积核来实现的,每个卷积核对应一个特定的上下文尺度。

2023-04-17 22:31:45 1547

原创 学习机器人SLAM导航核心技术(二)之ROS

ROS是适用于机器人的开源元操作系统ROS集成了大量的工具,库,协议,提供类似OS所提供的功能,简化对机器人的控制提供用于在多台计算机上获取,构建,编写和运行代码的工具和库,ROS在某些方面类似于“机器人框架”ROS设计者将ROS表述为“ROS = Plumbing + Tools + Capabilities +Ecosystem”,即ROS是通讯机制、工具软件包、机器人高层技能以及机器人生态系统的集合体。

2023-04-16 21:56:07 2069

原创 Segment Anything Model代码讲解(二)之image_encoder

在transformer的结构中,编码是非常重要的部分。接下来看image_encoder的代码部分目录。

2023-04-15 16:07:44 2564 3

原创 Segment Anything Model代码讲解(一)之SAM

​​。

2023-04-15 14:56:08 4986 1

原创 注意力机制之Efficient Multi-Head Self-Attention

它的主要输入是查询、键和值,其中每个输入都是一个三维张量(batch_size,sequence_length,hidden_size),其中hidden_size是嵌入维度。(2)每个head只有q,k,v的部分信息,如果q,k,v的维度太小,那么就会导致获取不到连续的信息,从而导致性能损失。这篇文章给出的思路也非常简单,在SA中,在FC之前,用了一个卷积来降低了空间的维度,从而得到空间维度上更小的K和V。在此文件的示例中,EMSA模块的内部参数已经初始化,可以将数据传递给模块实例,并检查输出形状。

2023-04-13 16:40:32 2576

原创 学习机器人SLAM导航核心技术(一)

基于SLAM的机器人

2023-04-13 11:18:53 1621

原创 Segment Anything Model

【代码】Segment Anything Model。

2023-04-10 21:52:27 3026 3

原创 C++进阶(二)

默认构造函数(Default Constructor) 如果我们没有定义构造函数,编译器会自动生成一个默认构造函数,它没有参数,也不进行任何操作。拷贝构造函数(Copy Constructor) 如果我们没有定义一个拷贝构造函数,编译器会自动生成一个默认的拷贝构造函数,用于将一个对象的值复制到另一个对象。它会逐一复制对象的每一个成员变量。

2023-04-09 15:44:27 88

原创 注意力机制之DANet Attention

注意力机制

2023-04-03 15:34:53 1158

原创 注意力机制之Convolutional Block Attention Module

注意力机制

2023-03-31 13:59:02 318

原创 计算机系统基础(六)之RISC-V流水线设计——用ChatGPT辅助学习

RISC-V流水线设计

2023-03-26 11:38:48 3514

原创 注意力机制之ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks

注意力机制

2023-03-26 11:05:14 2514 2

原创 注意力机制之SK Attention

注意力机制

2023-03-22 23:41:55 6564

原创 注意力机制之Squeeze-and-Excitation Attention

注意力机制

2023-03-22 17:28:18 1087

原创 注意力机制之Self Attention

注意力机制

2023-03-18 20:17:48 1043

原创 注意力机制之External Attention

注意力机制

2023-03-18 11:49:46 1951 1

原创 C++相关学习资料

C++

2023-03-17 08:11:31 621

原创 自学C++进阶

C++

2023-03-15 21:12:58 187

原创 计算机存储器知识点

计算机存储器

2023-03-11 17:20:08 864

原创 计算机基础知识点简要(一)

CPU的知识点简要

2023-03-10 07:48:40 950

原创 自学C++基础

C++基础

2023-03-10 02:02:06 330

原创 深度学习之图卷积原理以及公式的理解

图卷积网络原理以及公式理解

2022-11-22 14:48:32 694

LaneNet+H-Net

LaneNet+H-Net车道线检测的代码

2023-04-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除