
大模型
文章平均质量分 79
肆十二
那些没有把我击倒的,只会让我更强大。
展开
-
LLM入门课#05 人类反馈强化学习是啥
其中agent是你的llm模型,环境来自于用户指定的任务,状态则是当前的上下文,动作则是通过token的池子给出一个合理的输出,reward则是用来判断模型当前的输出是否和用户希望的输出是一致的,是有毒的还是无毒的。这对吗,这明显是不对的,机器人应该和谐地融入到我们的社会中才可以。在医学病理图像生成的任务中, 我们也可以通过奖励模型来定义什么模型是一个好的模型,而什么模型是一个不好的模型,通过这个方式,也可以让我们的模型生成一个更好的病理图像报告的内容,实在是太棒了!可以说是强化学习的魅力时刻了。原创 2025-03-23 19:26:36 · 192 阅读 · 0 评论 -
LLM入门课#04-大模型的微调技术
大家经常会听到大模型这个概念,实际上这些通用大模型的训练非常依赖硬件的资源情况,你可能听过某某公司又买了几百张卡用于模型训练,某公司又构建了一个多大的数据中心,这些对于我们普通人来说是非常不容易的。下面有一张图用来展示一个模型构建过程中所占用的资源情况,除了模型本身的参数之外,还有梯度、优化器的状态等其他的需要占用到资源的情况。所以,微调是一个非常关键的技术,通过少量的资源在你的特定任务上进行训练。原创 2025-03-14 15:33:51 · 845 阅读 · 0 评论 -
LLM入门课#03-指令微调和模型评估
提示词工程可以在不使用额外训练的基础上优化模型,之后可以使用lora、PEFT等模型来完成微调。动机:使用提示词来完成模型的推理将会让你的案例占用大量的提示词的空间,这样对于推理是不优化的,或者对于用户而言是不友好的,但是如果可以直接通过微调的方式从模型端增强模型的性能,将不会占用大量宝贵的提示词的空间。通过指令微调的方式来完成模型的微调,微调的形式是提供一个提示词,然后给定输入和输出的内容,如下所示。如果让模型全部的权重参数来进行训练,需要对耗费很大的资源。原创 2025-03-13 15:56:06 · 283 阅读 · 0 评论 -
LLM入门课#02
我们对大模型的基础知识进行了了解之后,了解到大模型是通过预测下一个词的形式来完成模型的训练的过程。并且根据这些内容衍生出了encoder-only、encoder-decoder以及decoder-only的模型,其中gpt是典型的decoder-only的模型。并且可以得出我们的输入将会影响到我们的输出,所以prompt是重要的,上下文是重要的。原创 2025-03-10 23:47:24 · 293 阅读 · 0 评论 -
LLM入门课程#01
这个向量大概是可以衡量单词特征的,比如绿茶和红茶的相似度就会高一些,但是对于绿茶和可乐的相似度就会小一些,通过这种词向量的方式可以把他们映射在一个空间中,你会发现相似的单词总是在一起的。对于一个翻译的任务来说,有点像是通过递归的形式来进行生成的。机器学习的模型是一个大型的统计计算器,处理的是数字,不是单词,所以要做的事情是将单词以数字的形式来进行表示,也就是分词。除此之外,为了不丧失单词的顺序,这个时候还会在网络中添加绝对位置编码,绝对位置的编码将会和单词的编码结合在一起,一起作为下面自注意力层的输入。原创 2025-03-09 22:15:11 · 386 阅读 · 0 评论 -
大模型学习路线(小白篇)
学习大模型(如GPT、BERT等深度学习模型)是一个系统且渐进的过程,需要具备一定的基础知识。以下是一个大模型学习的推荐路线,分为多个阶段。原创 2024-12-24 14:31:48 · 886 阅读 · 0 评论 -
简单聊一聊大模型微调技术-LoRA
LoRA(Low-Rank Adaptation)模型是一种用于减少深度学习模型训练中参数数量和计算资源消耗的技术。它最早是在多头注意力机制中提出的,尤其是用于大模型的微调(fine-tuning)。LoRA 的主要思想是通过引入低秩分解(low-rank decomposition),用少量参数来逼近和微调模型,从而避免直接调整整个大模型的权重。原创 2024-09-04 20:54:09 · 1321 阅读 · 0 评论 -
深入浅出视觉分割大模型SAM(原理解析+代码实践)
大家好,这里是肆十二,近两年来大模型的成果在一些领域的应用已经深入人心,由于我本人主要感兴趣的方向为计算机视觉,所以今天我们来一起看下计算机视觉领域中这个非常精彩的大模型-SAM。我在B站也同步更新了对应的讲解视频,感兴趣的小伙伴也可以按照视频来进行操作。原创 2024-09-03 16:44:58 · 19551 阅读 · 9 评论