
LLM语言模型学习笔记
文章平均质量分 88
全面介绍LLM相关知识
优惠券已抵扣
余额抵扣
还需支付
¥119.90
¥299.90
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
空间机器人
不会的东西越来越多,我该怎么办。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
从零开始构建大语言模型(LLM)全解析(五)
✅防未来信息泄露✅输入输出强交互✅结构清晰,支持并行:每个 token 互不影响,可批处理训练。✅长文本处理能力强:自注意力能直接跳跃远距离依赖。✅输出控制自由:可以自定义起始 token,灵活生成。如果你想掌握 Transformer 解码器,强烈建议你亲自实现一个小型版本,用 PyTorch 或 TensorFlow 手撸一遍。只有“写”过,才真的“懂”。原创 2025-04-06 08:33:55 · 20 阅读 · 0 评论 -
从零开始构建大语言模型(LLM)全解析(四)
自注意力机制让模型能够灵活地捕捉输入序列中的各个部分之间的关系,而不依赖于顺序信息。前馈网络进一步优化了自注意力机制输出的表示,使模型能更好地处理复杂的上下文信息。并行计算提高了效率,大大加速了训练和推理过程。全局上下文让模型能够捕捉更长程的依赖关系,比传统模型更为强大。通过这种机制,Transformer 成为了自然语言处理领域中不可或缺的工具,并且在多项任务中都取得了突破性的成绩。想要进一步学习 Transformer 的细节,记得多实践,理解每一层的作用,掌握其中的微妙之处。原创 2025-04-05 10:36:00 · 31 阅读 · 0 评论 -
从零开始构建大语言模型(LLM)全解析(三)
仅编码器架构🧠 适合任务如文本分类(例如 BERT)。仅解码器架构🔮 适合任务如文本生成(例如 GPT)。编码器-解码器架构🔄 适合任务如机器翻译(例如 T5)。每种架构在不同的任务中都有着独特的优势和应用场景,选择合适的架构能大大提升模型的表现。原创 2025-04-05 10:35:49 · 29 阅读 · 0 评论 -
从零开始构建大语言模型(LLM)全解析(二)
今天我们要跳进自然语言处理(NLP)的最酷领域——原创 2025-04-04 22:25:01 · 34 阅读 · 0 评论 -
Transformers:深度解读LLM如何运作 | DL5视觉化解析(二)
将三个数字的列表可视化为三维空间中的坐标点是没有问题的,但词嵌入通常是高维的,维度远远高于此。🎯 比如,假设我们有“国王”和“皇后”这两个单词,在嵌入空间中,它们的向量差异可能代表了性别这个方向。🧮 如果我们计算“猫”的嵌入向量与“猫”的复数形式的点积,会发现复数形式的点积值要大得多。假设我们通过从“国王”中减去“男人”的向量,然后加上“女人”的向量,得到的方向可能就代表了“女性君主”的特征。这个矩阵中包含了每个词的嵌入信息,但这些词向量不仅仅是单一的词,它们还可以吸收上下文信息。是输入的上下文向量。原创 2025-04-04 22:05:14 · 19 阅读 · 0 评论 -
Transformers:深度解读LLM如何运作 | DL5视觉化解析(一)
随着计算能力的提升,变换器模型已成为当前自然语言处理领域的主流架构之一。未来,随着更复杂的变换器变种的出现,可能会进一步改变我们与机器交互的方式!🚀希望这篇文章能够帮助你深入理解变换器的基本原理和应用,此外,记得尝试在代码中进行一些小小的修改,看看它如何影响输出结果!💻自注意力机制公式。原创 2025-04-04 22:04:58 · 23 阅读 · 0 评论 -
什么是视觉-语言模型(VLMs)
视觉-语言模型(VLMs)是结合图像和文本的AI模型,它们不仅可以理解图片中的内容,还能根据文本描述图像,或者反过来根据图像生成文本。想象一下,这些模型就像是图像和文字的双语翻译官,能够在这两种“语言”之间来回转换。视觉-语言模型正在逐步改变我们与AI互动的方式,给我们带来更加智能、富有创意的应用。从内容生成到自动驾驶,VLMs的潜力几乎无处不在。随着技术不断进步,我们未来的世界将更加智能、便捷!VLMs的关键技术符号🌐 跨模态学习:图像和文字之间的深度学习联系。🧠 对比学习:让图像和文字相互理解。原创 2025-04-04 10:50:24 · 33 阅读 · 0 评论 -
使用 YOLOv8 进行实时物体检测和图像分割(一)更快的 R-CNN
在物体检测的世界里,算法的选择并非一成不变的。随着 YOLOv8 等新一代算法的出现,物体检测技术在精度和速度之间找到了更好的平衡。每种算法都有其独特的优势和适用场景,理解它们的优缺点对于实际应用至关重要。无论是需要高精度的静态图像处理,还是需要高速实时检测的动态场景,选择合适的物体检测算法能够帮助我们实现更精准、更高效的计算机视觉系统。通过不断的实践与优化,我们将能够在各种复杂的环境中实现更加智能的物体检测,推动计算机视觉技术的发展。目录介绍更快的 R-CNN单次多盒检测器(SSD)原创 2024-11-10 13:39:25 · 1609 阅读 · 0 评论 -
探寻红点的秘密:用CNN+RNN实现精准位置检测
使用预训练的ResNet50作为CNN特征提取器self.cnn.fc = nn.Identity() # 去除ResNet的最后全连接层# RNN 部分(使用LSTM)# 线性回归头,输出x和y坐标# 1. 通过CNN提取图像特征img = x[:, t, :, :, :] # 选择当前时间步的图像cnn_out = self.cnn(img) # 通过CNN提取特征cnn_features.append(cnn_out.unsqueeze(1)) # 将其加入到列表中。原创 2024-12-16 09:32:02 · 903 阅读 · 0 评论 -
车载SerDes芯片的重要性:自动驾驶与智能座舱的神经网络
目前车载SerDes主要分为。原创 2025-03-08 10:37:47 · 355 阅读 · 0 评论 -
为什么深度神经网络难以训练
深度神经网络的训练难点主要来自梯度消失/爆炸、过拟合、非凸优化问题、计算资源的需求、权重初始化和激活函数选择等方面。为了应对这些挑战,研究者提出了多种方法,例如使用ReLU等激活函数、批量归一化、残差网络(ResNet)、更好的权重初始化、使用正则化技术(如Dropout)等。这些改进帮助缓解了一部分问题,但随着网络的规模不断增大,训练依然是一个复杂且需要精心设计的过程。原创 2024-09-08 13:17:01 · 895 阅读 · 0 评论 -
2.1深度学习——从线性回归到深度神经网络的演变
虽然神经网络的基本结构受生物神经元的启发,但随着深度学习的发展,人工神经网络的设计和实现已经大大超越了生物神经元的模型。这种分层的结构使得神经网络能够处理更复杂的任务。通过多层的非线性变换,深度神经网络能够学习到输入数据的高层次特征,这使得它在处理复杂任务时具有巨大的优势。在最基本的神经网络模型中,输入层与输出层之间的连接非常简单,输入数据通过权重进行加权和求和,最后输出结果。现代深度学习中的神经网络通常包含多个层,每一层都能够提取输入数据中的不同特征,而这些层的组合使得神经网络能够处理更复杂的任务。原创 2024-11-30 10:27:04 · 1016 阅读 · 0 评论 -
深度学习——神经网络架构发展现状与技术瓶颈
尽管当前神经网络架构在许多领域取得了巨大成功,但仍然面临不少挑战。在计算资源消耗、训练效率、泛化能力等方面的瓶颈依然存在。通过模型压缩、量化、知识蒸馏等手段,减少模型的计算量和存储需求,提升深度学习模型在边缘设备上的应用。加强多模态数据的融合处理能力,推动跨领域迁移学习,使得模型在不同任务和不同数据集之间具有更好的泛化能力。自监督学习和无监督学习将成为深度学习的重要方向,通过充分利用未标注数据进行模型训练,进一步减少对大量标注数据的依赖。原创 2024-11-23 20:00:29 · 819 阅读 · 0 评论 -
7000字让你彻底弄明白深度神经网络架构:10种关键类型(FNN&RecNN&RBF&MLP&RNN&CNN)怎么用
FNN像一个超级智能的信息快递员,把信息从输入到输出传递,并且不断学习如何做得更好。它的应用涵盖了从图像到声音,从情感到游戏预测,甚至在自动驾驶中都能发挥巨大的作用。原创 2025-02-01 17:42:35 · 764 阅读 · 0 评论 -
深度学习——优化探索:用PyTorch打破完全连接神经网络的训练瓶颈
本章详细介绍了完全连接神经网络的基础知识,包括训练循环、损失函数的选择、网络实现和批量训练的优化。随着深度学习的普及,越来越多的工程师和研究人员开始面对如何高效地训练和优化这些模型的问题。虽然当前的技术仍然面临很多瓶颈,但随着研究的深入,我们有理由相信,未来会有更多创新性的技术出现,帮助我们解决这些问题。建议:在实际项目中,设计和训练神经网络时,除了基础的模型架构外,调优训练过程、优化算法和硬件资源的利用,都是提升效率和效果的关键。原创 2024-11-23 10:09:02 · 1019 阅读 · 0 评论 -
工程师必读一次性讲明白系列(十八)EMC和ESD原理图和整改方案讲解
你可能会在干燥的天气里,走到金属门把手旁,一不小心触碰就会“啪”一下,这就是。通过这些“魔法武器”,我们可以让电子设备不受干扰、稳定运行,确保它们在现代生活中为我们提供更好的服务!电磁兼容性不仅保护设备免受外部干扰,还能防止设备本身产生干扰,影响到周围其他设备的正常工作。这些超级英雄们会一直守护着我们的设备,确保它们不受静电和电磁波的困扰,保持稳定和高效运行!你可以把它想象成电子设备的“战斗能力”,它需要在一个充满电磁波的环境中,EMC 整改就像是给设备“加厚铠甲”,让它能抵抗外界的干扰,甚至自我保护!原创 2025-03-31 08:21:14 · 154 阅读 · 0 评论 -
比喻的方法介绍卷积神经网络(CNN)和循环神经网络(RNN)
CNN擅长处理具有固定网格结构的数据,能够提取局部特征,适用于图像处理任务。RNN擅长处理序列数据,能够记住序列中的上下文信息,适用于时间序列和语言处理任务。这两种网络结构各有优势,常常根据任务需求选择合适的网络类型,有时还会结合使用。可以用比喻来帮助理解CNN和RNN的区别。CNN(筛选器):就像通过不同的筛网提取配料,CNN通过卷积层从数据中提取局部特征,适合处理具有固定网格结构的数据,如图像。RNN(接龙游戏)原创 2024-09-08 17:38:35 · 706 阅读 · 0 评论 -
一次性讲明白卷积的难懂的概念以及与深度学习结合的案例
想象你在看一幅画,而你需要从中提取出某些特定的信息,比如颜色或形状。卷积就像是你用放大镜仔细观察画的某一部分,通过观察,你可以提取出画中更细微的特征,比如细节和轮廓。原创 2024-08-04 20:19:11 · 530 阅读 · 0 评论 -
用番茄炒鸡蛋的例子讲卷积
深度学习是一种通过学习数据表示来解决复杂任务的机器学习方法,近年来在各个领域都取得了显著的成果。卷积神经网络(Convolutional Neural Networks, CNNs)作为深度学习的重要分支,特别擅长处理图像、语音和文本等数据。本文将详细介绍卷积神经网络的核心技术——卷积操作,以及它在深度学习中的重要性和应用。在我们的日常生活中,图像处理和语音识别等任务随处可见,而卷积神经络正是解决这些问题的利器。原创 2024-06-19 23:28:12 · 917 阅读 · 0 评论 -
2.4深度学习——独热编码的使用&软max回归
在软max回归(Softmax Regression)中,我们要处理的是分类问题。在此问题中,每个输入(例如图像)对应一个标签,而标签通常使用(One-Hot Encoding)进行表示,确保每个类别都有明确的标识,并且类别间没有大小关系。原创 2025-02-25 21:43:55 · 471 阅读 · 0 评论 -
2.4深度学习—— 全连接层的参数开销&Softmax 操作
在 Softmax 回归模型中,我们首先需要一个有多个输出的神经网络,每个输出对应一个类别。为了实现这个分类任务,Softmax 回归采用了仿射函数来进行计算,即每个类别的输出是通过与输入特征进行加权求和并加上偏置得出的。Softmax 回归中每个类别的输出依赖于所有输入特征的加权求和,因此它是一个全连接层。在实际应用中,全连接层可能会涉及大量的参数。如果输入特征数为 ( d ),输出类别数为 ( q ),那么全连接层的参数开销是 ( O(dq) )。在深度学习中,通常通过调整超参数 ( n ) 来平衡计算原创 2025-03-03 08:48:29 · 47 阅读 · 0 评论 -
2.4深度学习—— 小批量样本的矢量化&损失函数
唯一的区别是,我们现在用一个概率向量表示,如(0.1, 0.2, 0.7),而不是仅包含二元项的向量(0, 0, 1)。因此,如果正确地预测实际标签,即,如果实际标签 P(y | x) = 1,则损失函数不能进一步最小化。假设我们读取了一个批量的样本 X,其中特征维度(输入数量)为 d,批量大小为 n。换句话说,导数是我们模型分配的概率(由softmax得到)与实际发生的情况(由独热标签向量表示)之间的差异。这不是巧合,在任何指数族分布(参见关于分布的在线附录45)模型中,对数似然的梯度正是由这给出的。原创 2025-03-22 10:10:17 · 27 阅读 · 0 评论 -
YOLO11深度学习目标检测原理与实践
YOLO11是当前最先进的目标检测算法之一,凭借其高效、精准的特点,在多个领域得到了广泛应用。从原理到实践,YOLO11通过回归问题、Anchor框优化以及深度网络结构的改进,使得目标检测的精度和速度得到了显著提升。通过本文的学习,你应该对YOLO11有了更深入的理解,并能够在实际项目中应用YOLO11进行目标检测。原创 2025-03-15 22:06:57 · 119 阅读 · 0 评论 -
深入学习——梯度下降优化算法—挑战、瓶颈与未来发展
我们将定义一个简单的线性回归模型,这个模型将输入数据和权重矩阵相乘后,输出一个预测值。self.linear = nn.Linear(1, 1) # 输入特征维度为1,输出也为1在训练过程中,我们使用均方误差(MSE)作为损失函数,并使用梯度下降优化器来更新模型的权重。# 初始化模型、损失函数和优化器。原创 2025-03-28 09:56:47 · 42 阅读 · 0 评论 -
深入学习——深入解析:PyTorch模型训练的过程与技术挑战
PyTorch的训练流程基于损失函数优化、梯度下降和自动微分,形成了一个相对成熟的训练框架。然而,面对现代神经网络模型日益增加的复杂性,依然存在计算资源瓶颈、梯度问题和优化难度等挑战。为了进一步提高模型训练的效率和稳定性,我们需要借助分布式训练、优化算法的多样化、正则化技术等手段进行优化。未来,随着硬件加速、算法改进和理论发展,我们可以期待在训练速度、模型精度和泛化能力等方面取得更大突破。NAS有潜力带来更高效、更优的网络架构。原创 2025-03-22 10:14:37 · 55 阅读 · 0 评论 -
从零开始构建大语言模型(LLM)全解析(一)
如果你在一年前搜索这个话题,可能会看到的是一些晦涩难懂的前沿研究,而如今,大语言模型已经成为科技行业最炙手可热的技术之一。如果你的数据质量不高,那无论模型多强大,最终的效果都会很差。收集数据只是第一步,数据清理才是真正的关键。数据是 LLM 的“燃料”,那么这些数据从哪里来?(Filtering):去掉低质量、错误或有偏见的数据。(Formatting):确保所有数据符合模型输入格式。在讨论技术之前,我们先来看看训练 LLM 需要的。,这句话在 LLM 训练中尤为真实。即便我们不从零训练 LLM,了解其。原创 2025-03-14 08:43:26 · 748 阅读 · 0 评论 -
训练图像分类模型:从零开始
在这里,我们将学习如何从头开始训练一个图像分类模型,使用**卷积神经网络(CNN)**对图像进行分类。在这一步,我们将加载常见的CIFAR-10数据集,并对图像进行必要的预处理,如调整大小、标准化和转换为Tensor格式。通过上述步骤,你可以训练并评估一个简单的图像分类模型,并在各种数据集上进行测试与优化!我们将构建一个简单的卷积神经网络(CNN),用于对图像进行分类。这些库将帮助我们处理图像数据、构建神经网络以及进行训练。现在,我们将设置损失函数和优化器,并开始训练模型。原创 2025-03-15 22:06:03 · 53 阅读 · 0 评论 -
深入探究LLM:如何通过自注意力和Transformer架构实现自然语言理解与生成
LLM不仅能从海量文本中提取精华,还能够分析文本的情感倾向,帮助我们更好地理解数据背后的信息。📈。原创 2025-03-12 07:33:48 · 38 阅读 · 0 评论 -
向未来驶进:LLM(大语言模型)在新技术中的应用
大语言模型通过深度学习技术,尤其是基于Transformer架构的模型,在大量文本数据上进行训练。这些模型通过对大量语言数据进行建模,学习语言的结构、上下文和语法规律,从而能够生成高质量的文本。它们的核心在于“自注意力机制”(Self-Attention),该机制可以在处理输入时捕捉长距离的依赖关系,从而生成更为准确的语言输出。原创 2025-03-11 07:31:30 · 66 阅读 · 0 评论 -
LLM Agent:迈向智能自动化的全新步伐
从一个简单的语言模型到具备自主决策和执行能力的智能代理,原创 2025-03-10 09:51:29 · 22 阅读 · 0 评论 -
大型语言模型(LLM)压缩技术:如何让庞然大物更轻巧?
尽管小模型的规模和参数较少,但它通过学习大模型的输出和行为,能够在较低的计算成本下保持较高的精度。这样一来,模型的存储和计算量都能得到显著减少,特别是在硬件资源有限的环境中,量化可以大幅提高模型的运行效率。这种方法最为简单,但可能导致网络的稀疏性问题,进一步影响硬件的计算效率。让 AI 更加普及,同时也在为未来的人工智能设备打下基础,无论是在个人设备、物联网,还是智能汽车中,压缩后的高效模型都将是不可或缺的核心。这就需要我们运用一系列的技术来“压缩”这些模型,使其在保持精度的同时,能够适应不同的硬件设备。原创 2025-02-03 10:58:23 · 275 阅读 · 0 评论 -
手把手教你如何利用PEFT技术,微调一个AI大模型
PEFT(Parameter-Efficient Fine-Tuning)是一种微调大型预训练模型的方法,通过只调整一小部分参数(通常是模型的最后几层或者插入的特定层)来实现模型在特定任务上的优化。高效性:只需调整模型的一部分参数,计算资源需求大大降低。灵活性:可以在不同任务之间快速切换,适应性强。节省内存和存储:调整的参数少,节省了存储空间。减少过拟合:只微调部分参数,可以减少在小数据集上过拟合的风险。根据任务的需求和模型的架构,选择合适的微调策略。原创 2024-06-15 22:50:49 · 1064 阅读 · 0 评论 -
零基础如何学习AI大模型:从科学家的角度深入探讨
在当今科技飞速发展的时代,人工智能(AI)已经成为各个领域的关键技术,其应用不仅涵盖了工业制造、金融服务、医疗健康等传统行业,还在语音识别、自然语言处理、计算机视觉等前沿领域展现出了巨大潜力。AI大模型,尤其是像GPT-3这样的语言模型,通过其强大的语义理解和生成能力,引领了自然语言处理领域的最新发展。对于具备科学家水平的学习者来说,掌握AI大模型不仅是一项技术挑战,更是理解人工智能核心算法和应用的重要途径。原创 2024-06-16 14:17:11 · 934 阅读 · 0 评论 -
AI大模型在整车智能化架构中的关键应用与创新示例
提供强大的芯片和传感器,使汽车能够高效处理数据和感知环境;通过SOA架构和车载操作系统,协调管理汽车的各种电子系统;则通过自动驾驶和智能座舱技术,提升驾驶的安全性和舒适性;利用云平台和数据闭环,不断优化和改进汽车的性能。综合这些技术,使得汽车变得更智能、安全和舒适。我们接下来详细的讲解分析,有不足之处请宝子们指出。原创 2024-08-16 17:27:56 · 819 阅读 · 0 评论 -
2.2深度学习——初始化模型参数
接下来,我们需要定义一个线性回归模型。线性回归的核心是通过输入特征X和权重w的矩阵乘法,再加上偏置b来计算输出。根据线性回归的公式:其中,X是特征矩阵,w是权重向量,b是偏置。def linreg(X, w, b): # 线性回归模型"""线性回归模型"""在训练过程中,我们需要定义损失函数,以度量模型的预测值与真实值之间的差距。对于线性回归,通常使用均方误差(MSE)作为损失函数,公式为:其中,y_hat是模型的预测值,y是实际的目标值。原创 2024-11-28 09:11:05 · 851 阅读 · 0 评论 -
最大模型参数量,存储带宽,时间每token的计算关系解析
存储带宽决定了数据搬运的速度,从而影响推理计算的上限。实际应用中,计算时间、其他系统开销和带宽共享都会影响最终的处理速度。选择平台时需要综合考虑存储带宽、计算能力和实际应用需求。原创 2024-08-20 20:24:27 · 1131 阅读 · 0 评论 -
人工智能与大模型在自动驾驶中的应用学习笔记
人工智能是指计算机系统通过模拟人类智能的行为,来执行通常需要人类认知能力的任务。在自动驾驶中,AI 的任务包括识别周围环境、理解交通规则、规划行驶路径等。例如,特斯拉的自动驾驶系统使用AI来实时分析周围的交通情况,决定车辆的行驶方向和速度。比喻案例:可以将人工智能比作一名新手司机。在刚开始时,他需要依靠教练(数据)来学习如何安全驾驶,逐渐掌握驾驶技巧。随着时间的推移和实践经验的积累,这位司机能够独立驾驶,做出快速且准确的决策。大模型是指具有大量参数的深度学习模型,如 GPT-3 和 BERT。原创 2024-08-10 20:01:04 · 1070 阅读 · 0 评论 -
AI大模型在智能座舱和域控制器上的应用及无人驾驶应用案例
通过以上的示例代码和应用场景,我们可以看到AI大模型在无人驾驶和域控制器中的广泛应用。AI大模型不仅可以提高无人驾驶系统的安全性和智能化,还能在域控制器中实现多系统的协同控制和优化,提高车辆的整体性能和用户体验。这些示例代码展示了AI大模型如何在实时数据处理、复杂场景感知、智能决策和自动控制等方面发挥作用。通过不断的发展和优化,AI大模型将在未来的汽车技术中扮演越来越重要的角色。原创 2024-06-17 23:59:25 · 2626 阅读 · 0 评论 -
大型语言模型的革新:用人工智能重塑文本生成
总体而言,LLMs的未来充满潜力,它们将继续推动人工智能和社会发展的边界,为我们的生活带来更大的变化。无论是在文学创作、新闻报道,还是在教育、法律、金融等领域的应用中,LLMs都展现了巨大的潜力,能够高效地处理并生成复杂的文本内容。LLMs是人工智能巨大潜力的见证,通过从庞大的数据集中学习,它们能够“说”人类的语言,不仅推动了文本生成的边界,也为各行各业带来了创新的动力。未来,随着技术的进步和道德框架的完善,我们有理由相信,LLMs将在推动社会发展的同时,也能为人类带来更加智能、高效和可持续的未来。原创 2025-01-02 08:18:07 · 734 阅读 · 0 评论 -
用比喻的方法介绍人工智能(AI)模型优化
人工智能模型优化是一项重要的技术,能够通过减少模型的计算复杂度、提升推理速度和降低内存需求,帮助AI技术更好地融入到各种实际应用场景中。这对于移动设备、实时系统以及大规模部署环境尤为重要。通过比喻来讲解模型优化可以让复杂的概念更加直观易懂。使用这些比喻可以帮助更好地理解模型优化的概念。优化AI模型就像是精简行李、学习新技能、挑选家居、升级设备、调整配方和控制训练强度。每一个步骤都是为了让最终的模型在现实应用中更有效、更高效。原创 2024-09-08 14:15:36 · 1276 阅读 · 0 评论