小言从不摸鱼-优快云博客

原创【机器学习】深入探索SVM概念及其核方法

直观上看，为了得到泛化性更好的分类器，分类平面应该应该不偏向于任何一类，并且距离两个样本都尽可能远，这种以最大化分类间隔为目标的线性分类器就是支持向量机。对于二维空间，它是一条线，对于三维空间，它是一个平面，对于更高维空间，它是超平面。硬间隔指的是让所有的样本都不在最大间隔之间，并位于正确的一边，这就是硬间隔。在软间隔的情况，我们即要考虑最大化间隔，也要考虑到那些限制间隔违例的样本带来的损失。违反限制间隔的样本点带来的损失就越大，就要减少这些样本的数量，所以间隔就要越小。

2025-02-07 12:22:09 2408 105

原创【机器学习】深入探索SVM：支持向量机的原理与应用

看一个故事，故事是这样子的：在很久以前的情人节，一位大侠要去救他的爱人，但魔鬼需要大侠先攻克他设置的防线，于是和他玩了一个游戏game。魔鬼在桌子上似乎有规律放了两种颜色的球，说：“你用一根棍分开它们？要求：尽量在放更多球之后，仍然适用。于是大侠这样放，干的不错？然后魔鬼，又在桌上放了更多的球，似乎有一个球站错了阵营。大侠苦思冥想似乎记得学过SVM技术，于是就采用SVM试试。这里的SVM就试图把棍放在最佳位置，好让在棍的两边有尽可能大的间隙。现在即使魔鬼放了更多的球，棍仍然是一个好的分界线。

2025-01-26 21:56:36 3024 111

原创【AI大模型】BERT GPT ELMo模型的对比

BERT: * 优点: * BERT使用了双向Transformer提取特征, 使得模型能力大幅提升. * 添加了两个预训练任务, MLM + NSP的多任务方式进行模型预训练. * 缺点: * 模型过于庞大, 参数量太多, 需要的数据和算力要求过高, 训练好的模型应用场景要求高. * 更适合用于语言嵌入表达, 语言理解方面的任务, 不适合用于生成式的任务.

2025-01-13 21:07:04 1918 31

原创【NLP自然语言处理】Transformer模型的几大核心优势与应用前景

Decoder模块在训练阶段采用了并行化处理. 其中Self-Attention和Encoder-Decoder Attention两个子层的并行化也是在进行矩阵乘法, 和Encoder的理解是一致的. 在进行Embedding和Feed Forward的处理时, 因为各个token之间没有依赖关系, 所以也是可以完全并行化处理的, 这里和Encoder的理解也是一致的.上图最底层绿色的部分, 整个序列所有的token可以并行的进行Embedding操作, 这一层的处理是没有依赖关系的.

2025-01-02 16:44:46 3275 143

原创【AI大模型】探索GPT模型的奥秘：引领自然语言处理的新纪元

GPT是OpenAI公司提出的一种语言预训练模型.OpenAI在论文中提出GPT模型.OpenAI后续又在论文中提出GPT2模型.GPT和GPT2模型结构差别不大, 但是GPT2采用了更大的数据集进行训练.OpenAI GPT模型是在Google BERT模型之前提出的, 与BERT最大的区别在于GPT采用了传统的语言模型方法进行预训练, 即使用单词的上文来预测单词, 而BERT是采用了双向上下文的信息共同来预测单词.

2024-12-26 12:51:51 6577 126

原创【AI大模型】深入GPT-2模型细节：揭秘其卓越性能的秘密

transformer模块的堆叠: * 最底层的transformer模块处理单词的步骤: * 首先通过自注意力层处理, 接着将其传递给前馈全连接层, 这其中包含残差连接和Layer Norm等子层操作. * 最底层的transformer模块处理结束后, 会将结果张量传递给第二层的transformer模块, 继续进行计算. * 每一个transformer模块的处理方式都是一样的, 不断的重复相同的模式, 但是每个模块都会维护自己的self-attention层和Feed Forward层的权重值.

2024-12-17 15:09:51 5697 147

原创【NLP自然语言处理】TextRank揭秘：文本摘要与关键词提取的强大算法

对比于衡量网页重要性的PageRank算法, TextRank算法用于衡量哪些单词是关键词, 类比之下的算法思想也就很好理解了:如果一个单词出现在很多单词的后面, 就是它和很多单词有关联, 那么说明这个单词比较重要.如果一个TextRank值很高的单词后面跟着另一个单词, 那么后面这个单词的TextRank值也会相应的被提高.

2024-12-14 14:12:30 6384 150

原创【面试宝典】机器学习：深度解析高频面试题与解答策略

其主要思想是：将⼦集的选择看作是⼀个搜索寻优问题，⽣成不同的组合，对组合进⾏评价，再与其他的组合进⾏⽐较。这样就将⼦集的选择看作是⼀个是⼀个优化问题，这⾥有很多的优化算法可以解决，尤其是⼀些启发式的优化算法，如GA，PSO，DE，ABC等，详⻅“优化算法——⼈⼯蜂群算法(ABC)”，“优化算法——粒⼦群算法(PSO)”。

2024-12-10 21:28:50 2117 95

原创探索Neo4j：图数据库的卓越特性与应用实践

neo4j是由Java实现的开源NoSQL图数据库。自从2003年开始研发，到2007年发布第一版。neo4j现如今已经被各行各业的数十万家公司和组织采用。neo4j实现了专业数据库级别的图数据模型的存储。与普通的图处理或内存级数据库不同，neo4j提供了完整的数据库特性，包括ACID事物的支持，集群支持，备份与故障转移等。这使其适合于企业级生产环境下的各种应用。企业版：需要高额的付费获得授权，提供高可用，热备份等性能。社区开源版：免费使用，但只能单点运行。学习目标了解Cypher的基本概念。

2024-12-03 23:11:48 1763 93

原创【NLP自然语言处理】FastText在文本分类中的智能应用与探索

进行文本分类训练词向量文本分类的是将文档（例如电子邮件，帖子，文本消息，产品评论等）分配给一个或多个类别. 当今文本分类的实现多是使用机器学习方法从训练数据中提取分类规则以进行分类, 因此构建文本分类器需要带标签的数据.

2024-11-28 21:42:17 2369 128

原创拥抱AI未来：Hugging Face平台使用指南与实战技巧

Huggingface总部位于纽约，是一家专注于自然语言处理、人工智能和分布式系统的创业公司。他们所提供的聊天机器人技术一直颇受欢迎，但更出名的是他们在NLP开源社区上的贡献。Huggingface一直致力于自然语言处理NLP技术的平民化(democratize)，希望每个人都能用上最先进(SOTA, state-of-the-art)的NLP技术，而非困窘于训练资源的匮乏。同时Hugging Face专注于NLP技术，拥有大型的开源社区。

2024-11-23 21:52:38 9632 122

原创【AI大模型】ELMo模型介绍：深度理解语言模型的嵌入艺术

ELMo是2018年3月由华盛顿大学提出的一种预训练模型.ELMo的全称是Embeddings from Language Models.ELMo模型的提出源于论文。

2024-11-13 22:35:59 9559 209

原创带你迅速了解什么是人工智能

1950-1970 符号主义流派：专家系统占主导地位1950：图灵设计国际象棋程序1962：IBM Arthur Samuel 的跳棋程序战胜人类高手（人工智能第一次浪潮）1980-2000统计主义流派：主要用统计模型解决问题1993：Vapnik提出SVM1997：IBM 深蓝战胜卡斯帕罗夫（人工智能第二次浪潮）2010-至今神经网络、深度学习流派2006：Hinton2016：Google AlphaGO 战胜李世石（人工智能第三次浪潮）

2024-11-12 23:33:50 1625 37

原创【机器学习】带你迅速了解什么是机器学习

掌握基于规则的学习和基于模型的学习区别及数据集相关概念。

2024-11-11 23:33:26 1147 36

原创【NLP自然语言处理】深入探索Self-Attention：自注意力机制详解

训练上的意义: 随着词嵌入维度d_k的增大, q * k 点积后的结果也会增大, 在训练时会将softmax函数推入梯度非常小的区域, 可能出现梯度消失的现象, 造成模型收敛困难.数学上的意义: 假设q和k的统计变量是满足标准正态分布的独立随机变量, 意味着q和k满足均值为0, 方差为1. 那么q和k的点积结果就是均值为0, 方差为d_k, 为了抵消这种方差被放大d_k倍的影响, 在计算中主动将点积缩放1/sqrt(d_k), 这样点积后的结果依然满足均值为0, 方差为1.

2024-11-08 09:44:48 2330 177

原创【AI大模型】大型语言模型LLM基础概览：技术原理、发展历程与未来展望

大语言模型 (英文：Large Language Model，缩写LLM) 是一种人工智能模型, 旨在理解和生成人类语言. 大语言模型可以处理多种自然语言任务，如文本分类、问答、翻译、对话等等.

2024-11-07 10:20:27 8055 116

原创【NLP自然语言处理】深入解析Encoder与Decoder模块：结构、作用与深度学习应用

经典的Transformer结构中的Encoder模块包含6个Encoder Block.每个Encoder Block包含一个多头自注意力层, 和一个前馈全连接层.

2024-11-04 09:47:58 4745 202

原创【AI大模型】Transformer模型构建指南：轻松掌握核心技术

通过本专栏的博文，我们已经完成了所有组成部分的实现, 接下来就来实现完整的编码器-解码器结构.

2024-11-01 08:36:50 1706 88

原创【机器学习】揭秘XGboost：高效梯度提升算法的实践与应用

XGBoost（Extreme Gradient Boosting）是对梯度提升树的改进，并且在损失函数中加入了正则化项。目标函数的第一项表示整个强学习器的损失，第二部分表示强学习器中 K 个弱学习器的复杂度。xgboost 每一个弱学习器的复杂度主要从两个方面来考量：γT 中的 T 表示一棵树的叶子结点数量，γ 是对该项的调节系数λ||w||2 中的 w 表示叶子结点输出值组成的向量，λ 是对该项的调节系数。

2024-10-29 10:02:11 2925 184

原创【NLP自然语言处理】Attention机制原理揭秘：赋予神经网络聚焦与理解能力

Self-attention就本质上是一种特殊的attention。这种应用在transformer中最重要的结构之一。前面我们介绍了attention机制，它能够帮我们找到子序列和全局的attention的关系，也就是找到权重值wi。Self-attention向对于attention的变化，其实就是寻找权重值的wi过程不同。下面我们来看看self-attention的运算过程。

2024-10-24 11:56:22 2881 200

原创【AI大模型】深入Transformer架构：输入和输出部分的实现与解析

因为在Transformer的编码器结构中, 并没有针对词汇位置信息的处理，因此需要在Embedding层后加入位置编码器，将词汇位置不同可能会产生不同语义的信息加入到词嵌入张量中, 以弥补位置信息的缺失.

2024-10-21 10:08:32 6187 212

原创【AI大模型】深入Transformer架构：解码器部分的实现与解析

由N个解码器层堆叠而成每个解码器层由三个子层连接结构组成第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接第二个子层连接结构包括一个多头注意力子层和规范化层以及一个残差连接第三个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接说明:解码器层中的各个部分，如，多头注意力机制，规范化层，前馈全连接网络，子层连接结构都与编码器中的实现相同. 因此这里可以直接拿来构建解码器层.

2024-10-18 13:17:03 2754 229

原创【AI大模型】初识LangChain：功能强大的语言模型框架

LangChain由 Harrison Chase 创建于2022年10月，它是围绕LLMs（大语言模型）建立的一个框架，LLMs使用机器学习算法和海量数据来分析和理解自然语言，GPT3.5、GPT4是LLMs最先进的代表，国内百度的文心一言、阿里的通义千问也属于LLMs。LangChain自身并不开发LLMs，它的核心理念是为各种LLMs实现通用的接口，把LLMs相关的组件“链接”在一起，简化LLMs应用的开发难度，方便开发者快速地开发复杂的LLMs应用。

2024-10-16 10:40:04 5014 143

原创【NLP自然语言处理】探索注意力机制：解锁深度学习的语言理解新篇章

我们观察事物时，之所以能够快速判断一种事物(当然允许判断是错误的), 是因为我们大脑能够很快把注意力放在事物最具有辨识度的部分从而作出判断，而并非是从头到尾的观察一遍事物后，才能有判断结果. 正是基于这样的理论，就产生了注意力机制.注意力机制是注意力计算规则能够应用的深度学习网络的载体, 同时包括一些必要的全连接层以及相关张量处理, 使其与应用网络融为一体. 使用自注意力计算规则的注意力机制称为自注意力机制.

2024-10-13 09:26:09 3373 197

原创【面试宝典】深入Python高级：直戳痛点的题目演示（下）

内存池的概念就是预先在内存中申请⼀定数量的，⼤⼩相等的内存块留作备⽤，当有新的内存需求时，就先从内存池中分配内存给这个需求，不够了之后再申请新的内存。内存池的实现⽅式有很多，性能和适⽤范围也不⼀样。python多线程有个全局解释器锁（global interpreter lock），这个锁的意思是任⼀时间只能有⼀个线程使⽤解释器，跟单cpu跑多个程序⼀个意思，⼤家都是轮着⽤的，这叫“并发”，不是“并⾏”。层的数据集合来说深浅拷⻉的意义是⼀样的，⽐如字符串，数字，还有仅仅⼀层的字典、列表、元祖等.

2024-10-12 16:13:01 1450 28

原创【机器学习】揭秘深度学习优化算法：加速训练与提升性能

传统的梯度下降优化算法中，可能会碰到以下情况：碰到平缓区域，梯度值较小，参数优化变慢碰到 “鞍点” ，梯度为 0，参数无法优化碰到局部最小值对于这些问题, 出现了一些对梯度下降算法的优化方法，例如：Momentum、AdaGrad、RMSprop、Adam 等.

2024-10-11 08:28:37 1160 135

原创【面试宝典】深入Python高级：直戳痛点的题目演示（上）

你知道深浅拷⻉的区别吗？字典反转，列表反转的实现？装饰器是什么，什么场景⽤到装饰器，举个例⼦...

2024-10-10 14:23:28 1159 47

原创【AI大模型】深入Transformer架构：编码器部分的实现与解析（下）

在Transformer中前馈全连接层就是具有两层线性层的全连接网络。前馈全连接层的作用是考虑注意力机制可能对复杂过程的拟合程度不够, 通过增加两层网络来增强模型的能力.

2024-10-07 09:22:10 7913 241

原创【NLP自然语言处理】探索GRU：深度学习中门控循环单元的魅力

GRU（Gated Recurrent Unit）也称门控循环单元结构, 它也是传统RNN的变体, 同LSTM一样能够有效捕捉长序列之间的语义关联, 缓解梯度消失或爆炸现象.

2024-10-05 09:05:29 3471 199

原创【AI大模型】深入Transformer架构：编码器部分的实现与解析（上）

编码器部分:* 由N个编码器层堆叠而成 * 每个编码器层由两个子层连接结构组成 * 第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接 * 第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接掩代表遮掩，码就是我们张量中的数值，它的尺寸不定，里面一般只有1和0的元素，代表位置被遮掩或者不被遮掩，至于是0位置被遮掩还是1位置被遮掩可以自定义，因此它的作用就是让另外一个张量中的一些数值被遮掩，也可以说被替换, 它的表现形式是一个张量.

2024-10-02 08:56:15 6846 204

原创【机器学习】揭秘反向传播：深度学习中神经网络训练的奥秘

多层神经网络的学习能力比单层网络强得多。想要训练多层网络，需要更强大的学习算法。误差反向传播算法（Back Propagation）是其中最杰出的代表，它是目前最成功的神经网络学习算法。现实任务使用神经网络时，大多是在使用 BP 算法进行训练，值得指出的是 BP 算法不仅可用于多层前馈神经网络，还可以用于其他类型的神经网络。通常说 BP 网络时，一般是指用 BP 算法训练的多层前馈神经网络。这就需要了解两个概念：1. 正向传播。

2024-09-30 21:49:11 2113 132

原创【NLP自然语言处理】探索LSTM：深度学习领域的强大时间序列处理能力

LSTM（Long Short-Term Memory）也称长短时记忆结构, 它是传统RNN的变体, 与经典RNN相比能够有效捕捉长序列之间的语义关联, 缓解梯度消失或爆炸现象. 同时LSTM的结构更复杂,。

2024-09-27 07:44:51 4018 216

原创探索PyTorch：张量数值计算

详细讲解张量基本运算，阿达玛积，点积运算及PyTorch指定运算设备。

2024-09-26 13:29:05 988 36

原创【AI大模型】BERT模型深度解析：自然语言处理的新里程碑及其应用探索

优点：BERT使用双向transformer，在语言理解相关的任务中表现很好。缺点：输入噪声：BERT在预训练过程中使用【mask】符号对输入进行处理，这些符号在下游的finetune任务中永远不会出现，这会导致预训练-微调差异。而AR模型不会依赖于任何被mask的输入，因此不会遇到这类问题。更适合用于语言嵌入表达, 语言理解方面的任务, 不适合用于生成式的任务。

2024-09-25 23:17:34 1584 144

原创【机器学习】揭秘GBDT：梯度提升决策树

GBDT，全称为Gradient Boosting Decision Tree，即梯度提升决策树，是一种迭代的决策树算法，也被称作MART（Multiple Additive Regression Tree）。它通过将多个决策树（弱学习器）的结果进行累加来得到最终的预测输出，是集成学习算法的一种，具体属于Boosting类型。

2024-09-23 12:50:51 3986 232

原创【NLP自然语言处理】NLP中的常用预训练AI模型

在自然语言处理（NLP）领域，预训练AI模型已成为推动技术发展的重要力量。这些模型通过在大量数据集上进行预先训练，学习到了语言的通用特征或知识表示，进而可以应用于各种具体的NLP任务。

2024-09-22 22:51:49 843 35

原创【数据库】常用数据库简介

MySQL的特点：免费，支持大型数据库，标准的SQL语言形式，跨平台。课程使用的版本时MySQL8.0/5.6版本。MySQL登录的两种方式：方法一：mysql -uroot -p123456 (登陆本机的mysql)方法二：mysql --host=192.168.88.161 --user=root --password=123456 (登陆远程的mysql)sql 结构化查询语言(Structured Query Language)简称SQL。

2024-09-22 07:31:20 1795 61

原创【面试宝典】简历必胜秘籍：全面指导助你脱颖而出

不建议：“熟练使⽤python语⾔，熟悉机器学习算法，熟悉深度学习模型”建议:了解分类、回归、聚类等机器学习算法的原理，并能够结合实际业务加以运⽤；掌握RNN、CNN、Transformer等深度学习模型架构和原理，并具备企业实际项⽬应⽤经验。

2024-09-21 07:35:37 1509 52

原创探索PyTorch：自动微分模块

掌握梯度计算自动微分（Autograd）模块对张量做了进一步的封装，具有自动求导功能。自动微分模块是构成神经网络训练的必要模块，在神经网络的反向传播过程中，Autograd 模块基于正向计算的结果对当前的参数进行微分计算，从而实现网络权重参数的更新。

2024-09-20 16:34:42 3008 156

原创【AI大模型】LLM主流开源大模型介绍

随着ChatGPT迅速火爆，引发了大模型的时代变革，国内外各大公司也快速跟进生成式AI市场，近百款大模型发布及应用。目前，市面上已经开源了各种类型的大语言模型，本章节我们主要介绍其中的三大类...

2024-09-19 09:57:16 4453 179

空空如也

空空如也