自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(504)
  • 收藏
  • 关注

原创 一切都会好的

一切都会好的,我一直相信 —— 24.3.3

2024-03-03 21:59:29 453 1

原创 Linux操作系统 4.Linux实用操作

1.ctrl+c ,强制停止2.ctrl+d,退出登出3.history,查看历史命令4.!,命令前缀,自动匹配上一个命令5.ctrl+r,搜索历史命令6.ctrl+a | e,光标移动到命令开始或结束7.ctrl+<— | —>,左右跳单词8.ctrl+l或clear命令,清屏1.在CentOS系统中,使用yum命令联网管理软件安装yum语法:yum [-y] [install | remove | search] 软件名称2.在Ubuntu系统中,使用apt命令联网管理软件安装。

2025-04-04 22:24:39 506

原创 【NLP 55、投机采样加速推理】

如果引导模型的预测准确,主模型验证后选择的 token 与引导模型预测概率最高的 token 一致,就直接采用该 token 作为生成结果;:如果引导模型生成的候选 token 数量较多,可能会根据预测概率对候选集进行排序,然后筛选出概率较高的一部分 token 作为最终的候选集。:以新的文本序列作为输入,重复上述步骤,继续生成下一个 token,直到满足预设的生成结束条件,如达到指定的文本长度、生成特定的结束标志 token 等。引导模型经过优化,能够以较低的计算成本对主模型的输出进行近似预测。

2025-04-04 22:17:06 245

原创 【NLP 52、多模态相关知识】

以 ViT 为例,图像被分割为 16×16 的图像块,通过线性投影和位置编码后,经多层 Transformer 层提取视觉特征,输出图像嵌入向量。把一张图像切分成n份,把每份切分后的图像展平为一个向量,在这些向量中可以加入位置编码(位置编码也可以换做ROPE相对位置编码)进行定位,每一小份图像相当于NLP领域中的每个字,输入的图像就是一个矩阵。Attention同时输入一个x 和 y,输入的图像矩阵 x 过所谓的 K 和 V,输入的文本编码 y 过 Q,然后以 Q、K、V的形式计算交叉注意力。

2025-04-02 19:48:14 696

原创 【NLP 面试准备 —— 一定上岸!】

一切都会好的,我一直相信!—— 25.4.2模型中Q、K、V参数①情感分析问题中,使用微调后,对具有修辞文本的情感判断准确度较低问题改进②文本分类任务中,准确率下降且训练时间增加问题改进③命名实体识别(NER)中,面对模型准确率降低且泛化能力较差问题改进④文本生成任务中,生成文本逻辑不连贯与缺乏多样性问题改进⑤只出现一次的数字。

2025-04-02 15:54:13 361

原创 【NLP 面经 5】

文本摘要任务中,你使用基于序列到序列(Seq2Seq)模型,并结合注意力机制。然而,生成的摘要存在信息遗漏、重复以及可读性差的问题。请从模型架构、训练数据和生成策略这三个角度,分析产生这些问题的可能原因,并提出相应的改进措施。

2025-04-02 15:46:59 838

原创 【NLP 51、一些LLM模型结构上的变化】

对于文本类NLP任务,位置信息是很重要的可学习的位置编码缺点在于没有长度外推性相对位置编码不需要学习,有一定的长度外推性,但是相对位置编码具有天然的远程衰减性目前的主流是RoPE和Alibi两种相对位置编码。

2025-04-01 19:58:41 1146

原创 【NLP 面经 4】

一、CNN情感分析改进一、CNN情感分析改进在情感分析任务中,你使用基于卷积神经网络(CNN)的模型。模型在训练集上表现良好,但在测试集上准确率较低,尤其是对长文本的情感分析效果较差。请从模型架构、数据处理和训练方法三个方面分析可能的原因,并提出改进措施。

2025-04-01 11:10:06 915

原创 【NLP 面经 3】

请你阐述一下 Transformer 架构中多头自注意力机制(Multi - Head Self - Attention)的工作原理,以及它相比传统循环神经网络(RNN)在处理长序列文本时的优势。另外,假设在实际应用中,你发现基于多头自注意力机制的模型出现了过拟合现象,你会从哪些方面进行改进?在命名实体识别(NER)任务中,你使用基于循环神经网络(RNN)的模型,发现模型对嵌套实体和长文本中的实体识别效果不佳。,其中包含由空格分隔的单词。中每个单词进行反转,然后再将反转后的单词组合成一个新的字符串并返回。

2025-03-31 22:22:25 746

原创 【NLP 面经 2】

请从预训练模型特性、微调数据以及特征工程这三个方面,分析可能导致该问题的原因,并提出相应的改进策略。在命名实体识别(NER)任务中,当面对跨领域的文本数据时,你所训练的模型识别准确率大幅降低,且模型泛化能力较差。在一个整数数组里找出仅出现一次的元素,而数组中的其他元素均出现三次。先对数组进行排序,排序之后,相同的元素会相邻排列,这样就可以通过比较相邻元素来找出那个只出现一次的元素。使用位运算来解决在数组中找出只出现一次的元素(其余元素均出现三次)的问题。其核心思想是利用两个变量。

2025-03-31 22:11:52 760 1

原创 NLP 45、【Attention is all you need】模型代码实现及应用

继承自nn.Module,是PyTorch中定义神经网络模块的标准方式,该类实现了缩放点积注意力机制继承自nn.Module,是PyTorch中定义神经网络模块的标准方式,该类实现了多头注意力机制继承自 PyTorch 的 nn.Module,用于实现位置前馈神经网络(Positionwise Feed-Forward Network)继承自 PyTorch 的nn.Module类,

2025-03-31 08:56:37 923

原创 【NLP 50、损失函数 KL散度】

KL散度(相对熵)是衡量两个概率分布 P 和 Q 之间差异的非对称性指标。它量化了当用分布 Q 近似真实分布 P 时的信息损失,即P和Q的顺序不能交换,当且仅当P = Q时取等号。

2025-03-27 20:29:28 1066

原创 【NLP 47、实践 ⑫ 通过mask和loss计算实现SFT】

表示BERT模型的隐藏层维度,即每个词经过模型处理后输出的向量维度。该参数直接影响模型的表征能力词汇表的大小,即模型需要预测的所有可能token的数量。预训练BERT模型的路径),用于加载预训练权重。预训练模型已通过大规模语料学习语言表示,微调时能显著提升下游任务性能加载预训练的BERT模型权重,用于生成上下文相关的词向量表示。支持从Hugging Face模型库或本地路径加载模型,适用于各类NLP任务(如文本分类、问答等)参数​类型​描述str预训练模型的名称(如)或本地路径。

2025-03-26 20:52:58 1624

原创 【NLP 49、提示工程 prompt engineering】

根据上文,计算下一个字的概率分布大模型也是同样的原理:不断依照概率选取下一个字,迭代生成文本。

2025-03-26 15:10:32 851

原创 【NLP 48、大语言模型的神秘力量 —— ICL:in context learning】

任务定义 ——> 建立标注规范 ——> 标注人员学习标注规范 ——> 标注人员进行标注 ——> 对标注结果进行审核 ——> 使用标注数据训练模型 ——> 模型验证效果 ——> 模型实际预测。模型任务可以看作一个贝叶斯一样的多条件概率的组合,pretrain、prompt、example三者条件概率的组合,三者皆对于最终概率有影响。对于一个较大的模型而言,给出一个例子就可以显著的提升ICL的效果,给出Few-shot,准确性还会有所提升。提示词的格式也十分重要,好的模型会根据你给出的格式回答你的问题。

2025-03-26 13:58:24 528

原创 【NLP 46、大模型技术发展】

具体来说,给定一个未标注的文本序列,模型的目标是预测序列中下一个词的条件概率。将RNN的思想【RNN 的隐藏层不仅接收当前时刻的输入,还接收前一时刻的隐藏状态,将隐单元向量不断向后传递】引入Transformer,解决超长序列的问题【在Transformer中,将前一段文本的隐向量与后一段文本印象里拼接,之后计算attention】其中,tk​ 是当前词,Θx​ 是词嵌入参数,ΘLSTM​ 和 ΘLSTM​ 分别是前向和后向LSTM的参数,Θs​ 是softmax层的参数​。

2025-03-25 22:28:18 757

原创 【NLP 面经 1.Transformer模型Q、K、V参数的作用】

在Transformer架构中,Query向量代表当前正在处理的词(或位置)在句子中的角色或意图。它用于从句子的其他部分查找相关信息,即模型需要“查询”的内容。Key向量代表句子中每个词的重要性或相关性。它与Query进行比较,计算相似度得分,以确定哪些词对当前处理的词(Query)最重要。Value向量包含句子中每个词的实际信息内容。它根据Query和Key的相似度得分进行加权求和,生成当前词的输出表示。

2025-03-24 21:01:39 360

原创 【NLP 43、文本生成任务】

生成的摘要在原文本中一定出现过。

2025-03-23 21:35:36 1207

原创 【NLP 44、实践 ⑪ 用Bert模型结构实现自回归语言模型的训练】

LanguageModel初始化流程树状图├── 1. 父类初始化│ └── `super().__init__()` → 继承父类(如`nn.Module`)的属性和方法├── 2. 加载预训练BERT模型│ │ ├── `pretrain_model_path`: 预训练模型路径(如`bert-base-uncased`)│ │ ├── `return_dict=False`: 强制返回元组而非字典(兼容旧版代码)

2025-03-23 19:23:41 1111

原创 【Python 算法零基础 2.模拟 ① 基于数组】

模拟算法就是根据题目要求解题,一些复杂的模拟题只是把一些简单操作组合起来🚀。

2025-03-20 20:07:51 563

原创 【Python 算法零基础 2.模拟 ② 基于字符串】

我们将第 0 个字符串与第 2 个字符串匹配,因为 word[0] 的反转字符串是 "dc" 并且等于 words[2]。- 我们将第 1 个字符串与第 3 个字符串匹配,因为 word[1] 的反转字符串是 "ca" 并且等于 words[3]。- 我们将第 0 个字符串与第 1 个字符串匹配,因为 words[1] 的反转字符串 "ab" 与 words[0] 相等。(1 - i) * (1 - i) = 1 + i2 - 2 * i = -2i ,你需要将它转换为 0+-2i 的形式。

2025-03-20 18:05:43 738

原创 【Python 算法零基础 2.模拟 ③ 基于链表】

请你将它们之间的所有节点合并成一个节点,其值是所有已合并节点的值之和。小伙伴离开圈子的顺序:5、4、6、2、3。2) 顺时针数 2 名小伙伴,也就是小伙伴 1 和 2。4) 顺时针数 2 名小伙伴,也就是小伙伴 3 和 4。6) 顺时针数 2 名小伙伴,也就是小伙伴 5 和 1。8) 顺时针数 2 名小伙伴,也就是小伙伴 3 和 5。- 标记为红色的节点之和:4 + 5 + 2 = 11。3) 小伙伴 2 离开圈子。5) 小伙伴 4 离开圈子。,包含从 1 到 n 的编号,表示参与游戏的人。

2025-03-20 17:32:18 894

原创 【NLP 35、序列标注任务】

历时十天,十二万余字数长文,一文讲清序列标注任务,细致剖析示例代码,学NLP,关注我就够了🚀🚀🚀!!!

2025-03-18 22:02:35 1597

原创 【Python 算法零基础 1.线性枚举】

m 是每次操作的量级,对于求最大值和求和来说,因为操作比较简单,所以 m为 1,则整体的时间复杂度是 O(n)的。:如果遍历结束后没有找到不重复的元素,说明不重复的元素可能在数组的边界:检查第一个元素。给你一个仅由整数组成的有序数组,其中每个元素都会出现两次,唯有一个数只会出现一次。如果这三个元素都是奇数,则说明存在三个连续的奇数,函数立即返回。,请你判断数组中是否存在连续三个元素都是奇数的情况:如果存在,请返回。开头的两位和最后的三位都是连续 1 ,所以最大连续 1 的个数是 3.

2025-03-17 22:06:03 874

原创 【NLP 42、实践 ⑩ NER 命名实体识别任务 Bert 实现】⭐

通常用于描述数据的格式(如字段名、标签类型)。在NER任务中,可能定义实体类别(如。

2025-03-16 22:15:51 1238

原创 【NLP 38、实践 ⑨ NER 命名实体识别任务 LSTM + CRF 实现】

数据加载。

2025-03-14 23:30:29 1418 1

原创 【Python 数据结构 15.哈希表】

哈希表的每个数据,保留了链表头结点和尾结点,插入前需要先进行查找,如果找到的位置链表非空,则插入尾结点,并且更新尾结点。哈希表的每个数据就是一个键,插入之前需要先进行查找,如果找到的位置未被插入则执行插入,否则找到下一个未被插入的位置进行插入。如果键存在于字典中,则返回对应的值;,无论是开放地址法,还是链地址法,都可以实现哈希表,我们只需要选择其中一种即可。计算它的哈希值,对数组长度 n 取模以后,找到合适的位置,遍历这个位置上的链表,,只要哈希表足够大,总能找到一空的位置,并且记录下来作为它的哈希值,

2025-03-14 09:29:13 1089

原创 【NLP 33、实践 ⑦ 基于Triple Loss作表示型文本匹配】

返回数据集的大小(即数据集中样本的数量)assert:Python 中的一个关键字,用于断言某个条件是否为真。如果条件为真,程序继续执行;如果条件为假,则抛出异常,并可选地输出一条错误信息。参数名类型是否必选描述condition布尔表达式是需要检查的条件。如果为False,则触发异常。message字符串否可选参数,当条件为False时,输出的错误信息。else:配置字典隐藏层大小词汇表大小句子的最大长度将离散的索引(如字符编码或单词索引)映射为连续的向量表示。参数名类型是否必选。

2025-03-13 16:44:36 1331

原创 【NLP 36、CRF条件随机场 —— 源码解读】

① 输入序列 X,输出序列为 y的路径分数:A为转移矩阵(代表前一个字向后一个字转移的概率),P为发射矩阵(过神经网络的每个字对应的概率值),s(X, y)代表任意一条路径的正确概率得分(这里的路径分数可以看作结合两矩阵,再做 log 运算后的)② 输入序列X,预测输出序列为y的概率:对上式做softmax,对 步骤 ① 得到的所有路径分数做归一化依然希望这个路径分数是最大的其他路径的总概率得分之和的 log 值正确路径的总概率得分CRF会明显拖慢训练速度,以效率的角度考虑可以不使用CRF。

2025-03-12 21:20:21 1183

原创 【力扣:新动计划,编程入门 —— 题解 ④】

给定一个非负整数num,反复将各个位上的数字相加,直到结果为一位数。返回这个结果。num =382各位相加的过程为由于 2 是一位数,所以返回 2。num =00你可以不使用循环或者递归,在O(1)时间复杂度内解决这个问题吗?

2025-03-12 14:08:16 784

原创 【NLP 34、实践 ⑧ 基于faq知识库和文本匹配算法进行意图识别】

根据用户查询和选择的算法,计算与知识库中问题的匹配度,并返回最匹配的前三个结果。将句子转换为向量,通过对句子中所有词的向量求平均并进行归一化。初始化问答系统,加载知识库并根据选择的算法进行模型初始化。初始化 BM25 模型,将知识库中的问题分词并构建语料库。加载或训练 Word2Vec 模型,并将知识库中的问题向量化。对象),可以用于遍历字典的键值对。对象),可以用于遍历字典的键值对。返回枚举对象,生成索引和元素的元组。对象),可以用于遍历字典的键值对。对象),可以用于遍历字典的值。

2025-03-11 21:49:27 1085

原创 【NLP 29、项目 Ⅰ:电商评论分类(好评 / 差评) 】

在某电商平台爬取评论,通过模型训练将电商评价进行分类(好评 / 差评),对比三种以上模型结构的分类效果总结成表格进行输出。

2025-03-11 21:07:39 1615

原创 【Python 数据结构 14.邻接表】

邻接表是一种表示图的数据结构。邻接表的主要概念是:对于图中的每个顶点维护一个由与其相邻的顶点组成的列表。这个列表可以用数组、链表或其他数据结构来实现。实际上,邻接表可以用于有向图、无向图、带权图、无权图。这里只考虑无权图的情况,带权图只需要多存储一个边权的数据就可以了。

2025-03-11 17:30:24 888

原创 【Python 数据结构 13.邻接矩阵】

邻接矩阵的概念。

2025-03-10 16:08:40 734

原创 【Python 数据结构 12.图】

图(Graph)是由顶点的有穷非空集合和顶点之间边的集合G(V,E),其中G表示一个图V是图G中顶点的集合,E是图G中边的集合线性表中我们把数据元素叫元素树中将数据元素叫结点图中数据元素,我们称之为顶点。

2025-03-10 15:46:50 455

原创 【NLP 41、激活函数 ⑤ Swish激活函数】

基础形式Swish的标准表达式为:σ(x) 是Sigmoid函数:​ β 是可学习参数或固定值(通常默认设为1)​2.变体形式​:当β=1时,Swish退化为SILU​自适应Swish:通过训练学习 β 的值,允许激活函数根据任务动态调整形状。

2025-03-09 21:51:08 772

原创 【Python 数据结构 11.二叉搜索树】

二叉搜索树(又称为二叉排序树,二叉查找树),它满足如下四点性质:1)空树是二叉搜索树;2) 若它的左子树不为空,则左子树上所有结点的值均小于它根结点的值;3) 若它的右子树不为空,则右子树上所有结点的值均大于它根结点的值;4) 它的左右子树均为二叉搜索树;如图所示,对于任何一颗子树而言,它的根结点的值一定大于左子树所有结点的值,且一定小于右子树所有结点的值纵观二叉搜索树的查找、插入 和 删除。完全取决于二叉搜索树的形状,如果是完全二叉树。

2025-03-09 11:54:07 1117

原创 【Python 数据结构 10.二叉树】

二叉树是 n(n ≥ 0) 个结点组成的有限集合,这个集合要么是空集(当 n 等于 0 时),要么是由一个根节点和两棵互不相交的二叉树组成,其中这两棵互不相交的二叉树被称为根节点的左子树和右子树如图所示,2 是 1 的左子树,3 是 1 的右子树;同时,4 和 5 分别是 2 的左右子树,6 和 7分别是 3 的左右子树存放当前结点的value值存放当前节点的左孩子存放当前节点的右孩子接收参数 maxNodes,传入结点最大数目。

2025-03-08 21:36:00 768

原创 【NLP 32、文本匹配任务 —— 深度学习】

使用深度学习在文本匹配任务上主要有两种方式:① 表示型 ② 交互型表示型文本匹配要训练的目标是:得到一个编码器,用来把一句话转化为向量 实际训练中,通常会共享一个红框内的编码器 / 表示层(可以看作一个完整的模型:输入文本过完embedding嵌入层后过一个网络层,最终输出一句话的向量),在训练时,我们通常输入两句话过同一个模型(参数共享),分别编码这两句话,得到两个向量,经过一个 matching layer 匹配层(相似度计算)得到一个分数用来衡量两向量的相似度,若两句话向量(句子语义)相

2025-03-08 15:48:11 1329

原创 【Python 数据结构 9.树】

树是n个结点的有限集合,n=0时为空树。当n大于0的时候,满足如下两个条件:① 有且仅有一个特定的结点,称为根结点 Root;② 当 n > 1 时,其余结点分为 m 个互不相交的有限集合,T1、T2、T3、….Tm,其中每个 Ti 又是一棵树,并且为 Root 的子树;树的定义用到了递归的思想。即树的定义中,还用到了树的概念。T1 和 T2 就是 a 的子树,结点 d、9、h、i 组成的树又是结点 b 的子树子树的个数没有限制,但是它们一定是互不相交的。

2025-03-07 11:42:02 971

【NLP 29、项目 Ⅰ:电商评论分类(好评 / 差评) 】

多个模型结构训练效果对比

2025-03-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除