
人工智能
文章平均质量分 85
百万年薪天才少女
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
优化器optimizer及实例化代码
Nesterov动量由Yurii Nesterov在1983年提出,它是一种动量优化方法,通过结合前几步的梯度信息来调整当前的更新。Nesterov动量的主要思想是,利用历史梯度信息来预测当前梯度的方向,从而更有效地进行参数更新。原创 2025-03-07 21:38:38 · 609 阅读 · 0 评论 -
F1分数,调和平均数
精确率 (Precision): 在所有被模型预测为正类的样本中,实际为正类的比例。其中:TP(True Positives): 真阳性,正确预测为正类的样本数量。FP(False Positives): 假阳性,错误预测为正类的样本数量。召回率 (Recall): 在所有实际为正类的样本中,被模型正确预测为正类的比例。其中:FN(False Negatives): 假阴性,错误预测为负类的样本数量。F1 分数什么是调和平均数?为什么使用调和平均数?原创 2025-03-05 14:32:06 · 621 阅读 · 0 评论 -
【机器学习】训练(Training)、验证(Validation)和测试(Testing)
这种三阶段的划分方法是机器学习中的最佳实践,能够帮助我们建立既能在训练数据上表现良好,又能很好地泛化到新数据的模型。- 这种划分方法有助于评估模型的真实性能,避免过拟合。- 通常使用最大的数据集比例(60-80%的数据)- 这个阶段可能会多次重复,直到找到最优的模型配置。- 这个阶段只进行一次,用来评估最终模型的实际性能。- 使用测试集对最终选定的模型进行评估。- 使用验证集来评估模型的泛化能力。- 防止过拟合,选择最佳的模型配置。- 通常使用 10-20% 的数据。- 通常使用 10-20% 的数据。原创 2025-02-06 17:40:15 · 680 阅读 · 0 评论 -
【Orca】Orca - Graphlet 和 Orbit 计数算法
Orca(ORbit Counting Algorithm)是一种用于对网络中的小图进行计数的有效算法原创 2025-01-08 15:33:34 · 996 阅读 · 0 评论 -
【深度学习】EMA指数移动平均
EMA通过对参数进行平滑处理,使得较新的参数值对应的权重较大,较旧的参数值对应的权重较小。这样可以更好地反映参数的变化趋势,并在模型训练中提供更稳定的更新。下面是一种常见的使用EMA进行参数更新和优化的方法,称为。原创 2025-01-07 10:31:10 · 1038 阅读 · 0 评论 -
【文献精读笔记】Explainability for Large Language Models: A Survey (大语言模型的可解释性综述)(五)
***非斜体正文为原文献内容(也包含笔者的补充),灰色块中是对文章细节的进一步详细解释!五、 解释评估(Explanation Evaluation)在前面的章节中,我们介绍了不同的解释技术和它们的用途,但评估它们如何忠实地反映模型的推理过程仍然是一个挑战。我们将评估大致分为两类:传统微调范式的局部解释评估(第5.1节)和提示范式中自然语言CoT解释的评估(第5.2节)。评估的两个关键维度是和。从技术上讲,评估解释包含和。人工评估通过模型依据(model rationales)与人类依据。原创 2025-01-01 19:11:33 · 968 阅读 · 0 评论 -
【文献精读笔记】Explainability for Large Language Models: A Survey (大语言模型的可解释性综述)(四)
发现在保持或提高T5-XL模型在保留数据集上的性能的同时,可以移除60%。此外,一些研究还深入研究了LLMs生成的。原创 2025-01-01 14:44:46 · 1311 阅读 · 0 评论 -
【文献精读笔记】Explainability for Large Language Models: A Survey (大语言模型的可解释性综述)(一)
Explainability for Large Language Models: A Survey (大语言模型的可解释性综述)传统微调范式(Traditional Fine-Tuning Paradigm)部分精读原创 2024-12-27 18:24:48 · 1281 阅读 · 0 评论 -
【Transformer】超全详解!
Transformer 与 RNN 不同,可以比较好地并行训练。Transformer 本身是不能利用单词的顺序信息的,因此需要在输入中添加位置 Embedding,否则 Transformer 就是一个词袋模型了。Transformer 的重点是 Self-Attention 结构,其中用到的Q, K, V矩阵通过输出进行线性变换得到。原创 2024-12-29 15:20:26 · 1137 阅读 · 0 评论 -
【Transformer】位置embedding的理解
由于sin是周期函数,因此从纵向来看,如果函数的频率偏大,引起波长偏短,则不同 t 下的位置向量可能出现重合的情况。使 PE 能够适应比训练集里面所有句子更长的句子,假设训练集里面最长的句子是有 20 个单词,突然来了一个长度为 21 的句子,则使用公式计算的方法可以计算出第 21 位的 Embedding。直观思考,要想给输入的向量添加位置信息, 最先想到的无疑就是直接使用1 , 2 , 3 , . . . , n 这样的连续数字给输入向量赋予标号来表达向量的顺序。T表示一个线性变换矩阵。原创 2024-12-29 00:14:44 · 828 阅读 · 0 评论 -
【Transformer】Add & Norm的理解
Add & Norm 层由 Add 和 Norm 两部分组成,其计算公式如下:由图,其中表示 Multi-Head Attention 或者 Feed Forward 的输入,MultiHeadAttention() 和 FeedForward() 表示输出 (输出与输入维度是一样的,所以可以相加)。原创 2024-12-29 00:10:45 · 1413 阅读 · 0 评论 -
【Attention终于搞懂了】注意力机制/自注意力/多头注意力 构件详解
什么是attention?即QKV 模型,transformer 是采用的这种建模方式。k 是 question,v 是 answer,Memory 中以(k,v)形式存储需要的上下文,q 是新来的 question。假设输入为 q,看看历史 memory 中 q 和哪个 k 更相似,然后依葫芦画瓢,根据相似 k 对应的 v,合成当前 question 的 answer。原创 2024-12-27 23:11:45 · 1743 阅读 · 0 评论 -
GLUE(General Language Understanding Evaluation)
GLUE的论文为:GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language UnderstandingGLUE的官网为:https://gluebenchmark.com/GLUE包含九项NLU任务。自然语言处理(NLP)主要包括自然语言理解(NLU)和自然语言生成(NLG)分别是。可以分为三类,分别是和所有任务都是单句或者句子对,除了STS-B是一个任务。原创 2024-12-25 01:59:03 · 976 阅读 · 0 评论 -
【微调fine-tuning】为什么要修改最后几层神经网络权值
在预训练模型中,前面的层通常是通用特征提取器,学习到了图像的低级特征,例如边缘和纹理。而最后几层则是针对原始任务的特定分类器,学习到了高级特征,例如物体形状和类别。在Fine-tuning时,我们希望保留预训练模型的通用特征提取能力,只修改最后几层的权值,以适应新的任务。由于新的任务可能与预训练任务有所不同,例如类别数量和类别分布的差异,我们需要调整输出层的结构和参数,以适应新的任务需求。同时,冻结部分层的参数可以加快Fine-tuning的速度,并降低过拟合的风险。上述博客中也有具体的微调代码操作步骤。原创 2024-12-25 01:22:42 · 175 阅读 · 0 评论