- 博客(30)
- 资源 (5)
- 收藏
- 关注
原创 大语言模型(3)--GPT-2
GPT-2(《Language Models are Unsupervised Multitask Learners》)是继GPT-1之后的第二个开源版本(考虑到技术滥用的担心只发布了mini版本),它的训练语料与参数比GPT-1多了一个数量级。正如题目,它是一个无监督、无领域知识调优的模型,然而在阅读理解、摘要生成、翻译、问答等方面可以超过多个领域下调优的已知模型。
2024-12-07 21:54:31
452
原创 大语言模型(2)--GPT-1
GPT-1是由OpenAI在2018年推出的第一代生成式预训练模型(《Improving Language Understanding by Generative Pre-Training》),它采用了无监督预训练和有监督微调相结合的方法,以增强模型的通用任务求解能力。在此之前,NLP领域的深度模型主要采用监督学习,从大量手动标记的数据中进行学习。这种对监督学习的依赖限制了它们对未充分注释的数据集的使用,训练超大模型的成本过高且耗时。
2024-12-06 23:15:28
1021
原创 大语言模型(1)--LLaMA
LLaMA(Large Language Model Meta AI)是由Meta AI于2023年2月发布的大语言系列模型,它应该是近两年来影响力最大的自然语言处理大模型。在它的带动下,雨后春笋般地涌现出来不同语言、不同领域下的各种大模型。值得注意的是,最早Meta在非商业许可的情况下发布了LLaMA的模型权重,仅供研究人员参考和使用。直到2023年7月,Meta推出LLaMA2,它是可用于商业应用的开源AI模型。
2024-11-30 23:01:43
1269
原创 多模态大模型(5)--LLaVA
人类通过如视觉、语言、听觉等多种渠道与世界互动,每个单独的渠道在表示和传达某些概念时都有其独特的优势,人工智能(AI)的一个核心愿景是开发一个能够有效遵循多模态视觉和语言指令的通用助手,与人类意图一致,可以完成各种现实世界任务。本文介绍另外一篇基于BLIP的多模态大模型LLaVA(Large Language and Vision Assistant),这是一个端到端训练的大型多模态模型,同时,首次引入仅使用语言训练的GPT-4,生成多模态语言-图像,通过指令调优构建通用视觉-语言模型。下面详细解读。
2024-11-23 21:06:26
1104
原创 多模态大模型(3)--BLIP-2
大模型如火如荼,研究者们已经不再满足于基本文本的大语言模型(LLM, Large Language Model),AI领域的热点正逐步向多模态转移,具备多模态能力的多模态大型语言模型(MM(Multi-Modal)-LLM)就成了一个备受关注的研究主题。
2024-11-19 23:11:11
1298
原创 多模态大模型(2)--BLIP
大模型如火如荼,研究者们已经不再满足于基本文本的大语言模型(LLM, Large Language Model),AI领域的热点正逐步向多模态转移,具备多模态能力的多模态大型语言模型(MM(Multi-Modal)-LLM)就成了一个备受关注的研究主题。BLIP(Bootstrapping Language-Image Pretraining)是由Salesforce在2022年提出的多模态预训练模型,它旨在统一视觉语言任务的理解与生成能力,并通过对噪声数据的处理来提高模型性能。
2024-11-14 22:40:34
902
原创 多模态大模型(1)--CLIP
CLIP的创新之处在于,它能够将图像和文本映射到一个共享的向量空间中,从而使得模型能够理解图像和文本之间的语义关系。这种共享的向量空间使得CLIP在图像和文本之间实现了无监督的联合学习,从而可以用于各种视觉和语言任务。
2024-11-13 23:04:38
995
原创 推荐系统评价指标(2):MAP与NDCG
定义:AP(Average Precision),它衡量的是推荐系统对于单个用户的排序质量,AP表示了对一个给定的用户,其推荐列表中相关项目的平均精度。例如,对于一个用户,其真实的兴趣列表中有3个项目,推荐系统为该用户推荐了6个项目:[1, 0, 1, 0, 1, 0],其中三个1表示用户感兴趣的。可见,AP考虑了推荐列表中项目的位置,因此它是一个“顺序敏感”的指标,即推荐列表中相关项目的位置越靠前,其对AP的贡献越大。通常地,AP值越大,说明推荐系统对于该用户的相关项目排序越靠前,推荐效果越好。
2024-11-11 23:13:08
1360
原创 推荐系统的评价指标(1):准确率与召回率
推荐系统的评价指标是用来衡量推荐系统性能的重要工具,它们可以帮助我们了解推荐系统的效果,并指导系统的优化和改进。一些常用的推荐系统评价指标包括准确率、召回率、MAP、NDCG等。
2024-11-10 21:13:07
1427
1
原创 快速傅里叶变换(FFT)基础(附python实现)
对于非专业人士,傅里叶变换一直是一个神秘的武器,它可以分析出不同频域的信息,从时域转换到频域,揭示了信号的频率成分,对于数字信号处理(DSP)、图像、语音等数据来说,傅里叶变换是最为基础,同时非常重要的分析工具。在处理真实世界的问题中,快速傅里叶变换(Fast Fourier Transform,FFT)是一种高效的算法,用于计算离散傅里叶变换(Discrete Fourier Transform,DFT)及其逆变换。
2024-11-08 21:11:29
1517
原创 Transformer大模型加速简介(3)-InFormer
通过上述这些方法,Informer模型不仅提高了长序列时间序列预测的效率,还保持了模型的预测能力,使其在实际应用中,因其在处理长序列时间序列预测问题中的高效性能,被应用于很有众多的领域:(1)金融方面:预测股票价格和市场趋势。Informer模型提出了一个生成式解码器,与概念上简单的逐步解码(step-by-step)不同,生成式解码器可以在一个前向操作中预测长序列输出,而不是逐步预测。因而,通过这种方式,Informer模型能够有效地处理长序列时间序列数据,同时保持较高的预测性能和较低的计算复杂度。
2024-11-04 23:04:19
899
原创 pairwise算法之rank svm
比如,最常见的分类算法使用了point-wise,即一条样本对应一个label(0/1),根据多条正负样本,使用交叉熵(cross entropy)等方法构建损失函数,来训练模型。在实际应用中,Rank SVM模型会处理更复杂的数据集,包含更多的特征和样本,以实现更准确的排序。其实,在针对实际问题的求解过程中,经常会在point-wise基础上引入一些pairwise的loss,实现两种方法的优缺互补,并且对数据分布进行更为细致的建模。● 缺点:只考虑了样本对的相对顺序,而忽略了整个列表的全局顺序信息。
2024-10-31 23:25:04
819
原创 大模型的表征学习方法简介
比如,针对文本中的词、图像中的不同颜色、纹理或者卷积等,以及视频、声音等流式数据中的不同切片或者使用滤波器等处理后的各种特征进行学习,这样所有模态就可以向量化,进而feed到一个模型进行训练学习了。通过这些表征学习方法从不同维度(有无监督、自监督、基于图与掩码等)进行学习,大模型从而能够学习到更丰富、更鲁棒的特征表示,提高模型的性能和泛化能力。一般地,在大模型的训练过程中,都会加入对不同模态的表征学习,这样可以针对不同训练任务、不同模态进行向量化。
2024-10-28 23:10:06
1286
原创 大模型中的归一化方法简介
目前的大模型逐步在往多模态方向发展,底层处理了不同类型的数据(文本、图像、视频),因而,对模型的鲁棒性、性能等要求越来越高。在Transformer等各种不同的大模型中,归一化(Normalization)是提高模型训练稳定性和性能的关键技术,它在深度学习中对于提高模型的泛化能力起着至关重要的作用。本文简单介绍了归一化方法的作用,以及一些常见的归一化方法。值得一提的是,一些归一化方法(像RMSNorm),不仅使得模型有更好的效果,而且可以节省计算量因而,经常用于transformer等模型的加速。
2024-10-26 21:18:15
1087
原创 Transformer大模型加速简介(2)-Linformer
Transformer模型,即《Attention is All your Need》这一大作自从被提出以来,已经成为自然语言处理(NLP)和计算机视觉等领域的核心架构(详见 https://blog.youkuaiyun.com/burstone/article/details/143135395)。然而,由于其对计算和存储的高要求,对于长序列的处理存在很大的性能开销。
2024-10-24 23:03:23
1202
原创 Transformer大模型加速简介(1)-稀疏注意力机制
Transformer模型,即《Attention is All your Need》这一大作自从被提出以来,已经成为自然语言处理(NLP)和计算机视觉等领域的核心架构(详见 https://blog.youkuaiyun.com/burstone/article/details/143135395)。然而,由于其对计算和存储的高要求,比如计算attention,其时间复杂度是N^2(其中N为序列的长度);
2024-10-23 21:39:40
1447
原创 生成对抗网络模型GAN简介
自从IBM的深蓝系统1975年在国际象棋、Google的AlphaGo在2016年在国际围棋领域分别击败了人类顶级棋手之后,深度神经网络开始名声大振。本文介绍一种博弈的模型,它也蕴含了一种不断对抗、进化的机制:生成对抗网络(Generative Adversarial Networks,简称GANs),它是由Ian Goodfellow等人在2014年提出的一种深度学习模型,生成器(Generator)和判别器(Discriminator)——实现了数据的生成与判别,为人工智能领域带来了全新的突破。
2024-10-22 22:25:14
837
1
原创 encoder-decoder大模型简介
大模型”这个术语出现在公众面前时,其实学术界最火的有transfromer模型,就是那篇Google的8位科学家发表在NIPS会议上的论文《Attention is All your Need》,它打开了序列建模的新世界,自然语言领域、序列建模等多个技术方向基于这个架构出现了大量的创新工作。这个transformer是基于encoder-decoder架构,这个领域有非常多的工作,下面针对一些基础知识点进行介绍。
2024-10-21 22:45:41
840
原创 Encoder-only大模型简介
例如,BERT(Bidirectional Encoder Representations from Transformers)是一个著名的Encoder-Only模型,它通过预训练来理解双向上下文,适用于各种需要文本理解的任务,如问答、命名实体识别等。情感分析是一种自然语言处理任务,目的是判断一段文本所表达的情绪倾向,比如是积极的、消极的还是中性的。Encoder-Only架构的模型,如BERT,非常适合这类任务,因为它能够捕捉到文本中的细微语义差异。步骤 1: 输入处理。
2024-10-19 21:53:38
715
原创 decoder-only大模型简介
模型的输入只有一个单词,所以只有这个单词的路径是活跃的。近年来异常火爆的OpenAI-GPT系列模型是基于Decoder-Only架构的,OpenAI的GPT系列模型就是基于Decoder-Only架构,通过大规模的无监督预训练,具备了强大的语言生成和理解能力。这种架构的模型在预训练阶段,可以利用大规模的无监督文本数据进行训练,提高模型的泛化能力和性能。Decoder-Only架构以其强大的生成能力和高效的预训练方式,在自然语言处理领域,尤其是文本生成任务中,展现出了显著的优越性。
2024-10-18 21:15:52
835
原创 beam search与viterbi 算法
在最近大模型的相关算法中,经常提到beam search算法,之前的文章介绍过(https://blog.youkuaiyun.com/burstone/article/details/142991670)。今天介绍另外一个经典算法–Viterbi,它在状态之间独立的情况下可以求解全局最优。我们首先介绍该算法,随后对比一下beam search与viterbi算法的优劣。Viterbi算法是一种动态规划算法,由安德鲁·维特比(Andrew Viterbi)在1967年提出,主要用于数字通信中的信号解卷积和噪声消除。
2024-10-17 22:35:32
1612
原创 beam search 算法简介
每种架构都有其独特的优势和适用场景,选择哪种架构取决于具体任务的需求和数据特点。Encoder-Decoder 架构。Encoder-Only 架构。Decoder-Only 架构。
2024-10-16 21:03:55
340
原创 玻尔兹曼机简介
北京时间2024年10月8日诺贝尔物理学奖颁奖,授予John J. Hopfield 和Geoffrey E. Hinton,以表彰他们“通过人工神经网络实现机器学习的基础性发现和发明”。Hopfield发明了一种联想记忆,可以存储和重建图像和其他类型的数据模式。Hinton发明了一种可以在数据中自主查找属性的方法,从而执行诸如识别图片中特定元素等任务;而Hinton以Hopfield网络为基础,开发了一种新网络:玻尔兹曼机(Boltzmann machine)。
2024-10-15 23:04:09
567
原创 Hopfield网络简介
Hopfield网络的概念也启发了新的神经网络模型的开发,例如稀疏量化Hopfield网络(SQHN),这是一种能量基模型,它优化能量函数并利用结合神经生成和局部学习规则的学习算法,特别适用于噪声和在线持续设置。Hopfield网络的基本原理是将神经元的输出作为输入的一部分反馈到网络中,形成反馈机制,使得网络具有记忆和信息存储的能力。Hopfield网络的现代版本,如连续Hopfield网络(MHN),在结构上与原始的Hopfield网络相似,但在性能上有所提升。图2 包含多层的Hopfield网络。
2024-10-15 22:56:28
592
原创 知名的AI大模型简介
同时,模型的大小在下降以普适到更为普通的机器,而性能在逐步提升,并且,开始挑战一些逻辑推理的能力。国际上的AI大模型非常多样,涵盖了不同的语言、应用和技术特点;1. GPT-4:这个最有名,去年超级火爆,由OpenAI开发,是一个多模态大型语言模型,能够生成流畅的文本、处理音频,并且具有解释图像内容的能力。3. Claude 3:由Anthropic开发,是另一个多模态的大型语言模型,能够处理多种语言和不同类型的数据。4. Llama 3:由Meta开发,是一个大型的多模态模型,能够理解和生成文本。
2024-09-25 08:27:13
522
原创 大模型微调技术简介
目前还有好多LoRA的变种,比如QLoRA:采用模式近似的方法来进行大模型的轻量化高效微调,仅需训练预训练大模型0.04%的参数,通过CP分解(秩为R)为多模态基础大模型中每个模态分支中的每个权重矩阵初始化可学习的mode factors。8. BitFit:一种稀疏的微调方法,它训练时只更新bias的参数或者部分bias参数,特别是计算query和将特征维度从N放大到4N的FFN层(intermediate)的bias参数变化最为明显。众所周知,大模型的参数规模有千亿级,甚至更多,训练一次都以天为单位。
2024-09-24 23:01:18
217
原创 Encoder-only decoder-only encoder-decoder大模型的区别
**优点**:能够处理输入序列和输出序列之间的关系,提高任务的准确性。- **定义**:同时包含编码器和解码器部分,适用于序列到序列的任务。- **代表模型**:GPT系列、LLaMA、OPT、BLOOM等。- **代表模型**:BERT、RoBERTa、ALBERT等。- **适用任务**:文本分类、情感分析、命名实体识别等。- **代表模型**:T5、BART、华为的盘古NLP等。- **适用任务**:文本生成、对话系统、机器翻译等。- **适用任务**:机器翻译、文本摘要、对话生成等。
2024-09-24 10:26:44
451
原创 Gemini 1.5技术简介
9. **长上下文能力测试**:Gemini 1.5 Pro在长上下文任务中展现了卓越的性能,例如在翻译任务中,仅通过一本参考语法书和大约400句额外的句子,就能够学习将英语翻译成Kalamang,这是一种使用人数不足200人的语言。4. **先进的MoE架构**:Gemini 1.5 Pro采用了高效的MoE (Mixture of Experts) 架构,在大部分评测指标上都优于之前的Gemini 1.0系列,特别是在文本处理和视觉处理任务方面。
2024-09-24 00:11:29
460
原创 openAI o1模型简介
o1 模型在多个基准测试中展现了卓越的能力,例如在国际数学奥林匹克(IMO)资格考试中,o1 的正确率达到了 83%,远超其前身 GPT-4o 模型的 13%。OpenAI 还强调了 o1 模型在安全方面的成功,这源自于 OpenAI 在模型安全治理中贯穿始终的“教学”-“测试”-“分享”模式。o1 模型在安全性能上也得到了显著提升,并未带来过多的新挑战。总的来说,o1 模型的发布标志着人工智能在推理和问题解决能力上迈出了重要的一步,预示着 AI 技术在未来将解锁更多应用场景,推动相关产业的发展。
2024-09-23 22:32:04
455
2009(Stanford)An Introduction of Information Retrieval.pdf
2009-10-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人