- 博客(17)
- 收藏
- 关注
原创 LLM task9
一般认为,GPT-3(1750亿参数)是 LLM 的开端,基于 GPT-3 通过 预训练(Pretraining)、监督微调(Supervised Fine-Tuning,SFT)、强化学习与人类反馈(Reinforcement Learning with Human Feedback,RLHF)三阶段训练得到的 ChatGPT 更是主导了 LLM 时代的到来。在传统PLM时代,解决 NLP 下游任务的一般范式是预训练-微调,即选用一个合适的预训练模型,针对自己的下游任务准备有监督数据来进行微调。
2025-07-29 23:04:31
677
原创 Decoder-only PLM
因此,对于一个输入目标序列长度为 256,期待输出序列长度为 256 的任务,模型会不断根据前 256 个 token、257个 token(输入+预测出来的第一个 token)...... 进行 256 次计算,最后生成一个序列长度为 512 的输出文本,这个输出文本前 256 个 token 为输入,后 256 个 token 就是我们期待的模型输出。不过,GLM 预训练任务更多的优势还是展现在预训练模型时代,迈入 LLM 时代后,针对于超大规模、体量的预训练,CLM 展现出远超 MLM 的优势。
2025-07-27 21:48:37
1024
原创 Encoder-Decoder PLM
2.1训练所使用的数据集(750GB)C4(Colossal Clean Crawled Corpus),数据集从Common Crawl中提取了大量干净的英语文本,,包含了各种各样的文本数据,如维基百科、新闻、书籍等等C4数据集经过了一定的清洗,去除了无意义的文本、重复文本等。由于MLM 任务和下游任务微调的不一致性,以及无法处理超过模型训练长度的输入等问题,从而提出Encoder-Decoder模型,通过引入 Decoder 部分来解决这些问题,同时也为 NLP 领域带来了新的思路和方法。
2025-07-25 22:26:46
539
原创 Encoder-only task6
一、主流预训练模型(1)Encoder-Only:代表Bert——自然语言理解Encoder-Decoder:代表:T5Decoder-Only :代表:GPT——自然语言生成二、BERT2.1Bert的思想ERT 正沿承了 Transformer 的思想,在 Transformer 的模型基座上进行优化,通过将 Encoder 结构进行堆叠,扩大模型参数,打造了在 NLU 任务上独居天分的模型架构;
2025-07-23 22:13:15
1046
原创 搭建transformer task5
embedding层(相当于一个词汇表),输入的形状为(batch_size,seq_len,embedding_dim),第一维代表一次批处理的数量,第二维代表处理的输入序列长度(2个词还是3个词),第三维代表,token 经过 tokenizer 转化成的 index 的维度,即将每个分词嵌入成几维的向量。当形状为(1,3,1)时,一个合适的输入(或许是输出?1.1embedding层的内部: 是一个可训练的(Vocab_size,embedding_dim)的权重矩阵,词表里的每一个值,都对应一行。
2025-07-21 22:03:17
661
原创 快乐学习大模型task4 Encoder-decoder
是一个多头注意力层,该层将使用第一个注意力层的输出作为 query,使用 Encoder 的输出作为 key 和 value(这是注意力权重计算函数的参数QKV),来计算注意力分数。在第一个子层,输入进入多头自注意力层的同时会直接传递到该层的输出,然后该层的输出会与原输入相加,再进行标准化。是一个掩码自注意力层,即使用 Mask 的注意力计算,保证每一个 token 只能使用该 token 之前的注意力分数;在Encoder中,输出由该层的输入加上该层的输出(注意力层和前馈神经网络的输出),再归一化操作。
2025-07-19 23:56:17
896
原创 快乐学习大模型--注意力机制篇day3
1.注意力机制的诞生1.1RNN的局限性RNN 及 LSTM 虽然具有捕捉时序信息、适合序列生成的优点,却有两个难以弥补的缺陷:序列依序计算的模式能够很好地模拟时序信息,但限制了计算机并行计算的能力。由于序列需要依次输入、依序计算,图形处理器(Graphics Processing Unit,GPU)并行计算的能力受到了极大限制,导致 RNN 为基础架构的模型虽然参数量不算特别大,但计算时间成本却很高;RNN 难以捕捉长序列的相关关系。
2025-07-18 20:04:50
1057
原创 快乐学习大模型day1
2.语言模型:如N-gram模型是NLP领域中基于统计的语言模型,广泛应用于语音识别手写识别、拼写纠错,机器翻译、和搜索引擎等众多任务中。4.ELMO:静态词向是转移动态词向是step①预训练模型step②:在特定任务上对模型微调,得到适合某任务的词向是,得到词向量模型。忽略文本中的结构信息,如词序和上下文信息,限制了模型的表现力。优势:捕捉词汇的多义性和上下文信息,生成的词向量更丰富和准确,适用于多种NLP任务。缺点:基于局部上下文,无法捕捉长距离依赖关系,缺乏整体的词与词之间的依赖关系。
2025-07-14 21:31:21
234
原创 flask学习
在 Flask 中,的methods参数决定了路由支持的 HTTP 方法。是否同时支持POST和GET方法,取决于具体的业务需求。何时单独使用GET或POST,以及何时同时使用两者?GET:当路由用于返回页面内容、提交数据(在网址上)时(如展示一个表单、文章或静态页面)。(会在网址上提交数据):当路由用于从服务器获取数据(如查询信息)时。(1)
2025-03-26 23:07:44
825
原创 简单wow-RAG实现
步骤1.建立虚拟环境、下载依赖python -m venv myenv建立一个虚拟环境2.申请阿里百炼大平台的API Key并保存到环境变量3.构建clientapi_key =base_url =阿里云的配置是智谱的base_url是5构建文档,然后以chunk_size为单位分块6.向量化response返回的结构responsedata: 一个列表,包含生成的嵌入向量信息。embedding: 一个浮点数列表,表示输入文本的嵌入向量。index。
2025-03-12 15:46:32
913
原创 cursor辅助烟花绽放(网页版)
2微信二维码扫出来界面无法加载不知道怎么解决(和IP地址有关?只有手机要能访问电脑的端口才能加载出页面?1.JS基础知识、开发经验欠缺,难以发现代码出错的点;
2025-03-09 18:49:05
272
原创 微信小程序首页开发实战
1.2理解常用属性,flex-direction\flex-grow\flex-wrap\align-content\justify-content\align-item。固定头部和尾部的方式和老师方法不一样,老师用的是scroll-view+相对位置偏移,我最初用的是将头部和尾部的position设置成fixed,即相对于视图的位置。2scroll-view的使用,ps:scroll-view不支持flex。1.1语法:display:flex(父元素上装载)
2025-02-20 23:00:49
259
原创 微信小程序开发之首页开发实战
1.3width是有box-sizing属性的设置来决定的,若为content-box,设置的宽度为内容宽度(不含padding),若为border-box设置的宽度为包含padding和border的宽度。1.1盒的宽度有两种设计方式:(1)百分比(相对于父节点)(2)像素(绝对单位)fixed:相对于视图的位置偏移(可用于页面固定的内容)1.2明确外边距、内边距、边框和内容部分。absolute:相对于父节点的位置偏移。relative:相对于自己的位置偏移。ps:做小程序时尽量不用px。
2025-02-17 23:07:52
229
原创 Datawhale AI 冬令营 AI 辅助编程2
例如 简单介绍的“井字棋”游戏,我们可以将其拆分 创建基本的HTML界面、添加游戏棋盘结构、设置棋盘样式、初始化游戏变量、绘制棋盘和处理点击事件、添加游戏重启功能、优化游戏体验、实现电脑对战功能 等几个步骤。2.当一件事情我们自己没有梳理清晰、描述都复杂,一般情况下,沟通的效果不会太好。因此,我们应该随时保持清晰的视角、拆解问题,3.尝试通过 “关键词” “唤醒” AI能力。如何挖掘能够 “唤醒” AI的 “关键词”?最简单的方法去挖掘“关键词” ————能够“唤醒”AI的“关键词”。
2024-12-29 23:43:33
216
原创 Datawhale AI 冬令营 ----番茄钟制作
借助AI编程,很方便的一点是,使用IDE开发时,AI会帮你思考下面语句可能会写什么,自动帮你生成接下来的一行代码。给MarsCode的prompt:请你基于html、tailwind css、javascript设计一个简洁、美观、大方且具有呼吸感的番茄时钟,要求UI简洁美观大方,同时具有呼吸感,开始计时、暂停计时、重置计时的功能能完美实现。1.1prompt是给AI的指令,决定了AI回复的上限和下限,极大塑造了AI回复内容的内容、风格和整体质量。想法一:做一个目标识别的程序,比如拍照识别猫的种类。
2024-12-28 22:58:49
612
原创 Datawhale AI 冬令营 day2
收集完数据集之后(input,target格式的jsonl文件)----->写代码将得到的数据处理成Alpaca格式的训练集,并保存成jsonl。在数据增强过程中,进行了prompt优化,然后再推理;1.1利用经典小说文本,全书12w字,2.35MB,由于篇幅较长,需要将其拆分成多个段落。1.结构化数据,以JSON格式存储,数据集的格式选取Alpaca。1.尝试了用专门的摘要模型进行总结,但是模型总是加载不好;、推理,可批量处理,模型选用讯飞星辰Maa5平台。训练了一次的效果不是很好,损失函数很平稳。
2024-12-15 23:50:08
941
原创 Datawhale AI 冬令营 day1
大体了解到指定数据集 + 开源大模型 + 微调平台的部署过程。1.step1 创建大模型 嬛嬛->选择Qwen_v2.5_instruct模型。step4 创建应用(因为发布为服务时需要选择授权的应用)1.自己用数据集训练出来的模型和星火认知模型的区别。模型定制,一般可指微调开发(往往是使用。-step2 下载数据集->创建数据集。step5 体验AI嬛嬛,发布为服务。,这个我们容后再学),构建。2.微调是要改动提供的数据集吗。嬛嬛模型是基于数据集来回答的。(与通用大模型对应)。step3 开始训练。
2024-12-11 22:27:06
562
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅