
大语言模型
文章平均质量分 68
LLMs
sauTCc
存在即合理
展开
-
大模型中的三角位置编码实现
Transformer模型中的嵌入表示和位置编码是实现自然语言处理任务的关键组件。本文提供了两种实现方式:一种是通过EmbeddingWithPosition类将词嵌入与位置编码结合,另一种是通过create_pe_absulute_sincos_embedding和creat_pe_absolute_sincos_embedding_gov函数生成绝对位置编码。这些方法都利用了正弦和余弦函数来生成位置编码,确保模型能够捕捉序列中的位置信息。代码中使用了PyTorch框架,并通过assert语句确保输入维度原创 2025-05-10 20:24:44 · 296 阅读 · 0 评论 -
MCP新手入门[科普向]
MCP全称是 Model Context Protocol ,中文翻译过来就是模型上下文协议,那么什么是模型上下文协议呢,我们可以把他当作专门用于大模型应用开发的一种标准协议,2025年被称为agent元年,各大公司纷纷投入到agent的开发当中,并且现在大模型应用相关的岗位也是非常多,所以了解MCP是一件非常有必要的事情。回顾大模型应用的发展,从传统的LLM(next token predict),这时的大模型还只能作为辅助工具来使用,并且存在一定的幻觉问题。原创 2025-04-14 16:58:12 · 718 阅读 · 0 评论 -
N元语言模型的时间和空间复杂度计算
对于N元语言模型,时间复杂度是O(V ^ {N-1}),空间复杂度是O(V ^ {N}),N是词汇表的大小。原创 2025-04-02 16:57:19 · 306 阅读 · 0 评论 -
DataWhale-三月学习任务-大语言模型初探(一、二、五章学习)
一些传统领域的研究,已经逐渐被大模型取代,而转向为如何提升大模型的领域能力和综合能力。在信息检索领域,出现了较火的RAG和大模型增强的搜索系统,同时大语言模型对科技发展也在产生着非常重要的影响。对此Open-ai提出了RLHF对齐方法,最近学术界开始涌现除了一批使用监督微调的对齐方式,从而简化RLHF的优化过程算法,如DPO算法等。1.规模不断扩展,数据、算力、模型参数量都在逐渐变大,但是近期也有一些工作在尝试使用较小的模型参数来实现相当的能力。从上图可以看出,语言模型逐渐越来越火热。原创 2025-03-10 15:30:01 · 945 阅读 · 0 评论