
大模型实战
文章平均质量分 90
从0到100的进行大模型实战学习
油泼辣子多加
多少事,从来急;天地转,光阴迫。一万年太久,只争朝夕。
展开
-
【NLP】Transformer网络结构(2)
将序列中每个 token 的位置信息编码为向量,与词向量相加后输入模型。常用正弦/余弦函数或可学习参数实现。:对每个样本的特征维度(而非批量维度)进行归一化,稳定训练。:通过两个线性变换与激活函数,增强模型非线性表达能力。原创 2025-04-07 16:25:14 · 147 阅读 · 0 评论 -
【NLP】Transformer网络结构(1)
在当前的自然语言处理领域,Transformer已经成为了当前NLP模型的标配,因此针对Transformer模型也需要重新从网络结构到实际应用回味一下。Transformer 是由 Vaswani 等人在 2017 年提出的革命性模型(论文),彻底改变了序列建模的范式。它完全依赖(Self-Attention)替代传统的 RNN/CNN,实现了并行化计算和长距离依赖建模。以下从角度详细解析其设计。原创 2025-04-03 09:50:31 · 566 阅读 · 0 评论 -
【大模型】DeepSeek-R1-Distill-Qwen使用Langchain网页部署
是由中国人工智能公司深度求索(DeepSeek)开发的轻量化大语言模型,基于阿里巴巴的Qwen系列模型通过知识蒸馏技术优化而来。当前模型开源后,我们可以将其部署,使用API方式进行本地调用。原创 2025-03-31 17:25:28 · 994 阅读 · 0 评论 -
【NLP】语言模型发展史
大模型发展近年突飞猛进,更多的人被吸引到LLM部署、训练、微调工作中去,但高楼决不是一日建成的,也需要回顾一下NLP的历史发展,看看语言模型的发展史。原创 2025-03-27 17:13:32 · 1364 阅读 · 0 评论 -
【大模型】DeepSeek-R1-Distill-Qwen使用Langchain部署调用
是由中国人工智能公司深度求索(DeepSeek)开发的轻量化大语言模型,基于阿里巴巴的Qwen系列模型通过知识蒸馏技术优化而来。当前模型开源后,我们可以将其部署,使用API方式进行本地调用。原创 2025-03-12 14:20:53 · 860 阅读 · 0 评论 -
【大模型】DeepSeek-R1-Distill-Qwen部署及API调用
是由中国人工智能公司深度求索(DeepSeek)开发的轻量化大语言模型,基于阿里巴巴的Qwen系列模型通过知识蒸馏技术优化而来。当前模型开源后,我们可以将其部署,使用API方式进行本地调用。原创 2025-03-10 15:30:13 · 2021 阅读 · 0 评论