
从零实现LLM
文章平均质量分 97
python 从零实现LLM https://github.com/xrzlizheng/PyLLMFromScratch.git
AI仙人掌
NLP算法专家|深耕智能文本处理领域,专注用AI技术驱动金融与政务场景的数字化转型
技术核心能力
领域专长
• 金融政务场景:10年+垂直领域经验,聚焦智能风控、政务文档解析、高精度信息抽取
• 文本智能处理:构建金融合同解析、监管文件结构化、政务问答系统等20+行业解决方案
展开
-
使用Python从零开始构建端到端文本到图像 Transformer大模型
本文介绍了一种基于Transformer的文本到图像生成方法。通过加载预训练的多模态模型组件,将文本提示映射为图像特征向量,并利用最近邻搜索在已知图像中找到最匹配的结果。该方法避免了直接像素生成的复杂性,采用简化策略实现跨模态生成。实验中,模型通过训练文本-图像对数据,学习预测与目标图像特征向量接近的输出。最终,通过展示与预测特征向量最接近的训练图像,验证了方法的有效性。尽管该方法在小规模数据集上取得了初步成果,但与复杂的GAN或扩散模型相比,仍有较大提升空间。原创 2025-04-13 00:00:00 · 945 阅读 · 3 评论 -
使用Python从零实现一个端到端多模态 Transformer大模型
本文介绍了一个端到端的多模态 Transformer 模型,能够同时处理图像和文本数据。我们从预训练的文本 Transformer 模型出发,通过加载其权重和配置,扩展模型以支持图像输入。我们使用 ResNet-18 提取图像特征,并将其投影到 Transformer 的嵌入空间。通过构建一个小型的图像、提示和回答数据集,我们对模型进行了微调,使其能够根据图像和文本提示生成回答。最终,我们展示了如何使用训练好的模型进行推理,并生成描述图像的文本。这个实现为多模态人工智能的应用提供了一个基础框架。原创 2025-04-12 00:00:00 · 1189 阅读 · 1 评论 -
使用Python从零开始构建生成型TransformerLM并训练
本文详细介绍了 Transformer 模型的实现过程,包括从字符级标记化到模型训练和文本生成的完整步骤。通过内联代码和详细注释,展示了如何构建一个仅解码器的 Transformer 语言模型。模型利用注意力机制捕捉文本中的关键信息,通过训练学会生成文本。文章还探讨了模型保存与加载的方法,并展望了其未来的发展。整个过程以幽默风趣的方式呈现,旨在帮助读者深入理解 Transformer 模型的原理和应用。原创 2025-04-11 00:00:00 · 1399 阅读 · 0 评论 -
python从零实现多模态Multi-Modal RAG:RAG 的“跨界”之旅,从书呆子到全能艺术家
从只会埋头苦读的“书呆子”,到如今既能读懂文字又能看懂图像的“全能艺术家”,RAG 的成长简直像是一部励志大片!它不仅学会了“看图说话”,还能把图像和文本完美结合,变成知识检索界的“黄金搭档”。文本分块:像切蛋糕一样把文本切成小块,方便消化。图像描述:给每张图像配上“解说词”,让它们不再默默无闻。向量存储:把文本和图像描述变成“数字密码”,存进它的“记忆库”。相似度搜索:像侦探一样,快速找到最相关的信息。生成响应。原创 2025-03-31 00:00:00 · 576 阅读 · 0 评论 -
【复读】从零开始图解DeepSeek R1 架构与训练过程
本文详细介绍了 DeepSeek R1 的架构设计与训练过程。DeepSeek R1 是一种先进的大型语言模型(LLM),它并非从零开始训练,而是基于已有的 DeepSeek-V3 模型,通过强化学习(RL)进行优化,以提升推理能力。文章首先解释了 DeepSeek-V3 的工作原理,它通过混合专家模型(MOE)架构,根据问题的复杂性选择不同的处理路径。接着,文章深入探讨了 DeepSeek R1 的训练过程,包括使用 GRPO 算法进行强化学习,以及如何通过奖励系统和拒绝采样等技术来优化模型的推理能力和语原创 2025-04-09 09:57:24 · 1548 阅读 · 3 评论