Python算法实战-优快云博客

原创《大模型面试宝典》(2025版) 正式发布！

大部分人可能想不到，2025年春节假期，大模型圈子竟然会这么热闹。DeepSeek 正式开源了 DeepSeek-R1，在数学、代码和自然语言推理等任务上比肩 OpenAI o1 正式版。这位来自「神秘东方力量」DeepSeek 算是彻底破圈，火遍大江南北，火到人尽皆知。经历了过去两年的狂飙，国内大模型已经在多个垂直赛道中强势崛起，跨过了护城河，已发布的模型超过200个，相关应用产品不计其数。

2025-02-04 15:34:12 1150

原创重磅消息！《AIGC 面试宝典》(2024版) 正式发布！

2022 年下半年以来，文本生成图像快速出圈，多款应用持续火爆。国外文生图代表：Midjourney、Stable Diffusion、OpenAI 的 DALL-E：海外模型SD开源，进一步促进了国内大厂的研究热情和应用落地：随着多模态技术迭代，图像生成、视频生成、3D生成、音频生成等 AIGC 应用加速落地，相关岗位需求特别旺盛。节前，我们星球群组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、最近参加社招和校招面试的同学。

2024-05-20 09:09:27 2421

原创重磅消息！《大模型实战宝典》(2024版) 正式发布！

2024 年刚开年，OpenAI 推出的文生视频工具 Sora 再次风靡全球，成为 OpenAI 继 ChatGPT 之后新的生成式 AI 标杆。关于大模型的话题不断涌现，令人应接不暇，截至到目前，国内大模型已发布数量超过200个。去年我们写了一本《大模型实战宝典》（以下简称《实战宝典》），有很多小伙伴订阅，反馈内容通俗易懂，有基础知识做铺垫，收获了很多。今年年初开始，就开始计划内容大版本升级，前期也做了很多准备工作。

2024-03-23 09:04:57 1357

原创重磅消息！《大模型面试宝典》(2024版) 正式发布！

2022 年11月底，OpenAI 正式推出 ChatGPT ，不到两个月的时间，月活用户就突破1亿，成为史上增长最快的消费者应用。目前国内已发布的大模型超过200个，大模型的出现彻底改变了我们的生活和学习方式。现在只要你想从事 AI 相关的岗位，无论是计算机视觉（CV）、自然语言处理（NLP）、搜广推、风控等，大模型相关话题都是绕不开的。节前，我们星球群组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、最近参加社招和校招面试的同学。

2024-03-23 09:01:30 3353

原创熬了一个通宵，把国内外的大模型都梳理完了！

大家好，大模型越来越多了，真的有点让人眼花缭乱。为了让大家清晰地了解大模型，我熬了一个通宵把国内和国外的大模型进行了全面梳理，国内有189个，国外有20+，同时包括大模型的来源机构、来源信息和分类等。如果你想参与我们技术讨论、前沿技术分享，请加入我们。

2023-12-17 21:33:25 1330

原创整理了上百个开源中文大语言模型，涵盖模型、应用、数据集、微调、部署、评测

自ChatGPT为代表的大语言模型（Large Language Model, LLM）出现以后，由于其惊人的类通用人工智能（AGI）的能力，掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后，业界涌现了非常多基于LLM的二次微调或应用的案例。本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料，目前收录的资源已达100+个！

2023-12-17 16:07:38 3827 1

原创行业大模型训练经验分享&落地思考

最后共勉：BERT时代况且还在用TextCNN，难道13B的模型就不叫大模型吗？

2023-12-14 23:47:32 1347

原创 PyTorch 模型训练性能大揭秘：从基础到高级技巧一网打尽！

PyTorch 是一个开源的 Python 机器学习库，基于Torch，用于自然语言处理等应用程序。PyTorch既可以看作加入了GPU支持的numpy，也可以看成一个拥有自动求导功能的强大的深度神经网络，同时它也是大模型开发的首选工具。《PyTorch模型训练性能调优宝典》是解决PyTorch训练性能和效率问题的首选宝典。包括：AI/ML平台工程师、数据平台工程师、后端软件工程师、MLOps工程师、站点可靠性工程师、架构师、机器学习工程师以及任何希望掌握PyTorch性能调优技巧的专业人士。

2023-12-14 22:03:06 473

原创 LoRA 微调大模型的实践经验总结

在深度学习领域，特别是在大型语言模型（LLM）领域，模型的大小导致更新模型权重的成本非常高。假设我们有一个含有70亿参数的LLM，这些参数被表示在一个权重矩阵W中。在训练中，为了最小化损失函数，我们会计算一个ΔW矩阵，里面包含了对原始权重的更新信息。通常的权重更新过程如下：如果权重矩阵W包含70亿参数，那么权重更新矩阵ΔW也将包含70亿参数，计算ΔW将消耗巨大的计算和内存资源。为了解决这一问题，Hu等人提出了LoRA方法，该方法通过分解权重变化ΔW到一个低秩表示。

2023-12-12 22:29:09 1945

原创使用 PyTorch 完全分片数据并行技术加速大模型训练

本文，我们将了解如何基于 PyTorch 最新的功能用库来训练大模型。

2023-12-11 22:51:52 592 1

原创基于 LangChain 的优秀项目资源库

精选的使用 LangChain 的工具和项目列表。在AI盛起的当下，各类AI应用不断地出现在人们的视野中，AI正在重塑着各行各业，LangChain 是从事AI应用开发的人员或多或少都会接触到的框架。LangChain是一个令人惊叹的框架，可以在极短的时间内完成LLM项目，其生态系统正在快速发展。

2023-12-09 11:13:00 1953

原创 LangChain+通义千问+AnalyticDB向量引擎保姆级教程

1.创作文字，如写故事、写公文、写邮件、写剧本、写诗歌等;2.编写代码；3.提供各类语言的翻译服务，如英语、日语、法语、西班牙语等；4.进行文本润色和文本摘要等工作；5.扮演角色进行对话；6.制作图表等。如果直接使用通义千问API从0到1来构建应用，技术成本还是相对比较高的。幸运的是，当前已经有非常优秀的框架LangChain来串联AIGC相关的各类组件，让我们轻松构建自己的应用。

2023-12-08 23:37:14 1925

原创让DeepSeek威力加倍！教你本地搭建知识库

输出结果中，最左边一列应该可以看到如下服务：api、db、nginx、redis、sandbox、ssrf_proxy、weaviate、web、worker。在聊天助手窗口下方的“上下文”栏选择“添加”，就可以调用知识库。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。注意：首先请确保你已经安装了Git和Python，并保持“网络畅通”。Dify的知识库功能十分丰富，更多使用方法请参考推文底部的官方文档。

2025-03-30 10:45:45 793

原创朋友团队招聘| 阿里通义实验室对话智能团队大模型研究型实习生

阿里巴巴通义实验室，主要负责通义系列大模型研究与产品落地。其中对话智能团队，以大模型研究和应用为中心，以对话为核心交互形态，推进大模型的大规模商业化应用，主要技术包括：（1）对话大模型（2）代码大模型（3）AI Agents等；过去三年发表60+篇国际顶会论文；主要业务场景包括（1）通义晓蜜 (2) 通义星辰 (3) 通义灵码。其中，阿里云智能客服在国内对话式AI市占率第一。

2025-03-30 10:40:27 518

原创百川智能大模型面试题：PPO & GRPO 原理及区别是什么？

通过这个小学考试的比喻，我们逐步从只看绝对分数的朴素思路，演化到 PPO 的完整机制（Critic、Advantage、Clip、Reference Model），再到GRPO的创新思路（用一组输出的平均得分当基线，省去价值函数的繁琐）。以下几点值得再次强调：Critic 的意义：它为每个状态或阶段提供“合理预期”，大幅降低了训练方差；Clip & min 机制：约束策略更新幅度，避免一次考试“爆发”带来的巨幅震荡；

2025-03-29 18:09:08 732

原创基于新版DeepSeek V3，轻松开发大模型智能体Agent

为了能以兼容openai标准的形式，在中调用国内常用的各种DeepSeek服务源，我们需要基于中的譬如，接入DeepSeek# 示例1：DeepSeek官方api_key='<填入你的key>'# 示例2：火山方舟api_key='<填入你的key>'# 示例1：DeepSeek官方# 这里deepseek-chat对应目前最新的非深度思考模型V3# 示例2：火山方舟'<请填写你在火山方舟控制中创建的推理点id>',

2025-03-29 17:53:36 636

原创一文讲透八款主流大模型推理框架

当前大模型推理平台/引擎生态各具特色，从企业级高并发服务到本地轻量化部署，从国产硬件优化到前沿编译技术探索，每种方案都有其独到优势。选择合适的推理方案不仅需考虑技术指标，更要结合业务场景、硬件资源与未来扩展规划。未来，随着技术的不断进步和产业协作的加深，大模型推理生态将呈现出更加多元、灵活和高效的局面，为各领域在激烈竞争中抢占先机提供强大支撑。

2025-03-22 17:29:39 573

原创京东二面：DeepSeek为何要用FP8而不是INT8？

最近已有不少大厂开启春招宣讲了。节前，我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。随着DeepSeek爆火，面试中也越来越高频出现，因此训练营也更新了DeepSeek系列技术的深入拆解。包括MLA、MTP、专家负载均衡、FP8混合精度训练，Dual-Pipe等关键技术，力求做到全网最硬核的解析~本文介绍 DeepSeek 中大量使用的一种数据编码方式——FP8。

2025-03-22 17:15:45 1060

原创图解 Transformer 和 MoE 的差别

专家混合（MoE）是一种流行的架构，比如最近火爆天的 DeepSeek V3 和 R1 就是这类模型。MoE 使用 experts，它们是前馈网络，但与 Transformer 中的网络相比更小。MoE 具有更多的参数需要加载，但由于每次仅选择部分专家，因此只有一部分参数被激活。挑战 2）某些专家可能会比其他专家处理更多的 token，导致部分专家训练不足。如果某个专家达到上限，输入的 token 就会被传递给下一个最合适的专家。在路由器的前馈输出中添加噪声，使其他专家的 logits 更高。

2025-03-09 16:00:03 371

原创字节大模型岗面试：BF16为什么比FP16更适合大模型训练？

随着DeepSeek爆火，面试中也越来越高频出现，因此训练营也更新了DeepSeek系列技术的深入拆解。包括MLA、MTP、专家负载均衡、FP8混合精度训练，Dual-Pipe等关键技术，力求做到全网最硬核的解析~本篇文章主要对训练 LLM 以及部署应用时的精度问题进行了一些探讨和实践，读过后应该会对常用的浮点数 FP16，FP32，BF16 有一个更好的理解~

2025-03-09 14:34:48 1166

原创美团开源首发INT8无损满血版DeepSeek R1

根据DeepSeek最新发布的技术报告，V3/R1突破性的训练成本控制主要依托FP8精度训练方案。FP8是一种典型的模型量化技术，相较于业界常用的BF16精度，FP8精度通过将数据位宽减半显著降低了单次计算开销，但也会带来一定的精度损失。在实践中，DeepSeek R1采用了混合精度训练机制有效缓解了精度损失问题。由于DeepSeek R1采用FP8精度训练，所以开源的原生权重就是FP8精度。

2025-03-09 14:20:17 1209

原创一文详解如何使用 vLLM 在本地部署 DeepSeek 语言模型

通过以上步骤，你已成功在本地部署了 DeepSeek 模型，并能够通过 vLLM 进行推理。如果在部署过程中遇到问题，请参考 vLLM 官方文档或在相关社区寻求帮助。祝你使用愉快！

2025-03-03 22:33:44 884

原创面了美团大模型算法，压迫感满满！！！

最近已有不少大厂开启春招宣讲了。节前，我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。大家好，最近面了美团大模型算法岗(日常实习)，bg一般，之前有一段还可以的实习。面试题分享，欢迎与我交流学习。

2025-03-03 22:27:57 604

原创北大DeepSeek使用手册来了，清北是在“神仙打架”吗？

清华之前出了 5 份 DeepSeek 的相关教程，北大近期了也出了两个，做个整理。。。

2025-02-28 14:16:09 732

原创大模型面试官提问：多头注意力（MHA）和多头潜在注意力（MLA）

最近春招和实习已开启了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。。更多实战和面试交流，文末加入我们。

2025-02-23 08:49:50 930

原创 DeepSeek-R1 + RAG搭建本地知识库

最近春招和实习已开启了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。。更多实战和面试交流，文末加入我们。

2025-02-23 08:45:49 1686

原创 Deepseek本地部署详细指南！从 Ollama 到个人知识库应用

mbp pro。

2025-02-23 08:30:43 394

原创小米大模型二面，我感觉要废了

原理是类似的，embedding 矩阵的初始化方式是 xavier，方差是 1/根号 d，因此乘以根号 d，可以让 embedding 矩阵的方差是 1，从而加速模型的收敛。举个例子：假如输入的原始句子是"我爱机器学习"，我们按最简单的基于字的分词，这个样本的单词长度是 6，也就是 ‘我’ ‘爱’ ‘机’ ‘器’ ‘学’ ‘习’，这六个字。所以更深层的原因是，选择根号 d，可以让输入 softmax 的分布，也就是 Q*K^T 更加趋近一个标准的正态分布，也就是均值为 0，方差为 1 的正态分布。

2025-02-19 23:12:42 850

原创大模型 RLHF 夺命连环17问，答错直接挂！

对于目前很火的Deepseek，最近有准备LLM面试的学员问需要重点掌握哪些东西，给大家的建议是这块最重要的是deepseek v3和r1的技术报告，建议大家去精读一下，其中MLA注意力，MTP，GRPO，冷启动数据，这些是重点。作为大模型对齐人类价值观的核心技术，RLHF 不仅决定了模型的"情商"，更是面试中高频出现的必考点——如何设计奖励函数？针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。使模型生成更安全、有用、符合伦理的文本。

2025-02-19 23:07:57 791

空空如也

空空如也