大模型与自然语言处理-优快云博客

原创《大模型实战宝典》（2024版）正式发布！

2024 年刚开年，OpenAI 推出的文生视频工具 Sora 再次风靡全球，成为 OpenAI 继 ChatGPT 之后新的生成式 AI 标杆。关于大模型的话题不断涌现，令人应接不暇，截至到目前，国内大模型已发布数量超过200个。去年我们写了一本《大模型实战宝典》（以下简称《实战宝典》），有很多小伙伴订阅，反馈内容通俗易懂，有基础知识做铺垫，收获了很多。今年年初开始，就开始计划内容大版本升级，前期也做了很多准备工作。

2024-03-23 08:25:57 1663

原创《大模型面试宝典》(2024版) 正式发布！

2022 年11月底，OpenAI 正式推出 ChatGPT ，不到两个月的时间，月活用户就突破1亿，成为史上增长最快的消费者应用。目前国内已发布的大模型超过200个，大模型的出现彻底改变了我们的生活和学习方式。现在只要你想从事 AI 相关的岗位，无论是计算机视觉（CV）、自然语言处理（NLP）、搜广推、风控等，大模型相关话题都是绕不开的。节前，我们星球群组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、最近参加社招和校招面试的同学。

2024-03-23 08:21:03 3814

原创阿里大模型2面：损失函数没答上来...

举个例子，看这张图。看这张图，向前传播时，由于 s 是多个 z 共同决定的，所以需要求出 s 对所有 z 的导数，以 s1 为例，前向传播求梯度的时候，需要求出 s1 对 z1，z2，z3…这是阿里的一份大模型算法面经，可以看到，面试官避开了 rag，agent 这些热门考点，转而对大模型训练中的损失函数进行了深挖，很好的考察到了候选人的基本功。所以我们最后求偏导的时候，需要计算 i=j 和 i≠j 两种情况，也就得到了我们前面的结论，最后的梯度等于预测标签分布和真实标签分布的差，结论非常漂亮。

2025-10-22 15:56:29 1041

原创大模型算法面试真题，秋招必刷~

比如我们假设某个任务 T 有 5 个子任务 Sub-T 构成，每个 sub-T 随着模型增长，指标从 40% 提升到 60%，但是最终任务的指标只从 1.1% 提升到了 7%，也就是说宏观上看到了涌现现象，但是子任务效果其实是平滑增长的。优点：相比于 Post-LN，Pre-LN 在深层的梯度范式近似相等，所以使用 Pre-LN 的深层 transformer 训练更稳定，可以缓解训练不稳定问题。复杂任务由多个子任务组成，子任务性能随模型规模平滑提升，但整体任务指标可能出现“跳变”，表现为涌现能力。

2025-10-22 15:52:26 1123

原创手把手教你用LLaMA-Factory微调Qwen3大模型

参考： https://help.aliyun.com/zh/egs/user-guide/install-a-gpu-driver-on-a-gpu-accelerated-compute-optimized-linux-instance。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。1）3090显卡的即可（如果本地有GPU机器，请用自己的），选择了PyTorch。在服务器上安装LLaMA-Factory环境，然后微调Qwen3-4B大模型。

2025-05-24 16:07:40 1316 1

原创北京内推 | 百度文心一言算法团队招聘大模型对齐策略算法工程师/实习生

在这里，你能拥有海量的GPU与数据资源，极致提升文心一言大模型的效果，探索大模型的能力边界。

2025-05-24 14:29:14 617

原创上海人工智能实验室大模型算法岗，竞争太激烈了。。。

当前职场竞争激烈，求职者增多而岗位减少，要求也更高。为帮助求职者应对技术面试，我们整理了大厂面试题并发布《大模型面试宝典》(2025版)。上海人工智能实验室实习岗位竞争尤为激烈，HR反馈投递人数众多。无论是实习还是正式工作，提前准备至关重要。面试内容涵盖自我介绍、项目经验、技术问题及算法题，涉及大模型训练、微调、推理加速等。建议求职者尽早准备，以提升获得心仪offer的机会。

2025-05-10 12:48:09 1369

原创图解AI三大核心技术：RAG、大模型、智能体

在当前竞争激烈的职场环境中，求职者面临岗位减少、要求提高的挑战。为帮助求职者更好地准备实习和面试，我们整理并发布了大厂面试题及技术面试中的关键点，特别推出了《大模型面试宝典》(2025版)。此外，文章还分享了大模型中的Transformer与混合专家（MoE）、5种大模型微调技术、传统RAG与Agentic RAG对比、5种经典的智能体设计模式、5大文本分块策略、智能体系统的5个等级、传统RAG vs HyDE、RAG vs Graph RAG以及KV caching等内容，旨在为求职者提供实战和面试交流的

2025-05-10 12:37:47 413

原创最新大模型简史整理：从Transformer到DeepSeek-R1

语言模型」是一种「人工智能系统」，旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构，使得能够产生连贯且上下文相关的文本，应用于翻译、摘要、聊天机器人和内容生成等领域。

2025-04-12 18:52:16 1088

原创从 Llama 1 到 Llama 4：Llama家族全解

最近春招和日常实习已开启。不同以往的是，当前职场已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。Llama模型由Meta公司推出，自2023年首次发布以来，迅速成为自然语言处理领域的热门研究对象。Llama 1凭借其创新的架构和出色的性能，在多项自然语言处理任务中取得了优异成绩，引起了广泛关注。

2025-04-12 18:30:30 1033

原创单卡4090微调大模型 DeepSeek-R1-32B

上篇文章的微调结果并不好，因为设置了max_steps=60 限制了只执行60步以便快速完成实验。之前文章同样的方法，也可以在 24G 显存的单卡 4090 上微调训练 deepseek-ai/DeepSeek-R1-Distill-Qwen-32B；即使该模型的权重文件大小已经达到 62G，这是因为 unsloth 和 lora 的量化微调和部分参数微调优化可以大幅节约显存占用。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。本次训练在算力平台上完成。

2025-04-12 12:35:57 1692

原创【大模型面经】智谱大模型算法岗，整体面试体验真棒

最近春招和日常实习已开启。不同以往的是，当前职场已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。

2025-04-12 12:29:56 557

原创一文了解DeepSeek及应用场景

DeepSeek R1在数学、代码、自然语言推理等任务上。

2025-03-30 10:19:30 1298

原创百度大模型岗面试，还是比较有压力的

整体下来感觉面试官都是非常专业的，面试深度和广度都很可以，三场面试层层递进。面试官人也不错，如果比较满意的话也愿意多花时间来聊，而不是严格的卡一个小时这种完任务式的面试。

2025-03-30 10:15:15 797

原创一文带你详细了解：大模型MoE架构（含DeepSeek MoE详解）

稀疏 MoE 层：取代传统 Transformer 的前馈网络（FFN）层。MoE 层由多个“专家”（如 8 个）组成，每个专家是一个独立的神经网络，通常是 FFN，也可以是更复杂的结构，甚至是嵌套的 MoE 形成层级式结构。门控网络或路由：决定哪些 Token 由哪个专家处理。例如，“More”可能被分配给第二个专家，而“Parameters”可能被分配给第一个。有时，一个 Token 甚至可以被多个专家处理。路由方式由可学习的参数控制，并与整个模型一同训练，是 MoE 关键机制之一。

2025-03-29 22:25:05 1964

原创质谱大模型面试题：模型量化技术原理与区别

在大模型时代，量化技术已经成为AI工程师的必备技能，就像摄影师必须掌握光线调节一样重要。量化技术全景图技术适用场景优势代价训练后量化(PTQ)快速原型开发临时部署即时生效零训练成本精度损失较大量化感知训练(QAT)高精度需求医疗/金融场景保持95%+原模型精度需要重新训练4位量化微调边缘设备移动端应用75%内存节省 QLoRA恢复性能微调数据依赖混合精度异构计算平台实时系统智能资源分配硬件友好配置复杂度高实用选择指南紧急上线？→ PTQ是你的"急救包"追求完美？

2025-03-29 18:25:44 1286 1

原创阿里多模态大模型Qwen2.5-VL-32B ，本地部署实践

Qwen2.5-VL-32B 介绍，我就不帮忙吹嘘了，阿里没有给我广告费通过视觉理解：Qwen2.5-VL 不仅擅长识别常见的花朵、鸟类、鱼类和昆虫，而且能够高效地分析图像中的文本、图表、图标、图形和布局。具有自主性：Qwen2.5-VL 直接扮演视觉代理的角色，能够进行推理并动态指导工具使用，具备计算机使用和手机使用的能力。理解长视频并捕捉事件：Qwen2.5-VL 能够理解时长超过 1 小时的视频，并且这次它新增了捕捉事件的能力，能够定位相关的视频片段。

2025-03-29 18:19:49 4229 1

原创【面经】面试京东大模型算法岗，被狠狠拷打啊。。。。

最近春招和实习已开启了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。。今天分享一些京东算法岗一面面经。

2025-03-22 18:05:49 1238

原创手把手教你基于Ollama+FastGPT+Deepseek，打造个人知识库！

最近春招和实习已开启了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。。本文从零实现，基于Ollama、FastGPT、Deepseek在本地环境中打造属于自己的专业知识库，与大家分享~

2025-03-22 18:00:31 1430

原创一网打尽！5大深度学习模型！RNN、CNN、Transformer、BERT、GPT

相较于RNN，CNN在处理图像数据方面更胜一筹，它能够自动学习图像中的局部特征，无需人工设计繁琐的特征提取器，从而实现了更高效、更精准的处理效果。这种设计赋予了RNN在处理具有时序关系的数据时得天独厚的优势，因此，在自然语言处理、语音识别等任务中，RNN均展现出了卓越的性能与广泛的应用前景。首先，在关键技术方面，这五种模型各具特色，它们通过不同的算法和结构来提取数据中的深层信息，实现了高效的特征学习和模式识别。GPT在自然语言处理领域获得了显著的突破和广泛的应用，成为众多NLP任务中的佼佼者。

2025-03-11 21:55:37 1189

原创算法面试官提问：Transformer到底解决什么问题？

梯度消失：误差信号在反向传播时越来越弱，导致模型学不会长期规律。简单来说，RNN的梯度消失就像“传话游戏越传越错”。反向传播反向传播（英语：Backpropagation，缩写为BP）是“误差反向传播”的简称，是一种与最优化方法（如梯度下降法）结合使用的，用来训练人工神经网络的常见方法。举个例子：正向传播：三个人在玩你画我猜游戏，第一个人描述物品信息传给第二个人，再由第二个人描述给第三个人，第三个人说出画的是什么？

2025-03-11 21:50:23 1058

原创 DeepSeek + Cherry Studio：轻松打造专属知识库，秒变资料管理大师！

是不是每次找资料都像在“垃圾场”淘宝，翻得手忙脚乱还一无所获？别担心，今天我教你用DeepSeek和Cherry Studio打造专属知识库，小白也能秒变资料管理大师！

2025-03-11 21:43:33 1039

原创阿里淘天多模态大模型面经分享

整体来说面试体验比较好，问的问题都不难，面试官也都不错，遇到一些卡壳的地方也会进行引导讨论，面试氛围很轻松。三面应该是加面的大老板面，从交流可以看出来对整个大模型这块的理解还是很深刻的，收获不小。

2025-03-09 11:05:33 1629

原创用 Ollama + DeepSeek + Dify ，搭建本地知识库！！！

1. Dify：AI 应用开发平台Dify 是一个开源的 LLM（大语言模型）应用开发平台，功能超强大。它支持自定义 AI 工作流，能实现复杂任务自动化；还有 RAG 管道，通过检索增强生成技术，让文档检索和问答超准；多种主流 LLM 模型都能集成管理，还提供丰富的日志和监控功能。Dify 的架构也很清晰，分为模型层、数据处理层、应用层和管理层，能满足各种需求。2. DeepSeek：国产大模型的骄傲。

2025-03-09 10:58:55 2152 1

原创我用 DeepSeek 制作了一个课堂点名系统

是时候准备春招和实习了。节前，我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。不知道有没有老师朋友们在上课点名的时候，出现叫错名的尴尬场景。没有点名册的时候，依稀只能想起那印象深刻的两三个学生名字。现在有了deepseek，你们敢信吗，我花就做出来了课堂随机抽问的网页版本，效果非常惊艳。看到最后保证所有人都会，无脑操作！

2025-03-03 23:27:16 2477

原创 20个 DeepSeek 高频面试题总结

针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。节前，我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。是时候准备春招和实习了。

2025-03-03 22:55:01 1828

原创大模型面试官提问：混合专家（MoE）是什么？

多头潜在注意力（MLA）和多头注意力（MHA）的区别是什么？DeepSeek对DeepSeek-V3进行了预训练，使用的是14.8万亿个多样且高质量的标记，随后进行了监督微调（Supervised Fine-Tuning）和强化学习（Reinforcement Learning）阶段，以充分发挥其能力。DeepSeek推出了DeepSeek-V3，这是一个强大的混合专家（Mixture-of-Experts，MoE）语言模型，总参数量达到6710亿，每个标记（token）激活的参数量为370亿。

2025-02-23 08:52:49 1182

原创一文搞懂DeepSeek - 基础模型（V3）和深度思考（R1）

是时候准备春招和实习了。节前，我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。DeepSeek提供了提供了基础模型（V3）和深度思考（R1）两种不同模式，以满足用户在不同场景下的需求。基础模型（V3）是通用模型，适用于绝大多数“规范性”任务，如用于快速获取百科信息；而深度思考（R1）是推理模型，擅长解决复杂推理和深度分析等“开放性”任务，如数理逻辑推理和辅助编程。

2025-02-23 08:39:43 1771

原创面试了腾讯大模型算法，三面有点悬了。。。

是时候准备春招和实习了。节前，我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。面试公司：腾讯岗位：大模型算法。

2025-02-19 22:59:30 477

原创头部C9科班本硕研二，拿到大模型算法岗

是时候准备春招和实习了。节前，我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。bg：头部C9科班本硕研二，2中厂大模型应用相关实习年前最后几天，拿到了Offer，面试感觉从一到三面压力逐渐下降，三面 leader 只是对项目细节和落地感兴趣，没有拷打技术原理和八股，都在问实现的事。

2025-02-19 22:56:18 876

原创解锁 DeepSeek：50 案例教你玩转 7 大场景，附全套提示词秘籍

大家好，今天给大家分享的是：DeepSeek 7大场景+50大案例+全套提示词，从入门到精通干货，共计：112页。该文档围绕国产AI工具DeepSeek展开，全面介绍其功能、应用场景、提示词使用及进阶玩法等内容。DeepSeek是一款功能强大的国产免费AI工具，采用独特算法和模型架构，在回应速度和内容质量上表现出色，具有智能问答、内容生成、数据分析、任务管理和学习助手等核心功能，能解决多领域问题。在使用方面，需正确掌握提示词，避免常见错误，如笼统、过度限制等。

2025-02-16 21:15:50 489

原创 DeepSeek嵌入到Excel，提升10倍工作效率，太牛了！

是时候准备春招了。节前，我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。昨天跟大家分享了DeepSeek的简单用法，有粉丝就问道：能将DeepSeek嵌入到Excel吗？当然可以了，我们需要借助VBA代码来实现，以下的代码都是由DeepSeek自动生成的，我们还需要调用DeepSeek的API，

2025-02-12 21:07:51 753

原创 DeepSeek 杀死了 Excel！感觉我要失业了！

是时候准备春招了。节前，我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。2025开年相信大家都被DeepSeek刷屏了，DeepSeek以极地训练成本这么低，就获取了跟ChatGPT相近的性能，给美国科技圈一记暴击。有不少粉丝都问道DeepSeek应该怎么使用？

2025-02-12 21:03:12 644

原创清华大学DeepSeek使用手册，长达104页！（附PPT下载）

从避免AI幻觉的小窍门，到设计出色提示语的秘籍，每一页都凝聚着干货知识，让用户能够直接上手操作，快速掌握DeepSeek的精髓。这份文档不仅为用户提供了关于DeepSeek的全面知识，还体现了中国科技在人工智能领域的快速发展。《DeepSeek：从入门到精通》以通俗易懂的方式，全面介绍了DeepSeek的使用方法，为用户提供了极具价值的指导。这份文档内容丰富，篇幅长达104页，涵盖了众多实用技巧。

2025-02-09 22:18:43 9308 1

原创 DeepSeek + Word ，让你的工作更高效！

是时候准备春招了。节前，我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。DeepSeek + Word ，让你的工作更高效！在 Word 界面里，选中文字点击按钮，就能让 DeepSeek 为你快速检索信息、精准翻译文本、智能生成内容等等。这样就不需要在多个软件之间频繁切换，告别低效的信息处理方式，让工作效率大幅提升！

2025-02-09 11:23:30 1241

原创大模型 DeepSeek-r1 本地部署如何开启联网搜索？

Page Assist 是一款开源浏览器扩展，旨在为您的本地 AI 模型提供侧边栏和 Web UI。通过它，您可以从任何网页与您的模型进行互动。当前功能： - 用于各种任务的侧边栏 - 支持视觉模型 - 本地 AI 模型的极简 Web UI - 互联网搜索 - 在侧边栏上使用 PDF 聊天 - 与文档聊天（pdf、csv、txt、md、docx）二、安装方法Chrome 谷歌浏览器在线方法直接打开链接，无法打开的可以采用离线安装方法。输入【Page Assist】搜索插件。

2025-02-09 11:17:09 2478

原创《大模型面试宝典》(2025版) 来了

大家好我是费老师，最近国产大模型新版本凭借其优秀的模型推理能力，讨论度非常之高🔥，且其官网提供的相关大模型API接口服务价格一直走的“价格屠夫”路线，性价比很高，本期文章中，就将为大家举例，如何在vscode中，基于开源AI编程辅助插件Continue，配置基于Deepseek的API接口，实现常用的AI编程辅助等功能。

2025-02-08 21:02:33 1147

原创一文搞懂DeepSeek - 开源模型R1

DeepSeek系列模型包括R1（数学、代码及推理领域开源大模型，回答全面详实）、V3（自研MoE模型，性能顶尖且性价比极高）、VL（视觉与语言理解开源多模态模型）、V2（创新架构，推理成本低廉）、R1-Zero（强化学习预模型，独特优势）、以及蒸馏版Qwen和Llama小模型（从R1数据蒸馏，表现优异）。DeepSeek-R1的技术创新在于开发了GRPO算法以优化策略网络，避免了高计算开销，同时设计了多层次奖励机制和“思考-回答”双阶段训练模板，确保模型推理的高效性、可读性和过程可追踪性。

2025-01-27 08:06:10 2686

原创【秋招算法面试】面试官提问“大模型流水线并行”,我是一脸问号。。。

那后来在此基础上呢，顺着这个思路，流水线并行还有很多优化的工作，如 1F1B 交错式调度/非交错式调度，DAPPLE，Chimera，TeraPipe，关于这些优化，大家如果有兴趣，我们后面继续探讨，欢迎大家持续关注。如果把 mini batch 切得更小，利用率还可以进一步提升，实际上，此时的空闲率等于：(K-1)/(K+M-1)，K 还是 GPU 数量，M 是 batch 切分的份数。我们想一下，这种方式有个潜在的问题，就是只有算完第一层的结果，才能计算第二层，以此类推，如下图所示。

2025-01-26 08:42:54 851

原创算法面试官提问：讲讲 MoE 模型

还有就是腾讯混元团队 2024 年提出了混合异构专家模型（HMoE），MoE 层中的每个专家的大小不再相同，从而赋予了每个专家不同的表达能力，这种差异化设计使得路由可以根据专家的实际能力动态分配不同难度的 token，有效解决了专家专业化程度不足的问题。例如，当前 MoE 模型有 4 个专家，针对输入“More”，输出的概率可能为 0.1、0.65、0.15、0.1，这意味着第一个专家对处理此数据的贡献为 10%，第二个专家为 65%，第三个专家为 15%，第四个专家为 10%。

2025-01-26 08:39:08 957

空空如也

空空如也