- 博客(267)
- 收藏
- 关注

原创 《大模型实战宝典》(2024版)正式发布!
2024 年刚开年,OpenAI 推出的文生视频工具 Sora 再次风靡全球,成为 OpenAI 继 ChatGPT 之后新的生成式 AI 标杆。关于大模型的话题不断涌现,令人应接不暇,截至到目前,国内大模型已发布数量超过200个。去年我们写了一本《大模型实战宝典》(以下简称《实战宝典》),有很多小伙伴订阅,反馈内容通俗易懂,有基础知识做铺垫,收获了很多。今年年初开始,就开始计划内容大版本升级,前期也做了很多准备工作。
2024-03-23 08:25:57
1543

原创 《大模型面试宝典》(2024版) 正式发布!
2022 年11月底,OpenAI 正式推出 ChatGPT ,不到两个月的时间,月活用户就突破1亿,成为史上增长最快的消费者应用。目前国内已发布的大模型超过200个,大模型的出现彻底改变了我们的生活和学习方式。现在只要你想从事 AI 相关的岗位,无论是计算机视觉(CV)、自然语言处理(NLP)、搜广推、风控等,大模型相关话题都是绕不开的。节前,我们星球群组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、最近参加社招和校招面试的同学。
2024-03-23 08:21:03
3345
原创 百度大模型岗面试,还是比较有压力的
整体下来感觉面试官都是非常专业的,面试深度和广度都很可以,三场面试层层递进。面试官人也不错,如果比较满意的话也愿意多花时间来聊,而不是严格的卡一个小时这种完任务式的面试。
2025-03-30 10:15:15
695
原创 一文带你详细了解:大模型MoE架构(含DeepSeek MoE详解)
稀疏 MoE 层:取代传统 Transformer 的前馈网络(FFN)层。MoE 层由多个“专家”(如 8 个)组成,每个专家是一个独立的神经网络,通常是 FFN,也可以是更复杂的结构,甚至是嵌套的 MoE 形成层级式结构。门控网络或路由:决定哪些 Token 由哪个专家处理。例如,“More”可能被分配给第二个专家,而“Parameters”可能被分配给第一个。有时,一个 Token 甚至可以被多个专家处理。路由方式由可学习的参数控制,并与整个模型一同训练,是 MoE 关键机制之一。
2025-03-29 22:25:05
1092
原创 质谱大模型面试题:模型量化技术原理与区别
在大模型时代,量化技术已经成为AI工程师的必备技能,就像摄影师必须掌握光线调节一样重要。量化技术全景图技术适用场景优势代价训练后量化(PTQ)快速原型开发 临时部署即时生效 零训练成本精度损失较大量化感知训练(QAT)高精度需求 医疗/金融场景保持95%+原模型精度需要重新训练4位量化微调边缘设备 移动端应用75%内存节省 QLoRA恢复性能微调数据依赖混合精度异构计算平台 实时系统智能资源分配 硬件友好配置复杂度高实用选择指南紧急上线?→ PTQ是你的"急救包"追求完美?
2025-03-29 18:25:44
999
原创 阿里多模态大模型Qwen2.5-VL-32B ,本地部署实践
Qwen2.5-VL-32B 介绍,我就不帮忙吹嘘了,阿里没有给我广告费通过视觉理解:Qwen2.5-VL 不仅擅长识别常见的花朵、鸟类、鱼类和昆虫,而且能够高效地分析图像中的文本、图表、图标、图形和布局。具有自主性:Qwen2.5-VL 直接扮演视觉代理的角色,能够进行推理并动态指导工具使用,具备计算机使用和手机使用的能力。理解长视频并捕捉事件:Qwen2.5-VL 能够理解时长超过 1 小时的视频,并且这次它新增了捕捉事件的能力,能够定位相关的视频片段。
2025-03-29 18:19:49
1002
原创 【面经】面试京东大模型算法岗,被狠狠拷打啊。。。。
最近春招和实习已开启了。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。。今天分享一些京东算法岗一面面经。
2025-03-22 18:05:49
681
原创 手把手教你基于Ollama+FastGPT+Deepseek,打造个人知识库!
最近春招和实习已开启了。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。。本文从零实现,基于Ollama、FastGPT、Deepseek在本地环境中打造属于自己的专业知识库,与大家分享~
2025-03-22 18:00:31
983
原创 一网打尽!5大深度学习模型!RNN、CNN、Transformer、BERT、GPT
相较于RNN,CNN在处理图像数据方面更胜一筹,它能够自动学习图像中的局部特征,无需人工设计繁琐的特征提取器,从而实现了更高效、更精准的处理效果。这种设计赋予了RNN在处理具有时序关系的数据时得天独厚的优势,因此,在自然语言处理、语音识别等任务中,RNN均展现出了卓越的性能与广泛的应用前景。首先,在关键技术方面,这五种模型各具特色,它们通过不同的算法和结构来提取数据中的深层信息,实现了高效的特征学习和模式识别。GPT在自然语言处理领域获得了显著的突破和广泛的应用,成为众多NLP任务中的佼佼者。
2025-03-11 21:55:37
1046
原创 算法面试官提问:Transformer到底解决什么问题?
梯度消失:误差信号在反向传播时越来越弱,导致模型学不会长期规律。简单来说,RNN的梯度消失就像“传话游戏越传越错”。反向传播反向传播(英语:Backpropagation,缩写为BP)是“误差反向传播”的简称,是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见方法。举个例子:正向传播:三个人在玩你画我猜游戏,第一个人描述物品信息传给第二个人,再由第二个人描述给第三个人,第三个人说出画的是什么?
2025-03-11 21:50:23
907
原创 DeepSeek + Cherry Studio:轻松打造专属知识库,秒变资料管理大师!
是不是每次找资料都像在“垃圾场”淘宝,翻得手忙脚乱还一无所获?别担心,今天我教你用DeepSeek和Cherry Studio打造专属知识库,小白也能秒变资料管理大师!
2025-03-11 21:43:33
753
原创 阿里淘天多模态大模型面经分享
整体来说面试体验比较好,问的问题都不难,面试官也都不错,遇到一些卡壳的地方也会进行引导讨论,面试氛围很轻松。三面应该是加面的大老板面,从交流可以看出来对整个大模型这块的理解还是很深刻的,收获不小。
2025-03-09 11:05:33
1048
原创 用 Ollama + DeepSeek + Dify ,搭建本地知识库!!!
1. Dify:AI 应用开发平台Dify 是一个开源的 LLM(大语言模型)应用开发平台,功能超强大。它支持自定义 AI 工作流,能实现复杂任务自动化;还有 RAG 管道,通过检索增强生成技术,让文档检索和问答超准;多种主流 LLM 模型都能集成管理,还提供丰富的日志和监控功能。Dify 的架构也很清晰,分为模型层、数据处理层、应用层和管理层,能满足各种需求。2. DeepSeek:国产大模型的骄傲。
2025-03-09 10:58:55
1404
1
原创 我用 DeepSeek 制作了一个课堂点名系统
是时候准备春招和实习了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。不知道有没有老师朋友们在上课点名的时候,出现叫错名的尴尬场景。没有点名册的时候,依稀只能想起那印象深刻的两三个学生名字。现在有了deepseek,你们敢信吗,我花就做出来了课堂随机抽问的网页版本,效果非常惊艳。看到最后保证所有人都会,无脑操作!
2025-03-03 23:27:16
1057
原创 20个 DeepSeek 高频面试题总结
针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。是时候准备春招和实习了。
2025-03-03 22:55:01
745
原创 大模型面试官提问:混合专家(MoE)是什么?
多头潜在注意力(MLA)和多头注意力(MHA)的区别是什么?DeepSeek对DeepSeek-V3进行了预训练,使用的是14.8万亿个多样且高质量的标记,随后进行了监督微调(Supervised Fine-Tuning)和强化学习(Reinforcement Learning)阶段,以充分发挥其能力。DeepSeek推出了DeepSeek-V3,这是一个强大的混合专家(Mixture-of-Experts,MoE)语言模型,总参数量达到6710亿,每个标记(token)激活的参数量为370亿。
2025-02-23 08:52:49
899
原创 一文搞懂DeepSeek - 基础模型(V3)和深度思考(R1)
是时候准备春招和实习了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。DeepSeek提供了提供了基础模型(V3)和深度思考(R1)两种不同模式,以满足用户在不同场景下的需求。基础模型(V3)是通用模型,适用于绝大多数“规范性”任务,如用于快速获取百科信息;而深度思考(R1)是推理模型,擅长解决复杂推理和深度分析等“开放性”任务,如数理逻辑推理和辅助编程。
2025-02-23 08:39:43
1053
原创 面试了腾讯大模型算法,三面有点悬了。。。
是时候准备春招和实习了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。面试公司:腾讯岗位:大模型算法。
2025-02-19 22:59:30
283
原创 头部C9科班本硕研二,拿到大模型算法岗
是时候准备春招和实习了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。bg:头部C9科班本硕研二,2中厂大模型应用相关实习年前最后几天,拿到了Offer,面试感觉从一到三面压力逐渐下降,三面 leader 只是对项目细节和落地感兴趣,没有拷打技术原理和八股,都在问实现的事。
2025-02-19 22:56:18
797
原创 DeepSeek 接入个人微信!保姆级教程来了!
是时候准备春招了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。有人言:“掌握DeepSeek,成功之路已半行!虽稍显夸张,但不可否认,DeepSeek确实能大幅提升开发效率!今日,我将为大家带来详尽的教学指南,教你如何将DeepSeek整合至个人微信中!本文分享的所有方法均免费,全程干货满满,实战结合细致讲解,即便是初学者也能轻松掌握!
2025-02-16 21:20:30
822
原创 解锁 DeepSeek:50 案例教你玩转 7 大场景,附全套提示词秘籍
大家好,今天给大家分享的是:DeepSeek 7大场景+50大案例+全套提示词,从入门到精通干货,共计:112页。该文档围绕国产AI工具DeepSeek展开,全面介绍其功能、应用场景、提示词使用及进阶玩法等内容。DeepSeek是一款功能强大的国产免费AI工具,采用独特算法和模型架构,在回应速度和内容质量上表现出色,具有智能问答、内容生成、数据分析、任务管理和学习助手等核心功能,能解决多领域问题。在使用方面,需正确掌握提示词,避免常见错误,如笼统、过度限制等。
2025-02-16 21:15:50
372
原创 DeepSeek嵌入到Excel,提升10倍工作效率,太牛了!
是时候准备春招了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。昨天跟大家分享了DeepSeek的简单用法,有粉丝就问道:能将DeepSeek嵌入到Excel吗?当然可以了,我们需要借助VBA代码来实现,以下的代码都是由DeepSeek自动生成的,我们还需要调用DeepSeek的API,
2025-02-12 21:07:51
544
原创 DeepSeek 杀死了 Excel!感觉我要失业了!
是时候准备春招了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。2025开年相信大家都被DeepSeek刷屏了,DeepSeek以极地训练成本这么低,就获取了跟ChatGPT相近的性能,给美国科技圈一记暴击。有不少粉丝都问道DeepSeek应该怎么使用?
2025-02-12 21:03:12
411
原创 清华大学DeepSeek使用手册,长达104页!(附PPT下载)
从避免AI幻觉的小窍门,到设计出色提示语的秘籍,每一页都凝聚着干货知识,让用户能够直接上手操作,快速掌握DeepSeek的精髓。这份文档不仅为用户提供了关于DeepSeek的全面知识,还体现了中国科技在人工智能领域的快速发展。《DeepSeek:从入门到精通》以通俗易懂的方式,全面介绍了DeepSeek的使用方法,为用户提供了极具价值的指导。这份文档内容丰富,篇幅长达104页,涵盖了众多实用技巧。
2025-02-09 22:18:43
8977
1
原创 DeepSeek + Word ,让你的工作更高效!
是时候准备春招了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。DeepSeek + Word ,让你的工作更高效!在 Word 界面里,选中文字点击按钮,就能让 DeepSeek 为你快速检索信息、精准翻译文本、智能生成内容等等。这样就不需要在多个软件之间频繁切换,告别低效的信息处理方式,让工作效率大幅提升!
2025-02-09 11:23:30
1038
原创 大模型 DeepSeek-r1 本地部署如何开启联网搜索?
Page Assist 是一款开源浏览器扩展,旨在为您的本地 AI 模型提供侧边栏和 Web UI。通过它,您可以从任何网页与您的模型进行互动。当前功能: - 用于各种任务的侧边栏 - 支持视觉模型 - 本地 AI 模型的极简 Web UI - 互联网搜索 - 在侧边栏上使用 PDF 聊天 - 与文档聊天(pdf、csv、txt、md、docx)二、安装方法Chrome 谷歌浏览器在线方法直接打开链接,无法打开的可以采用离线安装方法。输入【Page Assist】 搜索插件。
2025-02-09 11:17:09
1957
原创 《大模型面试宝典》(2025版) 来了
大家好我是费老师,最近国产大模型新版本凭借其优秀的模型推理能力,讨论度非常之高🔥,且其官网提供的相关大模型API接口服务价格一直走的“价格屠夫”路线,性价比很高,本期文章中,就将为大家举例,如何在vscode中,基于开源AI编程辅助插件Continue,配置基于Deepseek的API接口,实现常用的AI编程辅助等功能。
2025-02-08 21:02:33
944
原创 一文搞懂DeepSeek - 开源模型R1
DeepSeek系列模型包括R1(数学、代码及推理领域开源大模型,回答全面详实)、V3(自研MoE模型,性能顶尖且性价比极高)、VL(视觉与语言理解开源多模态模型)、V2(创新架构,推理成本低廉)、R1-Zero(强化学习预模型,独特优势)、以及蒸馏版Qwen和Llama小模型(从R1数据蒸馏,表现优异)。DeepSeek-R1的技术创新在于开发了GRPO算法以优化策略网络,避免了高计算开销,同时设计了多层次奖励机制和“思考-回答”双阶段训练模板,确保模型推理的高效性、可读性和过程可追踪性。
2025-01-27 08:06:10
2218
原创 【秋招算法面试】面试官提问“大模型流水线并行”,我是一脸问号。。。
那后来在此基础上呢,顺着这个思路,流水线并行还有很多优化的工作,如 1F1B 交错式调度/非交错式调度,DAPPLE,Chimera,TeraPipe,关于这些优化,大家如果有兴趣,我们后面继续探讨,欢迎大家持续关注。如果把 mini batch 切得更小,利用率还可以进一步提升,实际上,此时的空闲率等于:(K-1)/(K+M-1),K 还是 GPU 数量,M 是 batch 切分的份数。我们想一下,这种方式有个潜在的问题,就是只有算完第一层的结果,才能计算第二层,以此类推,如下图所示。
2025-01-26 08:42:54
762
原创 算法面试官提问:讲讲 MoE 模型
还有就是腾讯混元团队 2024 年提出了混合异构专家模型(HMoE),MoE 层中的每个专家的大小不再相同,从而赋予了每个专家不同的表达能力,这种差异化设计使得路由可以根据专家的实际能力动态分配不同难度的 token,有效解决了专家专业化程度不足的问题。例如,当前 MoE 模型有 4 个专家,针对输入“More”,输出的概率可能为 0.1、0.65、0.15、0.1,这意味着第一个专家对处理此数据的贡献为 10%,第二个专家为 65%,第三个专家为 15%,第四个专家为 10%。
2025-01-26 08:39:08
794
原创 谈谈对DeepSeek-R1的一些理解
RL我一直是把这2者理解为两个独立的个体我认为o1走的可能是上述framework3的路线这一块的主要作用是为RL过程自动化地制造高质量数据集。包括用于format模型产生思考过程的long cot数据集,以及带preference labels的数据集。我把这一块的系统抽象为PRM + some search methods的形式。例如讨论度很高的MCTS,本质上也可理解为 fixed PRM + some search methods。RL:这部分应该就是openAI自己惯有的一套RL流程。
2025-01-26 08:33:54
1283
原创 用 DeepSeek 打造你的超强代码助手
最近已有不少大厂停止秋招宣讲,准备计划准备春招吧。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。大家好,今天我想给你们介绍一个我最近发现的工具,叫。它是一个专门为开发者打造的代码助手应用,可以帮你读文件、改文件,甚至生成代码。更厉害的是,它完全基于,能实时生成 JSON 格式的响应,让你的开发体验提升一个档次。
2025-01-10 16:49:49
3176
1
原创 基于昇腾910,使用LMDeploy实现InternLM2.5模型推理
考虑到 LMDeploy 并不是每个模型都是支持的,我们在官方的列表中找到支持的模型 https://lmdeploy.readthedocs.io/en/latest/supported_models/supported_models.html。好在启智平台提供了昇腾NPU 运行环境,不过这里我们需要注意:虽然启智平台提供了昇腾 NPU 运行环境,但是 不是每个镜像都能很顺利地跑完,我花了些时间进行测试,结果发现大部分镜像是不能运行的。模型选择后,回到新建模型列表页面,点击新建任务等待服务器创建新任务。
2025-01-10 16:30:09
842
原创 动手实现 Transformer,算法面试轻松搞定
*(https://arxiv.org/abs/1901.07291):**跨语言语言模型 (XLM) 探索了构建多语言模型的多个预训练目标,包括来自 GPT 的自回归语言建模和来自 BERT 的 MLM,还将 MLM 拓展到多语言输入,提出了翻译语言建模 (Translation Language Modeling, TLM)。**(https://arxiv.org/abs/2007.14062):**由于注意力机制 O(n2) 的内存要求,Transformer 模型只能处理一定长度内的文本。
2025-01-10 16:21:38
1188
原创 15个 Cursor 小技巧,让你精通AI编程
想要让Cursor完全按照你的编码习惯来,可以设置自定义AI规则:全局规则:进入Cursor设置,选择“常规”选项卡,然后点击“AI规则”进行配置。项目规则:在你的项目根目录下创建一个.cursorrules文件,定义项目特定的规则。例如,你的.cursorrules文件可能包含:始终使用TypeScript,不允许例外。严格遵守团队的代码风格指南。强调函数式编程。确保注释清晰解释代码的“为什么”,而不仅仅是“怎么做”。这样,AI助手就能更好地符合你的团队标准和个人偏好。
2024-12-29 07:50:59
2130
原创 利用 Milvus 向量数据库,带你实现大模型图检索 GraphRAG
本文带领大家深入了解了GraphRAG技术,这是一种融合知识图谱来强化RAG应用的创新手段。GraphRAG特别擅长处理那些需要跨信息片段进行多步骤推理和全面回答问题的复杂任务。结合Milvus向量数据库后,GraphRAG能够高效地在庞大的数据集中探索复杂的语义联系,从而得出更精准、更深刻的分析结果。这种强强联合的解决方案,使GraphRAG成为众多实际通用人工智能(GenAI)应用中的得力助手,为理解和处理复杂信息提供了强有力的支持。
2024-12-29 07:47:24
741
原创 一听到面试问RoPE旋转位置编码,就脑壳疼....
最近已有不少大厂停止秋招宣讲,准备计划准备春招吧。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。ChatGLM 和 LLaMA 中使用的,原版论文中大段大段的公式推导实在是太绕了,看了脑壳疼。这篇文章我用能理解能记住的方式梳理一下。我个人觉得关于 RoPE 的核心问题有两个:首先,为什么 LLM 普遍采用这种编码方式而不是其他的。
2024-12-17 22:26:53
881
1
原创 阿里AI团队开源:探索面向开放型问题的推理大模型 Marco-o1
最近已有不少大厂停止秋招宣讲,准备计划准备春招吧。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。阿里国际AI团队发布了最新的Marco-o1模型,Marco-o1不仅关注具有标准答案的学科(例如代码、数学等)领域,而且更加强调开放式问题的解决方案。研究团队的目标是解决:“o1这类模型能否有效的推广到难以量化且缺乏明确奖励的其他领域上”这一问题。
2024-12-09 22:45:31
871
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人