- 博客(308)
- 收藏
- 关注

原创 《大模型面试宝典》(2025版) 正式发布!
大部分人可能想不到,2025年春节假期,大模型圈子竟然会这么热闹。DeepSeek 正式开源了 DeepSeek-R1,在数学、代码和自然语言推理等任务上比肩 OpenAI o1 正式版。这位来自「神秘东方力量」DeepSeek 算是彻底破圈,火遍大江南北,火到人尽皆知。经历了过去两年的狂飙,国内大模型已经在多个垂直赛道中强势崛起,跨过了护城河,已发布的模型超过200个,相关应用产品不计其数。
2025-02-04 15:34:12
1150

原创 重磅消息!《AIGC 面试宝典》(2024版) 正式发布!
2022 年下半年以来,文本生成图像快速出圈,多款应用持续火爆。国外文生图代表:Midjourney、Stable Diffusion、OpenAI 的 DALL-E:海外模型SD开源,进一步促进了国内大厂的研究热情和应用落地:随着多模态技术迭代,图像生成、视频生成、3D生成、音频生成等 AIGC 应用加速落地,相关岗位需求特别旺盛。节前,我们星球群组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、最近参加社招和校招面试的同学。
2024-05-20 09:09:27
2421

原创 重磅消息!《大模型实战宝典》(2024版) 正式发布!
2024 年刚开年,OpenAI 推出的文生视频工具 Sora 再次风靡全球,成为 OpenAI 继 ChatGPT 之后新的生成式 AI 标杆。关于大模型的话题不断涌现,令人应接不暇,截至到目前,国内大模型已发布数量超过200个。去年我们写了一本《大模型实战宝典》(以下简称《实战宝典》),有很多小伙伴订阅,反馈内容通俗易懂,有基础知识做铺垫,收获了很多。今年年初开始,就开始计划内容大版本升级,前期也做了很多准备工作。
2024-03-23 09:04:57
1357

原创 重磅消息!《大模型面试宝典》(2024版) 正式发布!
2022 年11月底,OpenAI 正式推出 ChatGPT ,不到两个月的时间,月活用户就突破1亿,成为史上增长最快的消费者应用。目前国内已发布的大模型超过200个,大模型的出现彻底改变了我们的生活和学习方式。现在只要你想从事 AI 相关的岗位,无论是计算机视觉(CV)、自然语言处理(NLP)、搜广推、风控等,大模型相关话题都是绕不开的。节前,我们星球群组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、最近参加社招和校招面试的同学。
2024-03-23 09:01:30
3353

原创 熬了一个通宵,把国内外的大模型都梳理完了!
大家好,大模型越来越多了,真的有点让人眼花缭乱。为了让大家清晰地了解大模型,我熬了一个通宵把国内和国外的大模型进行了全面梳理,国内有189个,国外有20+,同时包括大模型的来源机构、来源信息和分类等。如果你想参与我们技术讨论、前沿技术分享,请加入我们。
2023-12-17 21:33:25
1330

原创 整理了上百个开源中文大语言模型,涵盖模型、应用、数据集、微调、部署、评测
自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的二次微调或应用的案例。本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料,目前收录的资源已达100+个!
2023-12-17 16:07:38
3827
1

原创 PyTorch 模型训练性能大揭秘:从基础到高级技巧一网打尽!
PyTorch 是一个开源的 Python 机器学习库,基于Torch,用于自然语言处理等应用程序。PyTorch既可以看作加入了GPU支持的numpy,也可以看成一个拥有自动求导功能的强大的深度神经网络,同时它也是大模型开发的首选工具。《PyTorch模型训练性能调优宝典》是解决PyTorch训练性能和效率问题的首选宝典。包括:AI/ML平台工程师、数据平台工程师、后端软件工程师、MLOps工程师、站点可靠性工程师、架构师、机器学习工程师以及任何希望掌握PyTorch性能调优技巧的专业人士。
2023-12-14 22:03:06
473

原创 LoRA 微调大模型的实践经验总结
在深度学习领域,特别是在大型语言模型(LLM)领域,模型的大小导致更新模型权重的成本非常高。假设我们有一个含有70亿参数的LLM,这些参数被表示在一个权重矩阵W中。在训练中,为了最小化损失函数,我们会计算一个ΔW矩阵,里面包含了对原始权重的更新信息。通常的权重更新过程如下:如果权重矩阵W包含70亿参数,那么权重更新矩阵ΔW也将包含70亿参数,计算ΔW将消耗巨大的计算和内存资源。为了解决这一问题,Hu等人提出了LoRA方法,该方法通过分解权重变化ΔW到一个低秩表示。
2023-12-12 22:29:09
1945

原创 基于 LangChain 的优秀项目资源库
精选的使用 LangChain 的工具和项目列表。在AI盛起的当下,各类AI应用不断地出现在人们的视野中,AI正在重塑着各行各业,LangChain 是从事AI应用开发的人员或多或少都会接触到的框架。LangChain是一个令人惊叹的框架,可以在极短的时间内完成LLM项目,其生态系统正在快速发展。
2023-12-09 11:13:00
1953

原创 LangChain+通义千问+AnalyticDB向量引擎保姆级教程
1.创作文字,如写故事、写公文、写邮件、写剧本、写诗歌等;2.编写代码;3.提供各类语言的翻译服务,如英语、日语、法语、西班牙语等;4.进行文本润色和文本摘要等工作;5.扮演角色进行对话;6.制作图表等。如果直接使用通义千问API从0到1来构建应用,技术成本还是相对比较高的。幸运的是,当前已经有非常优秀的框架LangChain来串联AIGC相关的各类组件,让我们轻松构建自己的应用。
2023-12-08 23:37:14
1925
原创 让DeepSeek威力加倍!教你本地搭建知识库
输出结果中,最左边一列应该可以看到如下服务:api、db、nginx、redis、sandbox、ssrf_proxy、weaviate、web、worker。在聊天助手窗口下方的“上下文”栏选择“添加”,就可以调用知识库。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。注意:首先请确保你已经安装了Git和Python,并保持“网络畅通”。Dify的知识库功能十分丰富,更多使用方法请参考推文底部的官方文档。
2025-03-30 10:45:45
793
原创 朋友团队招聘| 阿里通义实验室对话智能团队大模型研究型实习生
阿里巴巴通义实验室,主要负责通义系列大模型研究与产品落地。其中对话智能团队,以大模型研究和应用为中心,以对话为核心交互形态,推进大模型的大规模商业化应用,主要技术包括:(1)对话大模型(2)代码大模型(3)AI Agents等;过去三年发表60+篇国际顶会论文;主要业务场景包括(1)通义晓蜜 (2) 通义星辰 (3) 通义灵码。其中,阿里云智能客服在国内对话式AI市占率第一。
2025-03-30 10:40:27
518
原创 百川智能大模型面试题:PPO & GRPO 原理及区别是什么?
通过这个小学考试的比喻,我们逐步从只看绝对分数的朴素思路,演化到 PPO 的完整机制(Critic、Advantage、Clip、Reference Model),再到GRPO的创新思路(用一组输出的平均得分当基线,省去价值函数的繁琐)。以下几点值得再次强调:Critic 的意义:它为每个状态或阶段提供“合理预期”,大幅降低了训练方差;Clip & min 机制:约束策略更新幅度,避免一次考试“爆发”带来的巨幅震荡;
2025-03-29 18:09:08
732
原创 基于新版DeepSeek V3,轻松开发大模型智能体Agent
为了能以兼容openai标准的形式,在中调用国内常用的各种DeepSeek服务源,我们需要基于中的譬如,接入DeepSeek# 示例1:DeepSeek官方api_key='<填入你的key>'# 示例2:火山方舟api_key='<填入你的key>'# 示例1:DeepSeek官方# 这里deepseek-chat对应目前最新的非深度思考模型V3# 示例2:火山方舟'<请填写你在火山方舟控制中创建的推理点id>',
2025-03-29 17:53:36
636
原创 一文讲透八款主流大模型推理框架
当前大模型推理平台/引擎生态各具特色,从企业级高并发服务到本地轻量化部署,从国产硬件优化到前沿编译技术探索,每种方案都有其独到优势。选择合适的推理方案不仅需考虑技术指标,更要结合业务场景、硬件资源与未来扩展规划。未来,随着技术的不断进步和产业协作的加深,大模型推理生态将呈现出更加多元、灵活和高效的局面,为各领域在激烈竞争中抢占先机提供强大支撑。
2025-03-22 17:29:39
573
原创 京东二面:DeepSeek为何要用FP8而不是INT8?
最近已有不少大厂开启春招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。随着DeepSeek爆火,面试中也越来越高频出现,因此训练营也更新了DeepSeek系列技术的深入拆解。包括MLA、MTP、专家负载均衡、FP8混合精度训练,Dual-Pipe等关键技术,力求做到全网最硬核的解析~本文介绍 DeepSeek 中大量使用的一种数据编码方式——FP8。
2025-03-22 17:15:45
1060
原创 图解 Transformer 和 MoE 的差别
专家混合(MoE)是一种流行的架构,比如最近火爆天的 DeepSeek V3 和 R1 就是这类模型。MoE 使用 experts,它们是前馈网络,但与 Transformer 中的网络相比更小。MoE 具有更多的参数需要加载,但由于每次仅选择部分专家,因此只有一部分参数被激活。挑战 2)某些专家可能会比其他专家处理更多的 token,导致部分专家训练不足。如果某个专家达到上限,输入的 token 就会被传递给下一个最合适的专家。在路由器的前馈输出中添加噪声,使其他专家的 logits 更高。
2025-03-09 16:00:03
371
原创 字节大模型岗面试:BF16为什么比FP16更适合大模型训练?
随着DeepSeek爆火,面试中也越来越高频出现,因此训练营也更新了DeepSeek系列技术的深入拆解。包括MLA、MTP、专家负载均衡、FP8混合精度训练,Dual-Pipe等关键技术,力求做到全网最硬核的解析~本篇文章主要对训练 LLM 以及部署应用时的精度问题进行了一些探讨和实践,读过后应该会对常用的浮点数 FP16,FP32,BF16 有一个更好的理解~
2025-03-09 14:34:48
1166
原创 美团开源首发INT8无损满血版DeepSeek R1
根据DeepSeek最新发布的技术报告,V3/R1突破性的训练成本控制主要依托FP8精度训练方案。FP8是一种典型的模型量化技术,相较于业界常用的BF16精度,FP8精度通过将数据位宽减半显著降低了单次计算开销,但也会带来一定的精度损失。在实践中,DeepSeek R1采用了混合精度训练机制有效缓解了精度损失问题。由于DeepSeek R1采用FP8精度训练,所以开源的原生权重就是FP8精度。
2025-03-09 14:20:17
1209
原创 一文详解如何使用 vLLM 在本地部署 DeepSeek 语言模型
通过以上步骤,你已成功在本地部署了 DeepSeek 模型,并能够通过 vLLM 进行推理。如果在部署过程中遇到问题,请参考 vLLM 官方文档或在相关社区寻求帮助。祝你使用愉快!
2025-03-03 22:33:44
884
原创 面了美团大模型算法,压迫感满满!!!
最近已有不少大厂开启春招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。大家好,最近面了美团大模型算法岗(日常实习),bg一般,之前有一段还可以的实习。面试题分享,欢迎与我交流学习。
2025-03-03 22:27:57
604
原创 北大DeepSeek使用手册来了,清北是在“神仙打架”吗?
清华之前出了 5 份 DeepSeek 的相关教程,北大近期了也出了两个,做个整理。。。
2025-02-28 14:16:09
732
原创 大模型面试官提问:多头注意力(MHA)和多头潜在注意力(MLA)
最近春招和实习已开启了。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。。更多实战和面试交流,文末加入我们。
2025-02-23 08:49:50
930
原创 DeepSeek-R1 + RAG搭建本地知识库
最近春招和实习已开启了。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。。更多实战和面试交流,文末加入我们。
2025-02-23 08:45:49
1686
原创 小米大模型二面,我感觉要废了
原理是类似的,embedding 矩阵的初始化方式是 xavier,方差是 1/根号 d,因此乘以根号 d,可以让 embedding 矩阵的方差是 1,从而加速模型的收敛。举个例子:假如输入的原始句子是"我爱机器学习",我们按最简单的基于字的分词,这个样本的单词长度是 6,也就是 ‘我’ ‘爱’ ‘机’ ‘器’ ‘学’ ‘习’,这六个字。所以更深层的原因是,选择根号 d,可以让输入 softmax 的分布,也就是 Q*K^T 更加趋近一个标准的正态分布,也就是均值为 0,方差为 1 的正态分布。
2025-02-19 23:12:42
850
原创 大模型 RLHF 夺命连环17问,答错直接挂!
对于目前很火的Deepseek,最近有准备LLM面试的学员问需要重点掌握哪些东西,给大家的建议是这块最重要的是deepseek v3和r1的技术报告,建议大家去精读一下,其中MLA注意力,MTP,GRPO,冷启动数据,这些是重点。作为大模型对齐人类价值观的核心技术,RLHF 不仅决定了模型的"情商",更是面试中高频出现的必考点——如何设计奖励函数?针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。使模型生成更安全、有用、符合伦理的文本。
2025-02-19 23:07:57
791
原创 一波三折,终于拿到了阿里算法岗Offer了
最近已有不少大厂开启春招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。bg 211本 985硕,pub1A 一作中稿1A一作1A三作在投,一篇A会应该是通义这边的门槛。
2025-02-16 21:26:24
311
原创 绝了!Cline+DeepSeek 让 VsCode 秒变编程神器!
最近已有不少大厂开启春招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。你是否幻想过,有一天编程不再是枯燥地敲击键盘,而是如同与一位智慧伙伴轻松对话,就能让创意代码如灵动音符般流淌?今天,借助Cline与DeepSeek,在VsCode中带你实现自动化编程的奇妙旅程。
2025-02-16 21:23:34
441
原创 DeepSeek R1 + 个人知识库,直接起飞!
最近已有不少大厂开启春招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。DeepSeek终究还是没有扛住,越来越“难用”了:连续问到第二个问题就频繁地提醒“服务器繁忙,请稍后再试”,刷新也救不回来。我又不死心的去检查了一遍DeepSeek的状态页面,不出意外的一片大红。全网都在寻找DeepSeek官方的平替,其中是比较推荐的一个。
2025-02-12 21:41:32
1135
1
原创 DeepSeek接入Word与Excel,实现办公自动化,这也太猛了!
最近已有不少大厂开启春招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。今天跟大家分享下我们如何安装插件,将 DeepSeek嵌入到Excel表格,能够直接操作Excel,大大提升办公效率。
2025-02-12 21:28:23
1022
原创 DeepSeek+AnythingLLM本地化部署,打造个人专属智能助手
最近已有不少大厂开启春招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。在当今信息爆炸的时代,个人知识管理变得尤为重要。通过本地化部署 DeepSeek 模型,并结合 AnythingLLM,我们可以快速构建属于自己的 AI 驱动知识库,实现高效的信息管理和智能化的知识检索。本地化部署知识库保障我们个人资料不被外泄,结合大模型打造我们专属AI问答系统。
2025-02-09 22:43:24
1135
原创 清华大学DeepSeek使用手册,长达104页!(附PPT下载)
从避免AI幻觉的小窍门,到设计出色提示语的秘籍,每一页都凝聚着干货知识,让用户能够直接上手操作,快速掌握DeepSeek的精髓。这份文档不仅为用户提供了关于DeepSeek的全面知识,还体现了中国科技在人工智能领域的快速发展。《DeepSeek:从入门到精通》以通俗易懂的方式,全面介绍了DeepSeek的使用方法,为用户提供了极具价值的指导。这份文档内容丰富,篇幅长达104页,涵盖了众多实用技巧。
2025-02-09 22:20:43
5683
原创 DeepSeek 接入 PyCharm,轻松助力编程
电脑没有大显存GPU的朋友,推荐安装1.5b尺寸,这版尺寸普通电脑无GPU的都能流畅运行,延时几乎在1-2秒,更为关键的是,DeepSeek-r1之所以爆出圈有一个重要原因,小尺寸模型回答质量也很高,即便1.5b如此小的参数尺寸亦如此。大模型在本地搭建,除了能够方便个人知识库管理,详见上一篇介绍,还能提效编程学习,比如Python,Java等,学编程就像学做事的思路和逻辑,挺重要也很有意思。,安装Pycharm社区版,完全免费,下载地址在我的公众号后台回复:Pycharm,即可获取。
2025-02-04 15:36:38
4197
5
原创 面试官提问:Transformer为什么使用多头注意力机制?
最近已有不少大厂已停止秋招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。“线性变换”是机器学习中针对数据常用的变换方式,通过线性变换可以将数据进行降维、解耦、筛选精炼等操作。而 Transformer 中的“线性变换”有着十分独特且重要的意义,它是导致 Multi-Head Attention 机制得以成功运行的根基。
2025-02-03 23:35:19
666
原创 使用 Lora进行微调DeepSeek大模型
最近已有不少大厂已停止秋招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。现存在的大模型已经很完善了,但在特殊场景下,他们的完成效果并不理想,也存在很多禁忌。主要体现在以下方面:1、由于不可抗原因,对输出内容限制,对敏感内容禁止输出。2、达不到理想的回复效果,忠实性不太理想,会天马行空。3、想对产品做推广回复,在回复中要忠于产品,推广产品。
2025-02-03 23:32:49
5491
4
原创 Llama 3.3 开源!一文讲透模型推理、模型微调全流程
最近已有不少大厂已停止秋招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。
2024-12-29 18:54:00
925
原创 【大模型】开源向量数据库性能对比: Milvus, Chroma, Qdrant
Qdrant:优点:中规中矩,Qps 相对较高、延迟相对较低。在CPU和磁盘IO方面的利用率较高,能够在处理高负载时提供较好的性能。缺点:在大数据集的加载时间和总体检索精度上略逊于 Milvus,适合对过滤查询有需求但不追求极端性能的场景。对CPU和内存的需求较大,尤其在高并发和复杂查询时可能会出现较高的资源消耗,导致系统负载上升。Chroma:优点:对于较小的数据集,Chroma 更容易上手和集成。对CPU的依赖较低,更多依赖内存来处理大规模数据。缺点。
2024-12-29 18:40:50
2829
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人