自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(308)
  • 收藏
  • 关注

原创 《大模型面试宝典》(2025版) 正式发布!

大部分人可能想不到,2025年春节假期,大模型圈子竟然会这么热闹。DeepSeek 正式开源了 DeepSeek-R1,在数学、代码和自然语言推理等任务上比肩 OpenAI o1 正式版。这位来自「神秘东方力量」DeepSeek 算是彻底破圈,火遍大江南北,火到人尽皆知。经历了过去两年的狂飙,国内大模型已经在多个垂直赛道中强势崛起,跨过了护城河,已发布的模型超过200个,相关应用产品不计其数。

2025-02-04 15:34:12 1150

原创 重磅消息!《AIGC 面试宝典》(2024版) 正式发布!

2022 年下半年以来,文本生成图像快速出圈,多款应用持续火爆。国外文生图代表:Midjourney、Stable Diffusion、OpenAI 的 DALL-E:海外模型SD开源,进一步促进了国内大厂的研究热情和应用落地:随着多模态技术迭代,图像生成、视频生成、3D生成、音频生成等 AIGC 应用加速落地,相关岗位需求特别旺盛。节前,我们星球群组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、最近参加社招和校招面试的同学。

2024-05-20 09:09:27 2421

原创 重磅消息!《大模型实战宝典》(2024版) 正式发布!

2024 年刚开年,OpenAI 推出的文生视频工具 Sora 再次风靡全球,成为 OpenAI 继 ChatGPT 之后新的生成式 AI 标杆。关于大模型的话题不断涌现,令人应接不暇,截至到目前,国内大模型已发布数量超过200个。去年我们写了一本《大模型实战宝典》(以下简称《实战宝典》),有很多小伙伴订阅,反馈内容通俗易懂,有基础知识做铺垫,收获了很多。今年年初开始,就开始计划内容大版本升级,前期也做了很多准备工作。

2024-03-23 09:04:57 1357

原创 重磅消息!《大模型面试宝典》(2024版) 正式发布!

2022 年11月底,OpenAI 正式推出 ChatGPT ,不到两个月的时间,月活用户就突破1亿,成为史上增长最快的消费者应用。目前国内已发布的大模型超过200个,大模型的出现彻底改变了我们的生活和学习方式。现在只要你想从事 AI 相关的岗位,无论是计算机视觉(CV)、自然语言处理(NLP)、搜广推、风控等,大模型相关话题都是绕不开的。节前,我们星球群组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、最近参加社招和校招面试的同学。

2024-03-23 09:01:30 3353

原创 熬了一个通宵,把国内外的大模型都梳理完了!

大家好,大模型越来越多了,真的有点让人眼花缭乱。为了让大家清晰地了解大模型,我熬了一个通宵把国内和国外的大模型进行了全面梳理,国内有189个,国外有20+,同时包括大模型的来源机构、来源信息和分类等。如果你想参与我们技术讨论、前沿技术分享,请加入我们。

2023-12-17 21:33:25 1330

原创 整理了上百个开源中文大语言模型,涵盖模型、应用、数据集、微调、部署、评测

自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的二次微调或应用的案例。本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料,目前收录的资源已达100+个!

2023-12-17 16:07:38 3827 1

原创 行业大模型训练经验分享&落地思考

最后共勉:BERT时代况且还在用TextCNN,难道13B的模型就不叫大模型吗?

2023-12-14 23:47:32 1347

原创 PyTorch 模型训练性能大揭秘:从基础到高级技巧一网打尽!

PyTorch 是一个开源的 Python 机器学习库,基于Torch,用于自然语言处理等应用程序。PyTorch既可以看作加入了GPU支持的numpy,也可以看成一个拥有自动求导功能的强大的深度神经网络,同时它也是大模型开发的首选工具。《PyTorch模型训练性能调优宝典》是解决PyTorch训练性能和效率问题的首选宝典。包括:AI/ML平台工程师、数据平台工程师、后端软件工程师、MLOps工程师、站点可靠性工程师、架构师、机器学习工程师以及任何希望掌握PyTorch性能调优技巧的专业人士。

2023-12-14 22:03:06 473

原创 LoRA 微调大模型的实践经验总结

在深度学习领域,特别是在大型语言模型(LLM)领域,模型的大小导致更新模型权重的成本非常高。假设我们有一个含有70亿参数的LLM,这些参数被表示在一个权重矩阵W中。在训练中,为了最小化损失函数,我们会计算一个ΔW矩阵,里面包含了对原始权重的更新信息。通常的权重更新过程如下:如果权重矩阵W包含70亿参数,那么权重更新矩阵ΔW也将包含70亿参数,计算ΔW将消耗巨大的计算和内存资源。为了解决这一问题,Hu等人提出了LoRA方法,该方法通过分解权重变化ΔW到一个低秩表示。

2023-12-12 22:29:09 1945

原创 使用 PyTorch 完全分片数据并行技术加速大模型训练

本文,我们将了解如何基于 PyTorch 最新的功能用库来训练大模型。

2023-12-11 22:51:52 592 1

原创 基于 LangChain 的优秀项目资源库

精选的使用 LangChain 的工具和项目列表。在AI盛起的当下,各类AI应用不断地出现在人们的视野中,AI正在重塑着各行各业,LangChain 是从事AI应用开发的人员或多或少都会接触到的框架。LangChain是一个令人惊叹的框架,可以在极短的时间内完成LLM项目,其生态系统正在快速发展。

2023-12-09 11:13:00 1953

原创 LangChain+通义千问+AnalyticDB向量引擎保姆级教程

1.创作文字,如写故事、写公文、写邮件、写剧本、写诗歌等;2.编写代码;3.提供各类语言的翻译服务,如英语、日语、法语、西班牙语等;4.进行文本润色和文本摘要等工作;5.扮演角色进行对话;6.制作图表等。如果直接使用通义千问API从0到1来构建应用,技术成本还是相对比较高的。幸运的是,当前已经有非常优秀的框架LangChain来串联AIGC相关的各类组件,让我们轻松构建自己的应用。

2023-12-08 23:37:14 1925

原创 让DeepSeek威力加倍!教你本地搭建知识库

输出结果中,最左边一列应该可以看到如下服务:api、db、nginx、redis、sandbox、ssrf_proxy、weaviate、web、worker。在聊天助手窗口下方的“上下文”栏选择“添加”,就可以调用知识库。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。注意:首先请确保你已经安装了Git和Python,并保持“网络畅通”。Dify的知识库功能十分丰富,更多使用方法请参考推文底部的官方文档。

2025-03-30 10:45:45 793

原创 朋友团队招聘| 阿里通义实验室对话智能团队大模型研究型实习生

阿里巴巴通义实验室,主要负责通义系列大模型研究与产品落地。其中对话智能团队,以大模型研究和应用为中心,以对话为核心交互形态,推进大模型的大规模商业化应用,主要技术包括:(1)对话大模型(2)代码大模型(3)AI Agents等;过去三年发表60+篇国际顶会论文;主要业务场景包括(1)通义晓蜜 (2) 通义星辰 (3) 通义灵码。其中,阿里云智能客服在国内对话式AI市占率第一。

2025-03-30 10:40:27 518

原创 百川智能大模型面试题:PPO & GRPO 原理及区别是什么?

通过这个小学考试的比喻,我们逐步从只看绝对分数的朴素思路,演化到 PPO 的完整机制(Critic、Advantage、Clip、Reference Model),再到GRPO的创新思路(用一组输出的平均得分当基线,省去价值函数的繁琐)。以下几点值得再次强调:Critic 的意义:它为每个状态或阶段提供“合理预期”,大幅降低了训练方差;Clip & min 机制:约束策略更新幅度,避免一次考试“爆发”带来的巨幅震荡;

2025-03-29 18:09:08 732

原创 基于新版DeepSeek V3,轻松开发大模型智能体Agent

为了能以兼容openai标准的形式,在中调用国内常用的各种DeepSeek服务源,我们需要基于中的譬如,接入DeepSeek# 示例1:DeepSeek官方api_key='<填入你的key>'# 示例2:火山方舟api_key='<填入你的key>'# 示例1:DeepSeek官方# 这里deepseek-chat对应目前最新的非深度思考模型V3# 示例2:火山方舟'<请填写你在火山方舟控制中创建的推理点id>',

2025-03-29 17:53:36 636

原创 一文讲透八款主流大模型推理框架

当前大模型推理平台/引擎生态各具特色,从企业级高并发服务到本地轻量化部署,从国产硬件优化到前沿编译技术探索,每种方案都有其独到优势。选择合适的推理方案不仅需考虑技术指标,更要结合业务场景、硬件资源与未来扩展规划。未来,随着技术的不断进步和产业协作的加深,大模型推理生态将呈现出更加多元、灵活和高效的局面,为各领域在激烈竞争中抢占先机提供强大支撑。

2025-03-22 17:29:39 573

原创 京东二面:DeepSeek为何要用FP8而不是INT8?

最近已有不少大厂开启春招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。随着DeepSeek爆火,面试中也越来越高频出现,因此训练营也更新了DeepSeek系列技术的深入拆解。包括MLA、MTP、专家负载均衡、FP8混合精度训练,Dual-Pipe等关键技术,力求做到全网最硬核的解析~本文介绍 DeepSeek 中大量使用的一种数据编码方式——FP8。

2025-03-22 17:15:45 1060

原创 图解 Transformer 和 MoE 的差别

专家混合(MoE)是一种流行的架构,比如最近火爆天的 DeepSeek V3 和 R1 就是这类模型。MoE 使用 experts,它们是前馈网络,但与 Transformer 中的网络相比更小。MoE 具有更多的参数需要加载,但由于每次仅选择部分专家,因此只有一部分参数被激活。挑战 2)某些专家可能会比其他专家处理更多的 token,导致部分专家训练不足。如果某个专家达到上限,输入的 token 就会被传递给下一个最合适的专家。在路由器的前馈输出中添加噪声,使其他专家的 logits 更高。

2025-03-09 16:00:03 371

原创 字节大模型岗面试:BF16为什么比FP16更适合大模型训练?

随着DeepSeek爆火,面试中也越来越高频出现,因此训练营也更新了DeepSeek系列技术的深入拆解。包括MLA、MTP、专家负载均衡、FP8混合精度训练,Dual-Pipe等关键技术,力求做到全网最硬核的解析~本篇文章主要对训练 LLM 以及部署应用时的精度问题进行了一些探讨和实践,读过后应该会对常用的浮点数 FP16,FP32,BF16 有一个更好的理解~

2025-03-09 14:34:48 1166

原创 美团开源首发INT8无损满血版DeepSeek R1

根据DeepSeek最新发布的技术报告,V3/R1突破性的训练成本控制主要依托FP8精度训练方案。FP8是一种典型的模型量化技术,相较于业界常用的BF16精度,FP8精度通过将数据位宽减半显著降低了单次计算开销,但也会带来一定的精度损失。在实践中,DeepSeek R1采用了混合精度训练机制有效缓解了精度损失问题。由于DeepSeek R1采用FP8精度训练,所以开源的原生权重就是FP8精度。

2025-03-09 14:20:17 1209

原创 一文详解如何使用 vLLM 在本地部署 DeepSeek 语言模型

通过以上步骤,你已成功在本地部署了 DeepSeek 模型,并能够通过 vLLM 进行推理。如果在部署过程中遇到问题,请参考 vLLM 官方文档或在相关社区寻求帮助。祝你使用愉快!

2025-03-03 22:33:44 884

原创 面了美团大模型算法,压迫感满满!!!

最近已有不少大厂开启春招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。大家好,最近面了美团大模型算法岗(日常实习),bg一般,之前有一段还可以的实习。面试题分享,欢迎与我交流学习。

2025-03-03 22:27:57 604

原创 北大DeepSeek使用手册来了,清北是在“神仙打架”吗?

清华之前出了 5 份 DeepSeek 的相关教程,北大近期了也出了两个,做个整理。。。

2025-02-28 14:16:09 732

原创 大模型面试官提问:多头注意力(MHA)和多头潜在注意力(MLA)

最近春招和实习已开启了。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。。更多实战和面试交流,文末加入我们。

2025-02-23 08:49:50 930

原创 DeepSeek-R1 + RAG搭建本地知识库

最近春招和实习已开启了。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。。更多实战和面试交流,文末加入我们。

2025-02-23 08:45:49 1686

原创 Deepseek本地部署详细指南!从 Ollama 到个人知识库应用

mbp pro。

2025-02-23 08:30:43 394

原创 小米大模型二面,我感觉要废了

原理是类似的,embedding 矩阵的初始化方式是 xavier,方差是 1/根号 d,因此乘以根号 d,可以让 embedding 矩阵的方差是 1,从而加速模型的收敛。举个例子:假如输入的原始句子是"我爱机器学习",我们按最简单的基于字的分词,这个样本的单词长度是 6,也就是 ‘我’ ‘爱’ ‘机’ ‘器’ ‘学’ ‘习’,这六个字。所以更深层的原因是,选择根号 d,可以让输入 softmax 的分布,也就是 Q*K^T 更加趋近一个标准的正态分布,也就是均值为 0,方差为 1 的正态分布。

2025-02-19 23:12:42 850

原创 大模型 RLHF 夺命连环17问,答错直接挂!

对于目前很火的Deepseek,最近有准备LLM面试的学员问需要重点掌握哪些东西,给大家的建议是这块最重要的是deepseek v3和r1的技术报告,建议大家去精读一下,其中MLA注意力,MTP,GRPO,冷启动数据,这些是重点。作为大模型对齐人类价值观的核心技术,RLHF 不仅决定了模型的"情商",更是面试中高频出现的必考点——如何设计奖励函数?针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。使模型生成更安全、有用、符合伦理的文本。

2025-02-19 23:07:57 791

原创 一波三折,终于拿到了阿里算法岗Offer了

最近已有不少大厂开启春招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。bg 211本 985硕,pub1A 一作中稿1A一作1A三作在投,一篇A会应该是通义这边的门槛。

2025-02-16 21:26:24 311

原创 绝了!Cline+DeepSeek 让 VsCode 秒变编程神器!

最近已有不少大厂开启春招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。你是否幻想过,有一天编程不再是枯燥地敲击键盘,而是如同与一位智慧伙伴轻松对话,就能让创意代码如灵动音符般流淌?今天,借助Cline与DeepSeek,在VsCode中带你实现自动化编程的奇妙旅程。

2025-02-16 21:23:34 441

原创 DeepSeek R1 + 个人知识库,直接起飞!

最近已有不少大厂开启春招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。DeepSeek终究还是没有扛住,越来越“难用”了:连续问到第二个问题就频繁地提醒“服务器繁忙,请稍后再试”,刷新也救不回来。我又不死心的去检查了一遍DeepSeek的状态页面,不出意外的一片大红。全网都在寻找DeepSeek官方的平替,其中是比较推荐的一个。

2025-02-12 21:41:32 1135 1

原创 DeepSeek接入Word与Excel,实现办公自动化,这也太猛了!

最近已有不少大厂开启春招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。今天跟大家分享下我们如何安装插件,将 DeepSeek嵌入到Excel表格,能够直接操作Excel,大大提升办公效率。

2025-02-12 21:28:23 1022

原创 DeepSeek+AnythingLLM本地化部署,打造个人专属智能助手

最近已有不少大厂开启春招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。在当今信息爆炸的时代,个人知识管理变得尤为重要。通过本地化部署 DeepSeek 模型,并结合 AnythingLLM,我们可以快速构建属于自己的 AI 驱动知识库,实现高效的信息管理和智能化的知识检索。本地化部署知识库保障我们个人资料不被外泄,结合大模型打造我们专属AI问答系统。

2025-02-09 22:43:24 1135

原创 清华大学DeepSeek使用手册,长达104页!(附PPT下载)

从避免AI幻觉的小窍门,到设计出色提示语的秘籍,每一页都凝聚着干货知识,让用户能够直接上手操作,快速掌握DeepSeek的精髓。这份文档不仅为用户提供了关于DeepSeek的全面知识,还体现了中国科技在人工智能领域的快速发展。《DeepSeek:从入门到精通》以通俗易懂的方式,全面介绍了DeepSeek的使用方法,为用户提供了极具价值的指导。这份文档内容丰富,篇幅长达104页,涵盖了众多实用技巧。

2025-02-09 22:20:43 5683

原创 DeepSeek 接入 PyCharm,轻松助力编程

电脑没有大显存GPU的朋友,推荐安装1.5b尺寸,这版尺寸普通电脑无GPU的都能流畅运行,延时几乎在1-2秒,更为关键的是,DeepSeek-r1之所以爆出圈有一个重要原因,小尺寸模型回答质量也很高,即便1.5b如此小的参数尺寸亦如此。大模型在本地搭建,除了能够方便个人知识库管理,详见上一篇介绍,还能提效编程学习,比如Python,Java等,学编程就像学做事的思路和逻辑,挺重要也很有意思。,安装Pycharm社区版,完全免费,下载地址在我的公众号后台回复:Pycharm,即可获取。

2025-02-04 15:36:38 4197 5

原创 面试官提问:Transformer为什么使用多头注意力机制?

最近已有不少大厂已停止秋招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。“线性变换”是机器学习中针对数据常用的变换方式,通过线性变换可以将数据进行降维、解耦、筛选精炼等操作。而 Transformer 中的“线性变换”有着十分独特且重要的意义,它是导致 Multi-Head Attention 机制得以成功运行的根基。

2025-02-03 23:35:19 666

原创 使用 Lora进行微调DeepSeek大模型

最近已有不少大厂已停止秋招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。现存在的大模型已经很完善了,但在特殊场景下,他们的完成效果并不理想,也存在很多禁忌。主要体现在以下方面:1、由于不可抗原因,对输出内容限制,对敏感内容禁止输出。2、达不到理想的回复效果,忠实性不太理想,会天马行空。3、想对产品做推广回复,在回复中要忠于产品,推广产品。

2025-02-03 23:32:49 5491 4

原创 Llama 3.3 开源!一文讲透模型推理、模型微调全流程

最近已有不少大厂已停止秋招宣讲了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。

2024-12-29 18:54:00 925

原创 【大模型】开源向量数据库性能对比: Milvus, Chroma, Qdrant

Qdrant:优点:中规中矩,Qps 相对较高、延迟相对较低。在CPU和磁盘IO方面的利用率较高,能够在处理高负载时提供较好的性能。缺点:在大数据集的加载时间和总体检索精度上略逊于 Milvus,适合对过滤查询有需求但不追求极端性能的场景。对CPU和内存的需求较大,尤其在高并发和复杂查询时可能会出现较高的资源消耗,导致系统负载上升。Chroma:优点:对于较小的数据集,Chroma 更容易上手和集成。对CPU的依赖较低,更多依赖内存来处理大规模数据。缺点。

2024-12-29 18:40:50 2829

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除