
LLM基础
文章平均质量分 80
大模型爱好者社区
传道授业解惑!
展开
-
【面试常考】手撕大模型Attention:MLA、MHA、MQA与GQA
是时候准备面试和实习了不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。。原创 2025-05-24 16:52:04 · 690 阅读 · 0 评论 -
北京内推 | 字节跳动Data-电商团队招聘多模态大模型算法实习生
在这个团队,我们不仅要通过推荐和搜索算法帮助用户买到感兴趣的好东西,也要通过风控算法和智能平台治理算法去甄别违规行为,保护用户的购物体验;有大模型/多模态大模型(包括不限于llama/llava/Qwen等)学习基础、大模型训练基础(SFT等)、有相关项目比赛经历优先。1. 电商场景下多模态大模型的技术探索,包括不限于多模态大模型的PE、SFT、CoT/RL,并实现业务落地;最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。非26届应届生,27届应届生优先;原创 2025-05-24 15:42:09 · 126 阅读 · 0 评论 -
小白学大模型:多模态 Qwen2.5-VL
Qwen-VL 是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM)。Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。Qwen-VL 系列模型性能强大,具备多语言对话、多图交错对话等能力,并支持中文开放域定位和细粒度图像识别与理解。原创 2025-05-10 16:48:29 · 1034 阅读 · 0 评论 -
小白学大模型:从零实现 LLM语言模型
在当今人工智能领域,大型语言模型(LLM)的开发已经成为一个热门话题。这些模型通过学习大量的文本数据,能够生成自然语言文本,完成各种复杂的任务,如写作、翻译、问答等。原创 2025-05-10 16:43:57 · 952 阅读 · 0 评论 -
Label Studio:一个优秀的开源大模型数据标注平台
在LLM(大型语言模型)时代,数据标注质量直接决定了模型的智能上限。作为开源数据标注领域的标杆工具,Label Studio 凭借其多模态支持能力与高度可定制化的特性,正成为大模型训练中数据工程的基石。从文本三元组关系抽提到视频对象追踪,从低资源语言的语音标注到医学影像的像素级分割,Label Studio 通过统一的交互界面打破了传统标注工具的场景局限。原创 2025-04-12 16:58:24 · 1066 阅读 · 0 评论 -
图解混合专家(MoE)模型
在探索最新的大语言模型(LLM)时,“MoE”这一术语频繁出现在各种标题之中。DeepSeek-V3便是一个实力强劲的混合专家(MoE)模型,其总参数量高达6710亿,且在处理每个标记(token)时,能够智能地激活约370亿的参数,实现高效计算。同样引人注目的还有Qwen2.5-Max,这一大规模MoE模型通过精心设计的监督微调(SFT)流程以及基于人类反馈的强化学习(RLHF)方法进行了后训练,大大提升了其性能与实用性。这个“ MoE ”代表什么?为什么这么多大语言模型(LLM)都在使用它?原创 2025-04-12 16:50:06 · 1073 阅读 · 0 评论 -
基于 Deepseek LLM 本地知识库搭建开源方案(AnythingLLM、Cherry、Ragflow、Dify)
写在前面博文内容涉及基于 Deepseek LLM 的本地知识库搭建使用 ollama 部署 Deepseek-R1 LLM知识库能力通过 Ragflow、Dify 、AnythingLLM、Cherry 提供。原创 2025-03-29 23:12:51 · 1117 阅读 · 0 评论 -
《算法岗面试宝典》重磅发布!
薪资真香、技术难度真大、要求真的很全面,但不是没有方法可循、可借鉴的。业务知识 + 专业知识 + 编程基础能力+刷题(LeetCode/剑指Offer) + 项目 + 实习 + 竞赛 +顶会/顶刊+学校针对岗位要求,我在知识星球和《算法面试宝典》中详细给大家介绍。让加入的朋友了解最前沿的知识点,有问题给予专业指导,少栽跟头。这份《算法面试宝典》,文档字数 30w+,我们也在一直更新,涵盖算法岗的方方面面,相信你读完并思考实践后,你一定能有所收获。原创 2025-03-29 22:43:44 · 471 阅读 · 1 评论 -
秒杀DeepSeek,WPS的AI函数太强了!函数真的要被抛弃了
之前给大家分享了如何在WPS中开启DeepSeekR1,最近又发现WPS更新了AI函数,我的账号不是会员也能使用它们相较于DeepSeek繁琐的使用方法,我觉得AI函数更加的便捷,这才是提高工作效率的神器,秒杀DeepSeek,操作也非常的简单。原创 2025-03-03 22:19:31 · 457 阅读 · 0 评论 -
DeepSeek 配合 Mermaid,自动生成甘特图
Mermaid的特点是简洁的语法和跨平台兼容性,让用户可以通过简单的文本描述来创建多种类型的图表,我们常见的,甘特图,流程图,正态分布图,甚至桑基图都是可以的。今天跟大家分享下我们如何使用DeepSeek与Mermaid来实现快速的生成图表,操作也非常的简单,只需要准备好自己的数据源即可,我们就以下面的数据为例来演示下如何生成甘特图。首先可以在下点上传附件,附件上传后,给出指令生成甘特图,并且以Mermaid的格式输出,这个格式非常的重要,生成完毕后,在右上角直接粘贴即可。三、Mermaid生成图表。原创 2025-03-03 22:10:44 · 1203 阅读 · 0 评论 -
DeepSeek杀死了Excel!感觉我要失业了!
2025开年相信大家都被DeepSeek刷屏了,DeepSeek以极地训练成本这么低,就获取了跟ChatGPT相近的性能,给美国科技圈一记暴击。有不少粉丝都问道DeepSeek应该怎么使用?只要你会将文字输入到AI对话框里,就能使用AI工具提高工作效率,下面就有把手教你如何使用DeepSeek解决Excel问题。原创 2025-02-12 21:16:21 · 365 阅读 · 0 评论 -
清华大学DeepSeek使用手册,长达104页!(附PPT下载)
从避免AI幻觉的小窍门,到设计出色提示语的秘籍,每一页都凝聚着干货知识,让用户能够直接上手操作,快速掌握DeepSeek的精髓。这份文档不仅为用户提供了关于DeepSeek的全面知识,还体现了中国科技在人工智能领域的快速发展。《DeepSeek:从入门到精通》以通俗易懂的方式,全面介绍了DeepSeek的使用方法,为用户提供了极具价值的指导。这份文档内容丰富,篇幅长达104页,涵盖了众多实用技巧。原创 2025-02-12 21:10:59 · 2458 阅读 · 0 评论 -
一文告诉你如何用 Python 操作 ChatGPT
ChatGPT 相信大家都用过,你觉得它给你的工作带来了多少帮助呢?目前我们使用 ChatGPT 的方式是通过浏览器访问 chat.openai.com,然后输入问题,就像下面这样。除了网页之外,ChatGPT 还提供了 API 接口,让我们可以在程序中访问 GPT 模型。需要注意的是,如果使用网页,那么 GPT 3.5 是免费的,GPT 4 则是一个月收费 20 美元。但如果要通过 API 来访问 GPT 模型,那么不管什么版本都是收费的,至于费用多少则取决于 token 的数量。原创 2024-03-24 09:25:40 · 3763 阅读 · 0 评论 -
太强大了!GPT-4 和 JupyterLab 联合起来了
Chapyter 作为一个的扩展插件,它能把GPT-4完美地融入到你的开发环境中,并配备了一个代码解释器,能将自然语言快速转换为Python代码并自动执行。Chapyter通过在你经常使用的IDE中实行,有助于提高你的工作效率,让你有更多的机会去探索和实践一些新的创意。原创 2024-01-18 23:55:20 · 737 阅读 · 0 评论 -
PyTorch 进阶指南,这个宝典太棒了
当然,也有一部分朋友对Pytorch 是有一定的基础的,想进一步提升Pytorch的技术能力,特别是当前大模型的火热,把 Pytorch 彻底带火了。今天分享一个非常棒的资料:《PyTorch 模型训练性能调优宝典》他是解决PyTorch训练性能和效率问题的首选宝典。适用对象包括:AI/ML平台工程师、数据平台工程师、后端软件工程师、MLOps工程师、站点可靠性工程师、架构师、机器学习工程师以及任何希望掌握PyTorch性能调优技巧的专业人士。原创 2024-01-07 13:45:30 · 531 阅读 · 0 评论 -
小白学 PyTorch 系列:54个超强 pytorch 操作
是 PyTorch 中用于定义和搭建模型的基类。通过继承该类,可以创建自定义的深度学习模型。# 自定义模型类# 创建模型实例# 查看模型结构你可以通过继承类来创建自定义的损失函数。# 自定义损失函数类# 使用自定义损失函数你可以自定义模型参数的初始化方法。# 自定义初始化方法# 在模型中应用初始化方法你可以通过继承类来创建自定义学习率调度器。# 自定义学习率调度器类# 自定义学习率调度逻辑pass# 使用自定义学习率调度器继承类可以自定义数据加载器。# 自定义数据加载器类。原创 2024-01-01 17:05:34 · 2053 阅读 · 0 评论 -
9个技巧让你的 PyTorch 模型训练飞快!
也许你仍然在使用32位精度进行计算,或者甚至只是在单个GPU上进行训练。然而,随着科技的进步,我们已经有了更好的选择。使用更高精度的计算,如16位浮点数或混合精度,可以提高训练速度并减少内存消耗。同时,利用多个GPU进行并行训练,可以大大加快训练过程。我在这里总结了提升Pytorch模型训练速度的9个技巧,与大家分享,原创 2023-12-30 18:31:18 · 2750 阅读 · 0 评论 -
PyTorch 进阶指南,10个必须知道的原则
PyTorch在nn模块中提供了各种预定义的层、损失函数和优化算法。PyTorch的10条原则为开发者提供了宝贵的指导,帮助他们在使用PyTorch进行深度学习时遵循最佳实践。这些准则涵盖了许多关键方面,如张量、动态计算图、自动微分、模块化神经网络。遵循这些原则可以提高代码的可读性、性能和可维护性,使开发者能够更好地利用PyTorch的强大功能。无论是初学者还是有经验的用户,都可以从这份指南中受益,提升他们在PyTorch中的深度学习项目的质量和效率。更多高级PyTorch内容可参见如下内容。原创 2023-12-28 23:02:33 · 1177 阅读 · 0 评论 -
这一次,我准备了 20节 PyTorch 中文课程
本书是我利用工作之余大概3个月写成的,大部分读者应该在20天可以完全学会。预计每天花费的学习时间在30分钟到2个小时之间。当然,本书也非常适合作为 Pytorch 的工具手册在工程落地时作为范例库参考。日期学习内容内容难度预计学习时间更新状态B站讲解一、Pytorch的建模流程⭐️0hour✅day11-1,结构化数据建模流程范例⭐️⭐️⭐️1hour✅day21-2,图片数据建模流程范例⭐️⭐️⭐️⭐️2hour✅day31-3,文本数据建模流程范例⭐️⭐️⭐️⭐️⭐️。原创 2023-12-26 22:35:00 · 3796 阅读 · 1 评论 -
Pytorch,16个超强转换函数全总结!!
哈喽,这些天无论是社群还是私信,很多人希望看到更多关于深度学习基础内容,这篇文章想要分享的是关于pytorch的转换函数。建议大家一定要好好看看这部分,在平常的使用中,既多又重要!!当然在 PyTorch 中,转换函数的主要意义主要是用于对进行数据的预处理和数据增强,使其适用于深度学习模型的训练和推理。将不同格式的数据(如 PIL 图像、NumPy 数组)转换为 PyTorch 张量,以便能够被深度学习模型处理。例如,将图像转换为张量。将输入数据的值缩放到某个特定的范围。原创 2023-12-25 12:57:48 · 1032 阅读 · 0 评论