【LLM】
文章平均质量分 92
大语言模型
老A的AI实验室
欢迎来到「老A的AI实验室」!在这里,我们将一起踏上探索人工智能的奇妙旅程。
本博客可长期合作推广各类AI相关业务,如云计算租赁、大模型调用、AIGC培训、AI产品推广,欢迎来聊。
合作可站内私信或者关注我的小红书同名账号。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
深入理解Agentic Workflows
这篇文章将带你深入理解AI Agent、Agentic AI、Agentic Workflows、Agentic Architectures等概念,非常值得推荐。原创 2025-03-29 19:20:30 · 1462 阅读 · 0 评论 -
Manus没有秘密
AI Agent的核心不是技术黑箱,而是让普通人看见智能的工作痕迹。原创 2025-03-17 15:08:21 · 1229 阅读 · 0 评论 -
模型即产品:一场被低估的AI Agent革命正在发生
当LLM真正学会思考,所有需要「按步骤操作」的工作流都将消失。原创 2025-03-16 17:19:38 · 1511 阅读 · 0 评论 -
2025年全球生成式AI消费应用发展趋势报告
AI应用正从概念验证转向规模化落地,头部玩家通过持续技术创新巩固优势,垂直领域呈现突破性进展,AI视频生成工具实现高质量可控内容生产,开发者工具重构软件开发范式。原创 2025-03-08 19:37:16 · 3853 阅读 · 0 评论 -
深入理解推理语言模型(RLM)
大语言模型从通用走向推理,万字长文解析推理语言模型,建议收藏后食用。原创 2025-03-02 21:22:39 · 1561 阅读 · 0 评论 -
通俗理解Test time Scaling Law、RL Scaling Law和预训练Scaling Law
Test time Scaling Law、RL Scaling Law和预训练Scaling Law,三者形成循环迭代。原创 2025-02-23 00:37:56 · 4821 阅读 · 0 评论 -
全面对比DeepSeek-V3模型、R1模型和R1-Zero模型
V3:适合企业级大规模NLP需求,追求效率与成本平衡。R1:推荐学术研究、复杂问题解决场景,需深度推理与结构化输出。R1-Zero:适用于探索RL技术边界或需自我优化能力的实验场景。原创 2025-02-06 14:32:57 · 11640 阅读 · 0 评论 -
DeepSeek用到的GRPO算法究竟是什么?
GRPO 是一种用于训练大语言模型(比如 ChatGPT 这类 AI)的强化学习算法。它的核心目标是通过“组内比较”的方式,让模型学会生成更优秀的回答,而无需依赖复杂的额外模型来评判好坏。原创 2025-02-06 14:08:29 · 1198 阅读 · 0 评论 -
OpenAI 12天发布会回顾(12.6~12.21)
回顾OpenAI连续12天发布会,附视频。原创 2024-12-21 11:18:53 · 1122 阅读 · 0 评论 -
2025年AI产品趋势预测:AI数字分身、万物皆可玩、AI搜索3.0、3D人机交互
2025年必将将迎来AI用户产品的大规模爆发,AI数字分身、创新玩法、AI搜索3.0以及3D人机交互这4个方向将成为AI产品的破局点。原创 2024-12-06 18:00:17 · 1935 阅读 · 0 评论 -
回顾:ChatGPT发布两周年,OpenAI带给世界了什么?
ChatGPT发布两周年,我们将去往何方?原创 2024-11-29 20:38:44 · 2575 阅读 · 0 评论 -
AI Agent:人人都是开发者
Agent提供的快速迭代和实验本身就是一种新的用户体验发明路径。因此,Agent的价值在于降低新产品的开发成本,缩短开发周期,快速验证想法,通过组合式创新发现商业机会。原创 2024-11-27 18:35:11 · 1124 阅读 · 0 评论 -
Pre-training、Post-training、Continue training的区别
对Pre-training、Post-training、Continue training概念的解析。原创 2024-09-19 15:04:39 · 10128 阅读 · 0 评论 -
全球AI产品Top100排行榜
全球Web Top50和App Top50,由a16z于2024年8月底发布,洞察AI产品趋势。原创 2024-09-08 10:14:04 · 6063 阅读 · 1 评论 -
Prompt Engineering:超详细提示工程指南
Prompt Engineering(PE)就像是炼丹师的魔法配方,好的PE能够激发大模型的涌现能力,给人灵光一现的惊喜。下面我们就从OpenAI和它的死对头Anthropic给出的官方PE指南出发,了解好的PE应当遵循的基本原则,然后再介绍目前非常流行且有效的“CO-STAR框架”,最后再针对性地给出9个适合不同场景的9个PE框架。原创 2024-07-21 16:37:21 · 2299 阅读 · 0 评论 -
GraphRAG:一种新型的RAG技术
微软前几天发布的 GraphRAG 架构非常厉害,但是具体的原理和内容可能不太好理解。Neo4j 的 CTO 写了一篇详细的文章《GraphRAG 宣言:为 GenAI 增加知识》,通俗易懂的介绍了 GraphRAG 的原理、与传统 RAG 的区别、GraphRAG的优势、知识图谱的创建和利用知识图谱工作。原创 2024-07-18 15:41:28 · 6554 阅读 · 0 评论 -
LLM应用:行业大模型
大语言模型正在朝着两个方向发展,一个是以ChatGPT为代表的通用大模型,另一个则是行业大模型(或称为“专业大模型”)。如果大模型的演化分为阴阳两面,通用大模型更像是阳面,受众更广、更to C端,以个人助手、AI搜索为代表;行业大模型像是是阴面,受众都是行业专业人士、也更to B端,其中以各种医疗专业助手、法律专业助手为典型。原创 2024-07-10 19:09:05 · 1229 阅读 · 0 评论 -
LLM应用:传统NLP任务
LLM出来以后,知乎上就出现了“传统NLP已死”的言论,但是传统NLP真的就被扔进历史的垃圾桶了吗?原创 2024-07-03 22:57:55 · 1710 阅读 · 1 评论 -
LLM应用:推荐系统
随着信息的不断丰富,搜索和推荐成为了我们日常最长用到的两个功能,搜索是用户主动发起的信息查找需求,推荐则是平台根据用户标签/行为或用户query推荐给用户信息,用户是被动消费内容。原创 2024-07-03 22:35:04 · 2250 阅读 · 0 评论 -
混合专家模型(MoE)的前世今生
在文章《聊聊最近很火的混合专家模型(MoE)》中,我们简单介绍了MoE模型的定义和设计,并且比较了MoE和Dense模型的区别,今天我们继续来回顾一下MoE模型发展的历史和最新的发展现状。原创 2024-06-30 11:45:59 · 3532 阅读 · 0 评论 -
做AI搜索的55条建议,务必收藏
目前大模型产品落地真正形成共识的只有AI搜索,自从Perplexity发起了对搜索霸主谷歌的强势挑战,国内外大大小小做搜索的厂商,都推出了内置于原搜索结果的AI总结功能,譬如谷歌的AI Overviews、微软的new bing、百度的AI伙伴、360的AI搜索等等,除此之外,还有类似于Perplexity做AI Native搜索产品的秘塔AI搜索、天工AI搜索,一时间AI搜索成了本次GenAI落地的“当红炸子鸡”。原创 2024-06-27 11:10:17 · 1102 阅读 · 0 评论 -
RAG优化策略
在文章《大语言模型落地的关键技术:RAG》中,我们初步了解了RAG的基本概念、发展历史、系统组成以及评估方法,本文将着重讲解LLM落地面临的困难以及RAG技术的优化策略。原创 2024-06-25 23:54:03 · 2358 阅读 · 0 评论 -
非强化学习的对齐方法
在文章《LLM对齐“3H原则”》和《深入理解RLHF技术》中,我们介绍了大语言模型与人类对齐的“3H原则”,以及基于人类反馈的强化学习方法(RLHF),本文将继续介绍另外一种非强化学习的对齐方法:直接偏好优化(DPO)。原创 2024-06-25 20:50:27 · 1121 阅读 · 0 评论 -
深入理解RLHF技术
在《LLM对齐“3H原则”》这篇文章中,我们介绍了LLM与人类对齐的“3H”原则,但是这些对齐标准主要是基于人类认知进行设计的,具有一定的主观性。因此,直接通过优化目标来建模这些对齐标准较为困难。本文将介绍基于人类反馈的强化学习方法(RLHF),引入人类反馈的指导,以便更好地对齐大语言模型。原创 2024-06-24 20:50:42 · 1878 阅读 · 0 评论 -
LLM对齐“3H原则”
在大语言模型的学习过程中,如何确保大语言模型的行为与人类价值观、人类真实意图和社会伦理相一致成为了一个关键研究问题,通常称这一研究问题为人类对齐(Alignment)。原创 2024-06-24 19:53:21 · 3632 阅读 · 0 评论 -
指令微调数据集构建方法
指令微调(Instruction Tuning),是指使用自然语言形式的数据对预训练后的大语言模型进行参数微调,在一些文章中也称为有监督微调(Supervised Fine-tuning,SFT)或多任务提示训练(Multitask Prompted Training)。指令微调的第一步就是收集或构建指令化的实例,然后通过有监督的方式对LLM的参数进行微调,经过指令微调后,大语言模型能够展现出较强的指令遵循能力,可以通过零样本学习(zero-shot)的方式解决多种下游任务。原创 2024-06-23 17:53:32 · 5111 阅读 · 0 评论 -
Apple Intelligence:苹果大模型部署方案
一文了解苹果大模型部署方案,包括设备端LLM、云端LLM和第三方LLM(如ChatGPT)。原创 2024-06-17 20:49:25 · 4026 阅读 · 0 评论 -
LLM自动化对齐技术
近年来,大语言模型(LLMs)的快速发展,极大地重塑了人工智能的格局。一致性是塑造与人类意图和价值观相对应的LLMs行为的核心,例如,教导LLMs遵循响应过程中“有帮助(Helpful)、无害(Harmless)和诚实 (Honest)”的原则(称为“3H原则”)。因此,为了满足人类的需求,LLMs必须“与人类对齐(Alignment)”,这也使得RLHF成为LLM的热点研究方向。原创 2024-06-12 15:06:08 · 2511 阅读 · 0 评论 -
万字长文|OpenAI模型规范(全文)
本文是继《OpenAI模型规范概览》之后对OpenAIModel Spec的详细描述,希望能对各位从事大模型及RLHF研究的朋友有帮助。万字长文,建议收藏后阅读。原创 2024-06-08 22:44:02 · 3332 阅读 · 0 评论 -
OpenAI模型规范概览
这是OpenAI对外分享的模型规范文档(Model Spec),它定义了OpenAI希望在API接口和ChatGPT(含GPT系列产品)中模型的行为方式,这也是OpenAI超级对齐团队奉行的行为准则,希望能对国内做RLHF的同学有帮助。原创 2024-06-07 19:10:00 · 1639 阅读 · 0 评论 -
大模型训练十诫
Google 在线文件 Ten Commandments To deploy fine-tuned models in prod,总结了大模型训练的十条戒律,提供了一些指导原则和建议。原创 2024-05-30 17:03:52 · 461 阅读 · 0 评论 -
聊聊最近很火的混合专家模型(MoE)
MoE架构的核心思想是将一个复杂的问题分解成多个更小、更易于管理的子问题,并由不同的专家网络分别处理。这些专家网络专注于解决特定类型的问题,通过组合各自的输出来提供最终的解决方案,提高模型的整体性能和效率。原创 2024-05-29 15:32:24 · 11592 阅读 · 0 评论 -
精选GenAI和LLM学习资源
精选生成式AI和大语言模型学习资源。原创 2024-04-26 22:17:49 · 1038 阅读 · 0 评论 -
19类AI Agent框架调研(下)
由于篇幅原因,文章分为上、下两篇,上篇主要讲Single-Agent框架,有8个;下篇主要讲Multi-Agent框架,有11个;累计共19款AI Agent框架。转载 2024-04-21 17:51:38 · 926 阅读 · 0 评论 -
19类AI Agent框架调研(上)
由于篇幅原因,文章分为上、下两篇,上篇主要讲Single-Agent框架,有8个;下篇主要讲Multi-Agent框架,有11个;累计共19款AI Agent框架。转载 2024-04-21 17:46:21 · 551 阅读 · 0 评论 -
大模型微调的几种常见方法
在文章《深入理解大语言模型微调技术》中,我们详细了解大语言模型微调的概念和训练过程,本篇给大家介绍大模型微调常见的7种训练方法。原创 2024-04-16 20:07:37 · 12748 阅读 · 2 评论 -
深入理解大语言模型微调技术
大模型微调,也称为Fine-tuning,是指在已经预训练好的大型语言模型基础上(一般称为“基座模型”),使用特定的数据集进行进一步的训练,让模型适应特定任务或领域。原创 2024-04-16 19:35:23 · 9677 阅读 · 0 评论 -
AI Agent概念、能力初探
AI Agent无疑是大语言模型当前最热门且最具前景的方向,也是通往AGI的必经之路,下面我们从基本概念和系统能力层面来逐步揭开AI Agent的神秘面纱。原创 2024-04-13 23:30:08 · 3650 阅读 · 0 评论 -
揭秘ChatGPT的数据集构建
解析ChatGPT在SFT和RLHF阶段的训练数据集。原创 2024-04-09 21:35:59 · 1870 阅读 · 0 评论 -
解析大语言模型训练三阶段
大语言模型的训练过程一般包括3个阶段:预训练(Pre-training)、SFT(有监督的微调,Supervised-Finetuning)以及RLHF(基于人类反馈的强化学习,Reinforcement Learning from Human Feedback),其中SFT和RLHF不是必须的流程。原创 2024-04-09 20:47:10 · 8275 阅读 · 0 评论
分享