- 博客(1336)
- 收藏
- 关注
原创 微调和蒸馏:详细技术全解
LLM 已经彻底改变了人工智能,特别是具有数十亿到数百亿参数的模型,使其在各种自然语言处理(NLP)任务中实现了最先进的表现。然而,它们庞大的体量带来了计算效率、适应性和部署可行性方面的挑战。微调和蒸馏这两种主要技术已经成为关键的优化策略。微调,这涉及调整预训练模型的参数,以提高在特定领域任务上的表现。
2025-03-18 11:23:57
971
原创 微调基础概念一文全解
全量微调的一个最核心的应用场景就是全量指令微调,在当代大模型的训练流程中,首先需要进行模型预训练,在这个过程中我们需要输入大量不带标签的文本段落,让模型学习到语言的基本结构、语法规则、上下文信息等。毫无疑问,全量微调是一种算力消耗更大、但对模型的能力改造更为彻底的方 法,而高效微调则更类似一种“ 四两拨千斤”的方法,通过修改模型部分参数,来调整模型整体能力。例如,对于法律、医疗 等专业领域,可以使用少量的标注数据对预训练模型进行微调,帮助模型理解特定行业的术语、规 则和知识,进而提升专业领域的问答能力。
2025-03-18 11:21:22
407
原创 大模型微调揭秘:微调在实际应用中的具体过程和效果
是指经过大量数据训练的神经网络模型。这些模型通常具有非常复杂的结构和大量的参数,可以处理广泛的任务,理解和生成自然语言,常见的大模型有文心、GPT4、LLAMA等。
2025-03-18 11:11:21
1376
原创 大模型参数高效微调(PEFT)高效解析
2023年,大模型如雨后春笋般爆发,58同城TEG-AI Lab作为AI平台部门,紧跟大语言模型技术发展步伐,打造了大语言模型平台,支持大语言模型训练和推理部署,并基于大语言模型平台构建了58同城生活服务领域(房产、招聘、汽车、黄页)垂类大模型灵犀大语言模型( ChatLing),支撑了业务方大模型应用的探索落地。灵犀大语言模型在公开评测集和实际应用场景下,效果均优于开源通用大语言模型以及商用通用大语言模型。在研发灵犀大模型过程中,我们在大模型参数高效微调
2025-03-18 11:04:19
878
原创 大模型微调和蒸馏有什么技术性差别?
大模型蒸馏(Knowledge Distillation)蒸馏是一种将大型复杂模型(教师模型)的知识迁移到小型模型(学生模型)的技术。通过训练学生模型模仿教师模型的行为,实现模型压缩和性能保留的目标。蒸馏过程通常包括两个阶段:预训练阶段(教师模型训练)和知识传递阶段(学生模型训练)。大模型微调(Fine-tuning)微调是指在预训练的大模型基础上,通过少量标注数据的再训练,使模型适应特定任务的需求。微调可以分为全量微调和参数高效微调(如PEFT)。
2025-03-17 21:44:01
958
原创 大模型微调一文全解
所谓大模型微调,指的在已有的大规模预训练模型基础上,通过对标注数据进行训练,进一步优化 模型的表现,以适应特定任务或场景的需求。不同于RAG或者Agent技术,通过搭建工作流来优化模型表现,微调是通过修改模型参数来优化模型能力,是一种能够让模型“永久”掌握某种能力的方法。而从方法的大类上来划分,微调又可以划分为全量微调:带入全部数据进行微调,和高效微调:只 带入部分数据进行微调。毫无疑问,全量微调是一种算力消耗更大、但对模型的能力改造更为彻底的方 法,而高效微调则更类似一种“ 四两拨千斤”的方法
2025-03-17 21:42:42
1031
原创 5个顶级Agent框架,总有你不知道的
这种灵活性,再加上 Google Cloud 的可扩展基础设施,使 Vertex AI Agent Builder 成为那些希望在各种规模上部署 AI 解决方案的企业的强有力竞争者,从小型部门项目到潜在的大型企业范围的倡议。crewAI 的突出特点仍然是其基于角色的代理设计,能够创建高度专业化的 AI 团队,能够处理需要多样专业知识和观点的复杂工作流程。从AutoGen的复杂多代理系统到Cogniflow的用户友好的无代码方法,我们探索的每个平台都提供了独特的能力,以满足不同的企业需求。
2025-03-17 21:41:06
610
原创 AI Agent的崛起
AI Agent作为人工智能世界中的变革力量,它的崛起预示着一个更加智能化、自动化的未来。随着AI Agent技术的不断进步,我们有理由相信,它将深刻改变我们的工作和生活方式。它能够预测下一个词,生成连贯的文本。集成已有系统:能够与不同的系统、API接口对接,如访问邮箱、日历,操作数据库等。积极主动:能够监控数据流,根据用户偏好启动行动,并根据知识的积累调整行为。这一设想得到了业界的广泛认同,AI Agent被看作是AI发展的新趋势。随着人工智能技术的飞速发展,我们正站在一个全新的技术革命的门槛上。
2025-03-17 21:38:36
736
原创 AI Agent全解:原理、主流框架、设计模式及应用案例分享
OpenDevin 是一个开源的自主人工智能软件工程师,能够执行复杂的工程任务,并在软件开发项目中与用户积极协作,例如:如 “查找上个月 OpenDevin 仓库中的拉取请求数量”,还能处理软件工程任务,例如 “请为这个文件添加测试并验证所有测试都通过,如果没有修复该文件”。独响是一个安全,私密的轻笔记,你可以用来记录生活日常,学习感悟,所思所想,但独响又不仅如此,我们创造和移植了许多虚拟角色的灵魂,让他们成为你独响中的伙伴,他们会在你的记录下方评论,你可以和他们讨论,聊天,甚至是…
2025-03-17 21:37:30
951
原创 DeepSeek提示词,让工作效率翻倍。
随着AI技术的火热发展,企业和个人用户需要搭建知识库的需求越来越迫切。如果自己动手搭建一个功能强大的知识库对于非专业技术人员来说可能面临挑战,更别说那些非专业人士了。我在网上看了大量相关的教程,大多数都是搬砖,偶尔看到一些非搬砖大佬写的教程,总会省略一些细节,导致很多人就算面对教程也是各种踩坑,折腾很久最后也都放弃了。
2025-03-10 14:56:01
959
原创 大模型“瘦身”革命——模型压缩与加速
AI大模型的压缩与加速技术是解决其计算资源消耗和部署难题的关键。通过剪枝、量化、知识蒸馏、低秩分解和混合精度训练等技术,开发者可以在保持模型性能的同时,大幅降低其计算和存储需求。未来,随着自动化压缩技术和硬件协同优化的进步,AI大模型的部署将更加高效和环保。
2025-03-10 14:53:15
824
原创 大模型微调加速方法探究
通过本文可以了解:LoRA模型加速原理、peft包使用、Autocust自动混合精度、Accelerate和deepspeed加速、多GPU分布式训练等大模型加速训练和微调的方法和代码应用示例。近期大模型层出不穷,大家对于大模型的微调也在跃跃欲试,像斯坦福的[1], 清华的[2],中文的[3],让我这样的普通玩家也能训练自己的微调模型。在微调和推理的时候仍然需要加速,有哪些方法可以加速微调呢?
2025-03-10 14:51:26
899
原创 开源和闭源对大模型有什么影响?
人工智能(AI)技术的迅猛发展让大模型成为推动社会和行业进步的重要力量。然而,对于一个AI模型的“好坏”和“发展前景”的评价,离不开对其开源和闭源两种发展路径的讨论。开源和闭源模式各有其独特的优势和挑战,本文将深入探讨这两种路径在数据隐私保护、用户数据安全、商业应用和社区参与方面的差异,并探究其对行业发展的推动作用。开源和闭源大模型在数据隐私保护、用户数据安全、商业应用和社区参与等方面各有其优势和挑战。开源模式以其透明性和灵活性,促进了技术的快速发展和广泛应用;
2025-03-10 14:47:54
1021
原创 大模型开源之争,开源大模型是真的开源么?
人工智能在近几年的飞速发展,不仅打破了很多传统技术和习惯,也让全球围绕大模型生态迎来了全新的赛道之争。尤其是从去年开始,全球互联网大厂掀起了“百模大战”,大家耳熟能详的互联网大厂如微软、谷歌、百度、阿里等接连下场,经过半年多的发力,这些科技巨头围绕着大模型生态而面临选择开源大模型还是闭源大模型。
2025-03-10 14:45:47
867
原创 AI Agent新趋势
AI Agent作为一种新兴的人工智能技术,正在以其独特的自主性、反应性和交互性,颠覆着软件行业的传统格局。随着技术的不断进步和应用场景的不断拓展,AI Agent将成为推动数字化转型和智能化升级的重要力量。未来,我们可以期待AI Agent在更多领域展现其巨大的应用潜力和价值。同时,我们也应该看到,AI Agent的发展还面临着一些挑战和问题,如数据隐私、安全性等。因此,在推动AI Agent技术发展的同时,我们也需要加强对其监管和规范,确保其健康、可持续地发展。优快云独家福利。
2025-03-08 14:03:06
1051
原创 解析AI Agent,原理、应用与代码示例
本文通过简单的网格示例演示了 AI Agent 的基本原理与实现,未来可以结合强化学习等技术实现更复杂的智能体。AI Agent 的核心是感知、决策和执行三大模块,通常结合机器学习、自然语言处理(NLP)、计算机视觉等技术。简单来说,AI Agent 是一个“智能体”,它能够模拟人类的思考与行动,完成复杂任务。假设一个 5x5 的网格,AI Agent 初始位置为 (0, 0),目标位置为 (4, 4)。以下是一个简单的 AI Agent 示例代码,模拟一个智能体在二维网格环境中寻找目标的过程。
2025-03-08 14:00:32
1106
原创 向量数据库是什么
向量数据库(Vector DataBase )是一种专门用于存储和管理高维向量数据的数据库。向量数据通常用于表示非结构化数据(如文本、图像、音频等)的特征。向量数据库通过高效的向量检索技术(例如相似度搜索)帮助用户快速找到与查询向量最相似的数据点。向量数据库,示意架构图。
2025-03-08 13:58:12
509
原创 大模型有什么发展瓶颈?
如果这样,AGI是可能通过大模型技术路线达到的,而在这种情况下,意味着需要相比目前数以十倍、百倍的资源投入,基本是个天文数字了,而在如此巨量投入的情况下,Meta等公司是否还会这样大力度支持开源就是有疑问的,此时开源模型是有可能越来越落后于闭源模型的。最近关注两个方向,也是公司重点发展和投资的两个方向,一是数据资产入表,二是大模型及应用。目前能看到的“合成数据”应用的最好的产品应该是DALLE-3,以及Sora,就是里面的图像和视频Re-caption模型,本质上这就是机器产生的“合成数据”。
2025-03-08 13:55:41
660
原创 开源模型是什么意思?什么是开源大模型
开源大模型(Open Source Large Models)是指那些由开源社区或组织开发、维护和共享的大型软件模型。这些模型通常具有以下特点:开源:开源大模型的源代码是公开的,任何人都可以查看、修改和分发。这有助于促进技术的发展和创新。大型:这些模型通常具有较大的规模和复杂性,可以处理大量的数据和任务。例如,深度学习模型、自然语言处理模型等。社区支持:开源大模型通常由一个活跃的社区支持,社区成员可以共同参与模型的开发、维护和改进。
2025-03-08 13:52:43
714
原创 AI Agent :从反射 Agent 到学习型 Agent
AI Agent,全称人工智能代理(Artificial Intelligence Agent),是一种能够感知其所处环境,并根据感知信息自主做出决策,进而执行相应行动以实现特定目标的智能系统。简单来说,它就像是一个具备智能的“小助手”,能够理解周围的情况,思考该怎么做,并采取行动去完成任务。
2025-03-07 14:32:49
781
原创 ai agent是什么?
大语言模型的浪潮推动了 AI Agent 相关研究快速发展,AI Agent 是当前通往 AGI 的主要探索路线。大模型庞大的训练数据集中包含了大量人类行为数据,为模拟类 人的交互打下了坚实基础;另一方面,随着模型规模不断增大,大模型涌现出了上 下文学习能力、推理能力、思维链等类似人类思考方式的多种能力。将大模型作为 AI Agent 的核心大脑,就可以实现以往难以实现的将复杂问题拆解成可实现的子任 务、类人的自然语言交互等能力。
2025-03-07 14:29:05
1034
原创 Manus:开启通用智能体的新时代
2025年3月6日,中国科技领域迎来里程碑式突破——由Monica.im团队研发的全球首款通用AI智能体产品“Manus”正式上线。这款被业界誉为“聪明实习生”的AI助手,凭借其自主执行复杂任务的能力,一夜之间引爆全球科技圈,推动A股AI相关板块大涨,软件ETF单日涨幅超3%。Manus的诞生不仅刷新了AI技术应用的高度,更标志着中国团队在智能体(Agent)领域实现了对国际巨头的超越。Manus的颠覆性在于其真正实现了“端到端”的任务处理能力。
2025-03-07 14:24:39
1404
原创 Manus横空出世,了解它看这一篇就够了
The Information 报道《China’s AI Glue Factory》提及 Monica 团队**“API 调用次数超过代码行数”**, 认为 Manus 依赖 “套壳” 模式(整合现有模型),但团队强调其在任务规划与执行层的创新,据悉, Manus 已申请多模型路由优化算法专利(专利号 US2024178902),证明其整合技术创新性。,但Manus 宣传擅长调用大模型 API,估计不止这些,应该是由多个独立模型协同工作,未来计划开源部分模型(如推理部分)。
2025-03-07 14:22:20
749
原创 全球首款通用AI Agent——Manus发布!3大场景实测!
AI Agent,即人工智能代理,是一种能够感知环境、进行自主理解、决策和执行动作的智能体。它不仅可以处理自然语言,还具备决策制定、问题解决、与外部环境的互动和操作执行等广泛能力。AI Agent的工作流程通常包括感知、规划(或思考)、决策和行动四个关键环节,通过不断学习和优化,实现自主完成任务的目标。Manus作为一款全球首款通用AI Agent产品,以其独特的技术优势和市场表现,有望成为AI Agent领域的标杆。
2025-03-07 14:17:14
819
原创 为什么开源LLama?背后的逻辑是什么?
如果这样,AGI是可能通过大模型技术路线达到的,而在这种情况下,意味着需要相比目前数以十倍、百倍的资源投入,基本是个天文数字了,而在如此巨量投入的情况下,Meta等公司是否还会这样大力度支持开源就是有疑问的,此时开源模型是有可能越来越落后于闭源模型的。最近关注两个方向,也是公司重点发展和投资的两个方向,一是数据资产入表,二是大模型及应用。目前能看到的“合成数据”应用的最好的产品应该是DALLE-3,以及Sora,就是里面的图像和视频Re-caption模型,本质上这就是机器产生的“合成数据”。
2025-03-06 14:09:13
565
原创 开源大模型和闭源大模型有什么区别?
开源大模型(Open Source Large Models)是指那些由开源社区或组织开发、维护和共享的大型软件模型。这些模型通常具有以下特点:开源:开源大模型的源代码是公开的,任何人都可以查看、修改和分发。这有助于促进技术的发展和创新。大型:这些模型通常具有较大的规模和复杂性,可以处理大量的数据和任务。例如,深度学习模型、自然语言处理模型等。社区支持:开源大模型通常由一个活跃的社区支持,社区成员可以共同参与模型的开发、维护和改进。
2025-03-06 14:07:31
1076
原创 开源大模型不得不谈的十件事
大语言模型(LLM)是利用深度学习和庞大数据集来理解、总结、生成和预测新内容的 AI 算法。语言在人类与技术之间的交流中至关重要。它为分享想法和思想提供了术语、意义和结构。在人工智能领域,语言模型不仅赋予了交流能力,还能创造新的想法。深度学习算法需要输入大量数据:通过多个序列,它会创建一个包含单词间关系的神经网络。这些关系被称为权重:它们是指向语义上最重要的下一个单词的统计指针。举个例子:如果你说“中华人民”,LLM 会根据上下文统计最可能的单词,并将句子继续为“共和国”,结果就是“中华人民共和国…”
2025-03-06 14:05:29
1092
原创 大模型为什么开源?
我们并没有将AI视为一种产品,它更像是一个研究小组,过去10多年来,它创造了许多不同的东西,改进了我们所有的产品,推动了该领域的发展,并允许该领域的其他人创造出同样改进我们产品的东西。:对大部分公司来说,当你还是一家初创公司的时候,可能会受到更多的资金限制,但当你只是在研究一个想法,虽然没有资源,但在某些时候,会跨越你正在做的事情的某个阈值,接下来就能通过它们创造更多价值。他认为,未来人工智能的集中化有可能像它的广泛传播一样危险,而解决的有效方法就是开源,开源会让AI软件更安全、更稳定,它会创造更多赢家。
2025-03-06 14:03:30
697
原创 ai大模型应用开发,学到就是赚到!
1、了解大模型能做什么2、整体了解大模型应用开发技术栈3、浅尝OpenAI API的调用,AI全栈工程师:懂AI、懂编程、懂业务的超级个体,会是AGI(Artificial General Intelligence 通用人工智能)时代最重要的人。
2025-03-06 14:01:17
645
原创 AI大模型时代来临,百模征战开始
随着多模态大模型能力的跃迁、GPTs生态的建立以及对话、图像、办 公、教育等领域AI标杆类应用的出现,AI已经具备从纯技术衍生的轻量工具产品向有具体落地场景的深度产品融合演变的能力,诸多行业将迎来工业级生产力变革,降本增 效效能凸显,数字化程度高、内容需求丰富的行业商业化及业绩兑现逻辑已完备。从 2022 年底 ChatGPT 横空出世,到 2023 年一整年的大模型热潮,在科技的巨浪中,大模型技术如同一颗璀璨的明星,迅速起并引领着一场前所未有的技术革命。大模型如同推动创新的引擎,将科技的边界不断拓展。
2025-03-05 13:33:24
686
原创 生成式AI技术赋能国防业务——多模态军事大模型实时交互决策解决方案
某司以军工及政务特种领域的大模型私有化落地为核心方向,打磨覆盖数据治理,微调数据生成,知识库构建,领域大模型训练、编排、应用全周期的大模型开发产品集,提供军事智能问答、军事情报分析、智能空战助手、指挥辅助决策及自动化调度等解决方案及应用产品。前排提示,文末有大模型AGI-优快云独家资料包哦!
2025-03-05 13:31:54
1068
原创 国内大模型测评如何选择以及快速使用主流大模型?
自2023年5月以来,全球及中国国内的大模型技术均展现出了强劲的发展势头,尤其是以GPT系列为代表的海外顶尖模型,历经了从GPT3.5到GPT4、GPT4-Turbo乃至GPT4o的多次迭代飞跃,持续推动AI技术的边界。
2025-03-05 12:01:19
707
原创 动手学大模型应用开发(学习记录)
大语言模型(LLM,Large Language Model)突破了传统模型无法理解人类语言的局限,实现了从规则和特征工程向端到端学习范式的转变,为自然语言处理、计算机视觉等技术的发展提供了新视角。LLM 通常包含百亿(或更多)参数,具有传统小型语言模型(例如3.3亿参数的BERT和15亿参数的GPT-2)所不具备的“涌现能力”,可以作为“基座(foundation model)”支持多元应用开发,并且支持以“对话方式”作为统一入口,实现了高效的端到端开发。
2025-03-05 11:57:51
844
原创 学大模型就看这篇就够了!大模型如何学习
大模型的初心是让训练出来的模型具备不同领域的认知力,既能有泛化的能力,又能有自我进化的能力。未来,大模型将致力于构建通用的人工智能算法底层架构,将模型的认知力从单领域泛化到多领域融合,在不同场景中自我生长,向可持续、可进化的方向发展。尽管大模型在很多任务上已经取得了显著的成果,但仍存在一些局限性,如数据集的规模和质量、模型的泛化能力、训练的效率和稳定性等。● 模型可解释性的提高:目前的大型模型往往难以解释,未来随着技术的不断发展,大型模型的解释性将会得到提高,人们将能够更好地理解模型的工作原理和决策依据。
2025-03-05 11:54:04
530
原创 一文带你全面了解大模型训练
大模型训练被分解成了预训练,监督调优,对齐等阶段。先看预训练,预训练,即Pre-training。预训练的目的是让模型学习语言的特性,主要是学习语言表达的流畅性和规则。至于具体的语言任务,比如对话,角色扮演,信息抽取,翻译,阅读理解,问答等,则需要放到监督调优。预训练是大模型的基础和核心,预训练阶段决定了模型的基础能力和上限。
2025-03-04 17:14:57
317
原创 35岁,现在学大模型来得及吗?
在人工智能迅猛发展的今天,不少35岁左右的朋友产生了这样的疑问:现在开始学习AI,是否为时已晚?事实上,30多岁的人学习AI不仅来得及,而且在某些方面还具有得天独厚的优势。以下是本文为您揭秘的35岁学习AI的可行性与优势。
2025-03-04 17:10:54
359
原创 一文带你深入了解大模型(LLM)
AIGC指内容生成式人工智能,指的是一种AI的类型,包括图像,文本,音频等内容生成式AI。所以这里包括了目前比较火热的AI绘画以及基于大语言模型的AI对话。2. 大模型到底指什么?其实我们目前讨论最多的大模型主要是指大语言模型(LLM),但是大模型并不单单指LLM,首先我们要理解大模型的概念,我们首先对这个词拆分来看,大是什么意思?模型又指代什么?首先我们来理解下模型,所谓模型通俗的讲是一个基于神经网络构建好的一个处理器,它能够根据输入产生相应的预测或者输出内容。
2025-03-04 17:06:26
1387
原创 大模型到底是什么?大模型的基本概念
文章深入探讨了人工智能大模型的核心概念,通过与人脑的比较,生动地解释了大模型如何工作,其训练过程的复杂性以及它们面临的限制。最重要的是:在AI时代,掌握与大模型沟通的“提示词”至关重要。
2025-03-04 17:03:33
714
原创 一文带你看懂大模型微调
微调是指调整大型语言模型(LLM)的参数以适应特定任务的过程。这是通过在与任务相关的数据集上训练模型来完成的。所需的微调量取决于任务的复杂性和数据集的大小。在深度学习中,微调是一种重要的技术,用于改进预训练模型的性能。除了微调ChatGPT之外,还有许多其他预训练模型可以进行微调。大模型微调如上文所述有很多方法,并且对于每种方法都会有不同的微调流程、方式、准备工作和周期。
2025-03-03 17:05:23
662
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人