自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1323)
  • 收藏
  • 关注

原创 全新发布!大模型LLM学习路线图:全面掌握学习路径,非常详细收藏我这一篇就够了

ChatGPT的出现在全球掀起了AI大模型的浪潮,2023年可以被称为AI元年,AI大模型以一种野蛮的方式,闯入你我的生活之中。从问答对话到辅助编程,从图画解析到自主创作,AI所展现出来的能力,超出了多数人的预料,让不少人惊呼:“未来是属于AI的”。AI大模型——成为互联网从业者必备技能。

2024-08-11 19:00:00 2770

原创 大模型引领机器学习未来:探索趋势与多元化应用

在过去的几年里,机器学习大模型(Large Models)成为了人工智能领域最热门的话题之一。这些大模型通过大规模数据训练,展现出前所未有的能力,推动了自然语言处理、计算机视觉等领域的飞速发展。本文将详细探讨机器学习大模型的基本概念、技术实现、应用场景以及未来的发展趋势。机器学习大模型,通常指的是包含数十亿甚至上千亿参数的深度学习模型。与传统的小规模模型相比,大模型通过大规模数据和计算资源进行训练,能够更好地捕捉复杂的数据模式和特征。

2024-07-13 10:28:53 1477

原创 LLM系列:KVCache及优化方法

KV cache的峰值显存占用大小: b(s+n)∗h∗l∗2∗2=4blh(s+n)b(s+n)∗h∗l∗2∗2=4blh(s+n)b(s+n)∗h∗l∗2∗2=4blh(s+n),输入序列长度s,输出序列长度n,第一个2表示k/v cache,第二个2表示fp16占用2个字节,transformer模型的层数为l,隐藏层维度为h。按查询头Q分组,每个组共享一个K和V。如下以GPT2结构第i层推理过程为例,分析KV Cahche计算过程,其中WQi,WKi,WVi,WOi,Wupi,WdowniW_Q。

2024-07-01 12:00:00 2813

原创 吴恩达AI系列:教你如何用Langchain封装一本书

​编辑吴恩达(英语:Andrew Ng,1976年4月18日—)是斯坦福大学计算机科学系和电气工程系的客座教授,曾任斯坦福人工智能实验室主任。2011年,吴恩达在谷歌创建了谷歌大脑项目2014年5月16日,吴恩达加入百度,负责“百度大脑2017年12月,吴恩达宣布成立人工智能公司Landing.ai,担任公司的首席执行官。

2024-06-27 10:17:28 2722

原创 大模型零基础入门到精通!大模型学习路线(超全面!超详细!)收藏这一篇就够了!

深度学习大模型已成为AI领域的重要发展方向,指参数规模达数亿至万亿级的深度神经网络,具有强大的泛化能力和多领域适应性。学习路线需掌握深度学习基础、编程技能(Python为主)、主流框架(如PyTorch/TensorFlow),并结合领域知识(NLP/CV等)进行实践。典型大模型包括BERT、GPT系列、ResNet等,其发展受益于数据丰富和算力提升,但面临计算资源消耗、训练效率等挑战。当前趋势呈现参数规模持续扩大、多模态融合(文/图/音视频互转)以及应用门槛降低等特点,正逐步向通用人工智能底层架构演进。

2025-06-15 16:35:54 524

原创 大模型从入门到精通,什么是大模型?(超详细)大模型从入门到精通,收藏这一篇就够了

大模型是指具有数千万到数千亿参数的深度学习模型,通过大规模数据训练实现通用化能力。与专注特定任务的小模型相比,大模型具有更强的泛化能力,能够处理复杂多模态任务。按输入数据类型可分为语言大模型(如GPT)、视觉大模型(如CLIP)和多模态大模型(如DALL·E);按应用层级分为L0通用大模型(基础认知)、L1行业大模型(专业领域)和L2垂直大模型(细分场景)。其中大语言模型(LLM)作为重要子类,通过海量文本训练实现文本理解与生成,支撑问答、对话等NLP任务。大模型采用"预训练+微调"模式,需要强大算力支持,

2025-06-15 16:33:40 301

原创 小白学大模型:从零实现 LLM语言模型

本文介绍了从零开始训练大型语言模型(LLM)的完整流程。主要内容包括:1)GPU设备选择指南,对比不同显卡对1300万参数和20亿参数模型训练的支持;2)模型架构详解,包括Transformer块、多头注意力机制和MLP的设计;3)代码实现步骤,涵盖数据处理、模型构建(PyTorch)、训练参数配置到文本生成的完整流程;4)学习资源分享,提供大模型开发的学习路线图、视频教程、技术文档和面试题等资料。文章通过具体代码示例(GitHub链接)展示了如何逐步实现一个功能完整的语言模型,适合AI开发者和产品经理学习

2025-06-15 16:31:28 502

原创 DeepSeek-R1大模型本地部署全攻略:三种方式,总有一种适合你!

由于 DeepSeek-R1 爆火,导致 DeepSeek 官网用起来非常卡(至 2025 年 2 月 2 日),因此催生出了很多本地部署的需求。而这里我选用了三种最常用的部署方式,从普通人测试使用到工业界部署,让你一次性掌握大模型的部署方式。

2025-06-15 16:29:53 286

原创 德勤:2025年生成式AI档案|附172页PDF文件下载

本报告是一份详实的应用案例汇编,精选并深入剖析了六个主要行业的60个高影响力生成式AI用例。这些行业包括消费品、能源资源与工业、金融服务、政府与公共服务、生命科学与健康护理,以及科技、媒体和电信。报告旨在为各组织揭示生成式AI的价值驱动部署方式,并为此构建了两个核心分析维度:一是生成式AI能够产出的六种关键模态(文本、代码、音频、图像、视频及3D/专业格式) ,二是其能捕获价值的六个维度(成本削减、流程效率、增长、创新、新发现与洞察、政府公民服务)。每个用例不仅阐述了其解决的商业问题、AI的助力方式及潜在收

2025-06-15 16:25:56 507

原创 CoT-RAG:用知识图谱和智能检索修复大语言模型推理的缺陷

CoT-RAG框架创新性地结合知识图谱和检索增强生成技术,显著提升大语言模型的复杂推理能力。该框架通过三大核心技术:1)知识图谱驱动思维链生成,构建结构化推理路径;2)案例感知RAG机制动态检索事实信息;3)伪程序提示确保严谨逻辑执行。实验显示其在算术、常识等九类推理任务中准确率提升4-23%,特别适合多步复杂推理。尽管仍需专家参与初始决策树构建,但为法律、医疗等高风险领域提供了更可靠、透明的AI推理方案。

2025-06-15 16:24:19 586

原创 2025年未来新十大万亿产业赛道研究报告

一、未来新十大万亿产业发展背景1. 未来新十大万亿产业赛道竞争面临的形势引领型国家通过全方位体制机制创新,打造先进制造、人工智能、量子科技、新代通信等全面领先优势。

2025-06-15 16:23:04 636

原创 程序员转行大模型全攻略:从入门到精通,你的学习路线图_转行大模型学习路线

随着AI大模型(如GPT、BERT)的兴起,程序员转行该领域成为趋势。本文提供完整攻略:1)明确方向(开发、应用、研究或工程);2)掌握Python、PyTorch、数学及机器学习基础;3)深入学习Transformer架构、预训练微调及优化技术;4)通过文本分类、机器翻译等项目实践;5)参与Hugging Face等开源社区;6)推荐Coursera课程、《深度学习》等书籍及arXiv论文。强调理论与实践结合,助力零基础转型大模型领域。

2025-06-14 17:08:24 666

原创 2025年大模型产品经理转型攻略:从普通到卓越,一份详尽的成长指南!建议收藏

本文探讨了AI产品经理如何转行做大模型的核心要点。首先分析了大模型的基本概念、优势及行业趋势,指出其作为AI领域重要发展方向的价值。从五个维度提出必备素质:技术理解力、数据分析能力、用户需求洞察、产品设计思维及团队协作能力,并提供了自评估框架。针对不同评估结果给出三种职业路径建议:直接转行、逐步转型或维持现状。最后推荐了系统学习大模型技术的资源路径,包括神经网络原理、Transformer架构及典型应用案例,为产品经理转型提供实践指导。全文为AI产品经理规划大模型职业发展提供了清晰的路线图。

2025-06-14 17:05:50 768

原创 2025年5月中文大模型基准测评:阶段性进展权威解读,39页深度报告免费下载!

报告揭示2025年大模型领域将出现47万岗位缺口,初级工程师平均月薪达28K。通过真实案例展示4个月系统学习可实现职业跃迁(如二本毕业生薪资翻3倍)。报告提出90天四阶段进阶路径:从提示词工程(10天)、RAG系统开发(30天)、模型训练(30天)到商业部署(20天),并附赠含58个案例的工具包。强调掌握AI工具者生产效率提升47%,薪资溢价34%,指出"AI取代的不是人类,而是不会用AI的人"。完整39页报告及学习资料可免费获取。

2025-06-14 17:01:56 616

原创 运营商智能算力中心网络技术发展深度研究报告 2025

随着数字经济蓬勃发展,人工智能、大数据、云计算等前沿技术广泛渗透,算力已成为数字时代的核心生产力。运营商凭借深厚的网络资源和基础设施优势,在智能算力中心网络建设中担当关键角色。本报告深度剖析 2025 年运营商智能算力中心网络技术发展状况,涵盖其核心理念、演进路径、技术创新以及未来趋势。报告指出,运营商算力网络以算为核心、网为基础,致力于达成算力泛在、算网共生、智能编排、一体服务的目标,历经泛在协同、融合统一和一体内生三阶段,逐步使算力成为社会级基础服务。在技术创新方面,广域吞吐敏感网络、算力路

2025-06-14 16:59:36 804

原创 Gemini开源项目DeepResearch:基于LangGraph的智能研究Agent技术原理与实现

Google开源项目GeminiDeepResearch通过LangGraph框架构建自主研究AI系统,一周获7.9k星。该系统采用状态图架构实现五阶段工作流:1)Gemini模型生成多样化搜索查询;2)并行网络搜索集成Google API;3)智能引用管理自动处理URL和引用;4)知识缺口分析进行信息充分性评估;5)多模型协作生成最终答案。关键技术亮点包括自适应研究循环控制、完整引用管理机制,以及根据不同任务灵活选用Gemini系列模型(2.0Flash/2.5Flash/2.5Pro)。该系统展示了AI

2025-06-14 16:57:37 864

原创 【实战教程】使用Gemini 2.5 Pro轻松编写七大产品文档,提升工作效率!

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

2025-06-14 10:00:00 454

原创 宜创AI引领创新:全球首款全栈开源通用AI Agent Lemon AI发布,轻松实现单机部署超级智能体!

LemonAI是一款全栈开源AI智能体框架,具有"多、快、好、省"四大核心优势:支持无限场景任务、5分钟极速部署、强大可定制功能及超低成本运行(单次任务仅0.1-0.3美元)。它解决了当前AI市场的六大痛点:区域限制、模型兼容、高成本、准确性优化、数据安全和扩展性。LemonAI采用VM沙箱环境确保安全执行,提供GUI可视化界面,支持经验库自学习,适用于金融、科研、编程等多个领域。其开源特性与闭源产品相比,在功能全面性、数据隐私和性价比方面具有显著优势。

2025-06-14 10:00:00 642

原创 探索通用AI智能体的核心:揭秘构建未来智能的关键模块!

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来

2025-06-13 10:50:04 428

原创 大模型开发平台Dify全解析:一篇文章,轻松掌握核心要点!

Dify是一个开源的大语言模型应用开发平台,简化生成式AI应用的创建部署。平台支持多种主流大模型,提供可视化编排、RAG、Agent等功能模块,显著降低AI开发门槛。开发者可构建四类应用:聊天助手、文本生成、智能体和工作流。重点介绍了知识库构建(文档上传、预处理、索引模式选择)和智能体开发流程(模型选择、提示编写、工具集成)。平台还提供大模型学习路径,涵盖提示工程、RAG系统、模型训练等关键技能,助力开发者把握AI技术风口。

2025-06-13 10:47:37 499

原创 【AI产品经理面试必看】100道精选题目,测试你的知识极限,值得收藏!

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

2025-06-13 10:42:21 933

原创 【图文详解】大模型应用场景实战指南:一篇文章,带你深入解析实操项目,手把手教会你,轻松掌握!

本文探讨了大模型技术在手机端的应用落地趋势。Chatbot正从基础对话功能向多模态AI Agent演进,OpenAI等厂商已通过GPT Store构建应用生态。手机将成为AI落地的重要载体,三星、谷歌、苹果等厂商相继推出支持大模型的AI手机,升级硬件(如NPU算力、存储)和软件(如智能助手、跨应用交互)。据IDC预测,全球AI手机2024年出货量将达1.7亿台,中国市场份额将快速增长,预计2027年渗透率超50%。AI手机通过智能化、个性化服务,有望引领新一轮换机潮。

2025-06-13 10:37:21 886

原创 大龄程序员转行大模型指南:探索最适合你的转型方向!

AI正在重塑各行各业,工作方式将从个人执行转向AI管理。未来职业将呈现"两头重"格局:初级岗位由"小白+AI"承担,高级岗位需专业人员领导AI团队。大模型开发成为高薪风口,2025年国内相关岗位缺口达47万,平均薪资28K。学习路径分为四阶段:1)提示词工程(10天);2)RAG系统开发(30天);3)模型训练(30天);4)商业部署(20天)。核心方向包括NLP、CV、算法优化和模型部署,需掌握Python、Transformer架构及云计算技术。掌握AI工具者可获得34%薪资溢价,建议程序员尽快转型至大

2025-06-13 10:34:13 793

原创 复旦大学与上海AI Lab联合创新:推出首个基于统一多模态思维链的奖励模型UNIFIEDREWARD - THINK!

近年来,多模态奖励模型(RMs)在使视觉模型输出与人类偏好保持一致方面表现出色,为指导模型训练和推理提供了关键的奖励信号。传统的奖励模型通常通过监督微调(SFT)在大规模人工标注的偏好数据上进行训练。在测试时,大多数方法直接为视觉模型输出分配分数或进行成对排名,依赖于从训练数据中获得的知识和直觉。虽然这些方法有效,但往往缺乏可解释性,这使得用户难以理解所分配分数或排名背后的潜在推理过程。

2025-06-13 10:31:24 430

原创 豆包大模型实战成果展示:从高考到应用,实现跨越式发展!

火山引擎发布豆包大模型1.6系列升级,在Force2025大会上展示多项AI创新成果。新模型支持256K上下文、多模态理解和GUI操作,高考数学成绩达144分,跻身国内第一梯队。同时发布视频生成模型Seedance1.0Pro,表现超越行业标杆。此外还推出语音、播客模型及AI云原生平台三大套件,构建"十项全能"的AI生态。实测显示,豆包1.6在编程、推理等任务中表现优异,视频模型能处理复杂叙事场景。火山引擎强调"AI云原生"理念。

2025-06-13 10:28:45 446

原创 图提示在图学习模型中的革命性应用:最新进展与未来趋势分析!

本文综述了图提示技术的最新进展,系统介绍了图预训练方法和提示调优策略。首先阐释了基于自监督学习的图预训练作为基础步骤,继而从图数据、节点表示和下游任务三个维度提出新的分类法,梳理了现有图提示技术。研究展示了该方法在生物信息学、交通网络等领域的应用优势,相比微调具有参数量少、灵活性高等特点。最后探讨了当前挑战和未来方向,包括提示设计优化、跨领域迁移等关键问题。文章为图学习领域提供了从理论到应用的技术路线参考。

2025-06-12 14:40:02 471

原创 2025年RAG技术前瞻:检索增强生成领域的完全指南!

摘要:检索增强生成(RAG)技术正成为企业AI落地的核心解决方案,其通过检索系统与生成模型的协同工作,有效解决了传统语言模型的"幻觉"问题。文章详细解析了基础RAG架构及2025年七大前沿技术趋势,包括带纠错机制的CRAG、知识图谱赋能的GraphRAG和多模态融合的MultiModalRAG等,并提供了医疗、金融等行业的成功案例。针对企业实施,文章提出了分阶段的落地路线图和技术选型策略,强调RAG将重塑AI可信认知能力,成为各行业智能化转型的关键引擎。文末还提供了完整的大模型学习资源包获取方式。(149字

2025-06-12 14:37:50 714

原创 2025年AI大模型自学指南:最新学习路线,从0到1,手把手教会你,收藏我这一篇就够了!

通过以上七个阶段的学习,您将能够建立起对大规模预训练模型的深刻理解,并掌握其在实际应用中的技巧。记得在学习过程中保持好奇心和探索精神,积极尝试新技术并参与社区讨论。希望这份学习路线图能帮助您成功踏上大规模模型的学习之旅!

2025-06-12 14:33:56 1096

原创 2025年传统程序员AI大模型转型指南:超详细学习路线,助你成功转行!

传统程序员转行到AI大模型领域是一个既充满挑战又蕴含机遇的过程。以下是一份详细的指南,旨在帮助程序员顺利过渡到这个新兴且快速发展的行业。

2025-06-12 14:32:44 563

原创 AI产品经理揭秘:产品开发流程全解析!

本文以智能文档审阅系统(IDP)和工业互联网数字孪生—故障预测为例,介绍AI产品经理在产品开发全流程过程中,每一阶段的工作内容、工作流程及注意事项,并结合具体案例方便对AI产品经理感兴趣的同学予以了解。文中尽量避免使用特征向量、归一化、RNN等专业词汇,可放心阅读。

2025-06-12 14:31:28 705

原创 AI产品经理转型必读:8本精选书籍,助你顺利开启AI产品管理之路!

【AI产品经理自学指南】8本必读书籍助你低成本入门AI领域:《人工智能产品经理手册》构建知识体系,《精进ChatGPT》提供实战方法,《大模型推荐系统》详解算法应用,《AIAgent解析》覆盖技术商业维度,《大势》洞察行业未来,《多模态大模型》梳理技术范式,《提示词技巧》提升AI交互效率,《人工智能:现代方法》作为经典教材。配套7阶段学习路径覆盖模型设计、提示工程、平台开发等全栈技能,完成学习可掌握大模型垂直训练及商业化落地能力。

2025-06-12 14:28:58 746

原创 人工智能时代职业教育的发展与坚守:深入洞察技术变革,不忘教育初心|附40页PDF文件分享

《AI大模型学习路径全解析》摘要:本文系统介绍了AI大模型学习体系,涵盖7个阶段:从系统设计、提示词工程到多模态应用开发,最终实现行业解决方案落地。课程提供全栈工程实践能力,包括数据处理、模型微调(Fine-tuning)及LangChain框架应用等核心技能。配套资源包含学习路线图、100套商业方案、视频教程及技术书籍等,适用于开发者、产品经理等不同角色。重点培养处理海量数据、构建垂直领域模型的能力,提升编程与AI应用开发水平。所有资料可通过指定方式免费获取。

2025-06-12 14:26:52 250

原创 DeepSeek医院AI病历生成技术揭秘:成本高达200万,究竟值不值?

DeepSeek模型在医疗领域的本地化部署正推动诊间语音转病历的技术革新。该方案通过开源LLM实现医患对话的实时结构化处理,具备语音识别、自然语言理解和文本生成三大核心能力,可精准捕捉主诉、病史等关键医疗信息。本地部署确保了数据隐私与低延迟,但面临1%错误率带来的医疗风险、复杂语境理解和"模型幻觉"等挑战。目前北京多家医院已开展试点,未来随着硬件成本下降和技术成熟,10万元级解决方案有望实现普惠。该技术仍需严格审核机制,现阶段定位为"医疗文书助理",其规模化应用将深刻影响医疗效率与安全性。

2025-06-11 16:37:05 945

原创 架构之战:单Agent+MCP vs 多Agent——深入解析概念、优劣势与架构选择

文章探讨了AI开发中的两种主流架构选择:单智能体加模型上下文协议(MCP)与多智能体系统(MAS)。单智能体+MCP架构通过标准化接口简化工具集成,具有快速原型开发、集中式管理等优势,适合工具集成需求明确的中低复杂度场景。而多智能体系统采用专业化分工设计,在任务分解、并行处理、鲁棒性等方面表现突出,更适合高复杂度、高可靠性要求的应用。作者从开发复杂度、可扩展性、推理能力等维度对比了两种方案,并建议开发者根据项目具体需求选择合适架构,或采用混合方案。文章还指出AI智能体生态正朝着协议分层、标准化的方向演进。

2025-06-11 16:33:51 949

原创 【保姆级教程】AI产品经理成长蓝图:从零基础到专家的详尽学习路线,非常详细,收藏我这一篇就够了!

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

2025-06-11 11:04:16 563

原创 【AI产品经理精选型书籍】八本书籍,助你轻松踏入AI产品管理的大门!

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

2025-06-11 10:59:19 461

原创 复旦NLP团队2025力作:《大规模语言模型:从理论到实践(第2版)》——NLP领域的革命性突破!

各位读者朋友们,相信你一定还记得,在各大平台AI大模型图书推荐榜单中,《大规模语言模型:从理论到实践》一书始终位居排行榜前列,在2023年末那个时间点,这本书是少有的把大模型相关技术系统汇总整理,既有理论又有实践的。

2025-06-11 10:55:25 601

原创 未来趋势揭秘:通用 Agent 的进化之路——为何 Agentic Browser 成为下一个里程碑?

2025 年的 AI 科技圈,喧嚣依旧,但一个新的风暴眼正悄然形成。当多数人对 Agent 分类还停留在通用和垂类这种按领域适用性划分方式时,一个以技术载体为出发点的新兴 Agent 物种正在悄然形成行业共识——Agentic Browser(智能体浏览器)。

2025-06-11 10:52:53 718

原创 数学高考惊现黑马!国产大模型角逐,冠军竟是他们俩!

每年高考,是6月越不过的话题。而今年高考,大家普遍反馈数学特别难。那正好,我们可以让大模型来答下卷。毕竟每回新模型发布,都说自己在AIME-2025、AIME-2024、MATH-500等各种数学测试基准上遥遥领先,都说自己达到SOTA级别。So,我们今天就给10来家国产大模型准备了全国卷一的数学题,看看他们参加高考能拿多少分。

2025-06-11 10:48:39 617

原创 字节Seed革命性创新:模型合并技术,引领大模型预训练新纪元

Seed 团队在这篇论文提出的预训练模型平均(PMA)技术,通过合并训练过程中的检查点(Checkpoint),不仅实现了模型性能的显著提升,还能精准预测学习率衰减阶段的性能表现。这一成果被视为大模型训练领域的重要突破,甚至可能改变未来大模型开发的范式。

2025-06-10 15:48:13 568

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除