- 博客(99)
- 收藏
- 关注
原创 如何从零设计大模型基础设施
本文主要阐明如何去设计一个大模型的 IT 基础设施。包括前期评估、整体设计流程、总体集成和测试,重点阐述了整体设计流程的步骤和关键点。首先,在开始设计之前,你必须明确自己搭建私有化大模型的目的所在,并对可投入的时间和成本有明确估算,确保在可行性评估上没有明显不通过项。有些基本常识在设计前,需要再次重申,如下:1.建设大模型需要三个生产要素, IT 基础设施,算法模型和数据,同时需要相应技术人员。
2024-08-19 16:13:48
1146
1
原创 一文彻底搞懂大模型 - LLM四阶段技术
Fine-Tuning是指使用特定领域的数据集对预训练的大型语言模型进行进一步训练的过程。通过微调,模型可以学习到特定领域的知识和模式,从而在相关任务上表现更好。在预训练模型的基础上,针对特定任务或数据领域,通过在新任务的小规模标注数据集上进一步训练和调整模型的部分或全部参数,使模型能够更好地适应新任务,提高在新任务上的性能。目标是捕获文本语料库中存在的底层模式、结构和语义知识。预训练利用大量无标签或弱标签的数据。
2024-08-19 11:41:22
882
原创 零成本快速入门大模型指南
今年招聘市场确实是好点了,我发现群友都在讨论,得赶快学点 AI 大模型。他们有的是想正式转到一些新兴的 AI 行业,需要系统的学习训练。更多的是想跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。这也可以理解,ChatGPT 推出仅一年半的时间,就将生成式 AI 推向主流。从谷歌到亚马逊,从百度到阿里,几乎所有科技巨头都在布局 AI,也直接影响到了招聘市场,大模型相关的岗位数量多了不少,年薪甚至达到 80W-90W。
2024-08-16 20:45:00
893
原创 北京,大模型第一城
当月公布首批39家成员名单,7月公布了第二批63家企业,包括阿里云、北京超级云计算中心等算力伙伴,北京市大数据中心、北京市科学技术研究院、北京智源人工智能研究院等数据伙伴,百度、智谱AI、阿里达摩院、昆仑万维等模型伙伴,北京市政务服务管理局、北京银行、金山办公等应用伙伴,IDG资本、鼎晖创新、奇绩创坛等投资伙伴。**2024年4月,北京市再放政策大招。**阿里、腾讯、百度、字节、华为、三六零、京东、小米、网易等科技大厂都公布了最新大模研发及应用进展,大模型电商、大模型上车、AI手机发新等成热门趋势。
2024-08-16 14:29:01
1330
原创 大模型学习方法之——大模型技术学习路线
经验总结:定期回顾学习过程,总结技术要点和实战经验跨学科融合:探索大模型在其它领域(如金融,法律,医疗等)等应用,扩展知识广度如果用一句话总结就是,学习——实践——再学习——再实践。
2024-08-15 19:00:00
2693
1
原创 青颖飞帆(青书)大模型算法工程师面试题6道|含解析
MoE (Mixture of Experts) 模型是一种多专家模型,通过引入多个专家(子模型),每个专家擅长处理特定类型的数据。Gating 机制:在模型中,使用 gating 机制(例如 softmax 函数)选择哪些专家参与推理或训练,从而提高模型效率。稀疏激活:模型中的每个样本只激活一部分专家,这使得 MoE 模型在处理大规模数据时非常高效。优势:计算效率高:由于仅激活部分专家,MoE 模型可以在保证模型容量的情况下减少计算开销。
2024-08-15 17:30:00
357
原创 最关键的一个问题,大模型却无能为力
*它没法清理太平洋上的垃圾带,没法减少每年排放的 4.5 亿吨大部分没回收的塑料,没法逆转气候变化,没法清除近地轨道上飞行的成千上万的太空垃圾,也没法把那种以浪费为增长的垃圾场经济转变成可持续的全球系统,更没法消除所有我所说的阻碍进步的因素。AI 降低了产品和服务的质量,因为它只能模仿,不能提供真正的答案、解决方案和深刻的见解。如果我们去掉那些夸张的成分,最后我们看到的可能是一种新的封建结构:有钱的人享受着人类的服务,而我们其他人就得依赖那些质量低劣、容易出错、而且很难得到补偿的 AI 服务。
2024-08-15 12:30:00
595
原创 大模型来自面试的体会和分享
然后做的比较好的有,各种非助手的形态,互联网C端的比如评论区机器人,视频总结摘要,文章总结,搜索总结,从用户量维度看,算是相对成功,也能在很多APP上看到全量开放。基座赛道的分工更细,有强烈的工业化大兵团作战的特点,招聘的画像也非常细分,代码,推理,数学等,恨不得一个能力标签一个负责人,再搭建各自的数据,训练,对齐团队。当然,基座赛道也不都是高枕无忧,常见的问题就是过于螺丝钉了,甚至有些厂,让每个人都负责一小块工作,信息单向流动,有完整认知和可泛化经验的不多,国内的差距逐渐缩小,与国外的差距依然存在。
2024-08-15 08:00:00
931
原创 终于有人将Transformer原理可视化了!
他们将工具进行结构化设计,以不同的抽象层次呈现信息。在最高层,工具展示了完整的处理流程:从接收用户提供的文本作为输入(图 1A),将其嵌入,经过多个 Transformer 块处理,再到使用处理后的数据来对最有可能的下一个 token 预测进行排序。在内容上,Transformer Explainer 紧密集成了对 Transformer 结构进行总结的模型概述,并允许用户在多个抽象层级之间平滑过渡,以可视化低级数学运算和高级模型结构之间的相互作用,帮助他们全面理解 Transformer 中的复杂概念。
2024-08-14 17:00:00
1519
原创 秒杀GPT-4、Devin,全球最强AI程序员来啦!
今天,Cosine发布了同类产品Genie,但在权威测试平台SWE-Bench上的评分达到惊人的30.08%,断崖式领先Devin的13.8%和Swe-agent+GPT-4的12.47%,成为目前全球最强的AI程序员。**随着每一次循环迭代,Genie解决复杂编码的能力越来越强,即使在需要调整的情况下所需的指导也显著减少。这种自我改进机制不仅提高了Genie在面对新问题时的适应性和准确性,还增强了它处理复杂、高度情境化编码问题的能力,使其够在从未见过的问题上展现出类似人类工程师的判断力和创造力。
2024-08-14 12:00:00
404
原创 大语言模型有什么用途?
许多机构希望使用根据自己的使用场景和品牌习惯而定制的大语言模型。这些模型基于特定领域的数据进行定制,让企业有机会改善内部运营并提供全新客户体验。定制模型比通用大语言模型更小、更高效、更快。对于涉及大量专有数据的应用,定制模型提供了最佳解决方案。定制大语言模型的一个例子是 BloombergGPT,它由 Bloomberg 自主开发,拥有 500 亿个参数,专门针对金融应用。
2024-08-14 08:00:00
886
原创 为什么要学习AI大模型?
企业对于AI大模型的需求正以前所未有的速度增长,而这背后的原因不仅仅是为了追赶潮流,更是因为AI大模型能为企业带来切实的商业价值。:通过AI大模型,企业可以大幅提升员工的综合能力和产值,减少人工重复劳动,从而有效降低运营成本。:AI大模型为企业提供了重新设计和改良产品的机会,提升用户体验,使产品更具竞争力。:行业大模型能够在相对较小的参数量下,通过低成本的再训练或精调,获得卓越的性能效果。这意味着企业可以以更少的投入,获得更高的回报。
2024-08-13 17:30:00
981
原创 大模型的当前和未来
自2022年年底ChatGPT打响大模型热潮第一枪,至今已有一年半多的时间,大模型持续受到业界高度关注。大模型当前发展情况如何,未来又将如何演进发展?大模型入门1.什么是大模型、超大模型和Foundation Model?大模型**通常指具有大规模参数、能捕捉和学习更复杂数据模式的模型,在各种任务上表现更为出色,如自然语言理解、图像识别等。超大模型是大模型的一个子集,参数通常达数千亿甚至数万亿。随着模型规模(如参数数量、数据量、计算量)增大,其性能通常会随之提高,能处理更广泛任务,在特定任务上达更高精度,
2024-08-13 13:15:00
936
原创 企业大模型落地从0到0.1
需要注意的是,我们并不是重新训练一个GPT,而是基于一个强大的模型去训练我们企业自己的模型,这就类似让一个“大学生”去一个企业实习一样,这里的“大学生”就相当于阿里百度等大的互联网公司已经训练好的大模型,我们只是把他再训练出某个领域能力。大模型自从GPT-3.5版本推出后,越来越多的人都对大模型有了或多或少的了解。我提出一个衡量的指标叫含AI量,就是你有多少员工熟悉AI、你的产品、你的业务流程有多少细节能够为AI加持,可能刚开始的含量不是很大,但是随着你去不断考核这个指标,你的业务就慢慢被AI所改造。
2024-08-13 08:00:00
812
原创 告别盲目学习!AI大模型助你制定科学学习计划
总的来说,AI大模型制定学习计划是一个全新的学习方式,它能够帮助我们解决制定学习计划的难题,让我们更加高效、有针对性地进行学习。虽然它也有一些挑战和限制,但是只要我们能够合理地利用它,并不断地进行学习和优化,就一定能够让它成为我们学习路上的得力助手。所以,你还在等什么呢?赶快拥抱AI大模型制定学习计划的新时代吧!让你的学习更加高效、有针对性,成为行业的佼佼者!
2024-08-12 18:01:46
1936
原创 清华大学综述:基于 Transformer 的大语言模型
近年来,研究人员发现,扩大语言模型的规模不仅增强了它们的语言建模能力,而且还产生了处理传统NLP任务之外更复杂任务的新兴能力。可以看到,自注意力机制允许模型识别不同输入部分的重要性,无论距离如何,并且可以捕捉输入句子中的长距离依赖和复杂关系。特别地,在第一个块之前,使用分词器将原始输入句子转换为一系列标记,随后的嵌入层用于将标记转换为输入特征。对于每个块,它接收前一个块的输出特征作为输入,并通过每个子模块传递特征以获得输出。然后,将额外的位置嵌入添加到输入特征中,以编码每个输入标记的顺序。
2024-08-12 12:15:00
472
原创 多模态和多模态大模型 (LMM)
想象一个机器,它的工作就是从一堆预先设定的选项中,选择一个最合适的类别。但这种方法只在选项有限的情况下才行得通。之前的很多模型都受到这样的限制。比如,的模型只能在 1,000 个类别中选择,而JFT-300M的选择则为 18,291 个类别。这种方法的缺陷是,模型可能会受到类别的限制而无法给出丰富的回答,还限制了其零样本学习的能力。比方说,如果训练它只认识 10 种类别,那么当出现 100 种类别时,它就不知所措了。CLIP 已经发布 3 年了,而 Flamingo 也有将近 2 年。
2024-08-12 08:15:00
1771
1
原创 大语言模型LLM的核心技术及应用场景案例的分析
通过LLM,我们能够处理更复杂的任务,提高效率,降低成本,并创造出全新的商业模式和服务。但是,同时伴随LLM的普及和发展,对数据隐私和伦理的考量也越发重要。LLM技术的应用场景不断扩展,涉及到的大量用户数据可能被用于训练和优化模型,在收集、存储和使用过程中的隐私数据就有泄露和滥用的可能性;这些模型能够生成高度逼真的文本,从简单的新闻摘要到复杂的创意写作,它们的能力几乎无所不能。在自注意力机制和位置编码中,激活函数可以调整模型的输出,使得模型能够更敏感地捕捉输入序列中的变化和重要特征。
2024-08-11 09:45:00
1375
原创 AI大模型时代,产品经理需要了解什么?
prompt是发送给大模型的指令,看似门槛低,但实际上要做好也是需要一些技巧和经验的。有的人调试出来的prompt好用,而有人总是出不了稳定的效果。这就好比人类之间的沟通一样,有人的善于沟通,把事情讲的清清楚楚,滴水不漏,对方很容易理解,而有的人总是词不达意,甚至造成误会(幻觉)。我个人认为,prompt能力是可以反映产品经理的综合素养的。当然了,在未来,prompt会是AI大模型时代所有人的通用能力。:模型从尺寸上讲,有大模型和小模型;从开放性上讲,有开源模型和闭源模型。
2024-08-10 17:30:00
1495
原创 博古通今、文理双全,还得会玩梗?玩转多模态背后,这届大模型不容易!
同时,逻辑推理能力也要到位,比如,让元宝描述一下图片中的内容,并分析图片之间的关联,其不仅基于体育知识储备,详细描述出了运动员跳水动作的姿态,还分析出“三张图片展示了跳水动作的连贯过程,从起跳、空中姿态到入水,体现了运动员的技术和力量”的相关性。生活端,除了挑西瓜外,大模型的多模态能力还有望在电商等场景加速落地,给出用户服装搭配建议,即用户拍摄自己的照片或上传衣物图片,大模型根据用户的体型、肤色、风格等信息,结合衣物图片的特征,生成搭配建议的文本描述,帮助用户打造个性化的穿搭。在哪些方面取得了重要突破?
2024-08-10 11:00:00
1372
原创 大模型技术赋能传媒行业的“传播大脑”实践
同时,随着大模型的不断优化,生成的内容将更加符合读者的口味和需求,提升用户体验。基于大模型技术的审校还能够自动检测和纠正内容中的错误和不当之处,与传统审校方式不同,大模型审校可以对内容进行深度理解,并且可以审校出一些专业性、知识性的错误,进一步提高内容的质量和准确性。“传播大模型”是“传播大脑”研发打造的首个针对媒体行业的垂直大模型,已通过生成式人工智能(大语言模型)上线备案,并在以上三类场景中围绕媒体行业面临的痛点进行破局,为“人工智能+媒体”的深度融合与发展提供了强有力的技术支撑。
2024-08-10 08:15:00
1015
原创 阿里面试官:大模型上线前为什么要做推理优化?985学妹的满分回答!
你知不知道产品级大模型系统里为什么要用推理优化这个东西?不少候选人,说自己项目里用了推理优化技术,但是其实他并不知道自己为什么要用这个东西。说白了就是为了用而用,或者看别人用他也用,从头到尾都没思考过。没有对自己的设计问过为什么的人,一定是平时没有思考的人,面试官对这类候选人印象通常很不好。因为面试官担心你进了团队之后只会木头木脑的干呆活儿,没有自己的思考。,你既然用了推理优化这个东西,你知不知道用了有什么好处,同时又有什么坏处?你当时做没做过调研,为什么要用它?
2024-08-09 18:15:00
776
原创 大模型39 种提示工程在 29 种 NLP 任务精度对比
在这种方法中,基本提示指令通过添加医学术语定义得以增强,基于这样一种假设,即添加这些定义将帮助LLM在回答查询时获得更多上下文。但结果显示,这些术语定义并没有真正起作用,可能是因为它们的知识范围狭窄,可能与LLM的更大知识库相冲突。
2024-08-09 12:00:00
709
原创 面完 AIGC 大模型算法岗,心态崩了。。。
大家好,今天我们继续聊聊 AI 科技圈发生的那些事。内容包括:AI 科技圈最新动态和最新面试题总结。
2024-08-09 08:00:00
1743
原创 直面程序员的AI焦虑:学习大语言模型开发是关键
在上面的实践中,我们成功让一个只能解决通用问题的社区 AI 工具学习到了私域知识。在定制通用工具的过程中,我们不止可以产出更趁手的 AI 工具,同时还能加深对 AI 领域知识的了解。此外,在上文提到的 Dify 知识库创建中,平台会先使用文本分割技术将我们传入的技术文档分割成一个个碎片,在每次请求 OpenAI 时,会使用嵌入技术动态选择最关联的碎片,因此 OpenAI API 无法一次性获取完整地私域文档知识,进而在一定程度上保障了企业信息安全。
2024-08-08 19:15:00
1184
原创 放弃LangChain吧,生产环境根本不靠谱
当我们的团队花费越来越多的时间来理解 LangChain,而不是开发新功能时,这显然是不可取的。在这篇文章中,作者分享了他们在采用 LangChain 过程中遇到的挑战,以及如何通过采用模块化的构建块来替代其僵化的高级抽象,从而简化了代码库,提升了团队的工作效率。如果你在没有框架的情况下开始 AI 开发,你可能需要花更多的时间来整合自己的工具箱,并且需要更多的前期学习和研究。其余的则是围绕这些组件的辅助工具(例如,向量数据库的分块和嵌入),或者是常规应用程序任务,如数据持久化和缓存管理。
2024-08-08 12:00:00
1468
原创 AI Agent的基础设施还不健全
现在,Agent 托管(E2b.dev、Ollama、Langserve)、持久性(Inngest、Hatchet.run、Trigger.dev、Temporal.io)和编排(DSPy、AutoGen、CrewAI、Sema4.ai、LangGraph)的原语集合各不相同。但还有一类具有互补、有明确观点的功能的新公司,包括 WhyHow、Cognee 和 LangChain 的一个名为 LangMem 的功能,以及一个流行的开源项目 MemGPT。现在,Agent 这个词对于不同的人来说有不同的含义。
2024-08-08 08:45:00
679
原创 年薪 80W,懂AI大模型系统设计真香!
AI 大模型”无疑是最火热的话题。百度领跑推出“文心一言”,除了大厂,越来越多的中厂也在大模型的垂直应用领域“投石问路”。人工智能产业如火如荼发展的另一面,人才也是大模型竞争中不可或缺的一环。其中机器学习和算法工程师,两个职位的招聘年薪,优秀的 AIGC 算法工程师岗位。大佬拥有可迁移的技术能力,无论在哪个时代,都是抗打的;而普通人的生活和命运,却有可能被 AI 狂潮冲击得七零八落。作为普通工程师,如何做才能不被新技术抛弃,并享受到呢?
2024-08-07 18:15:00
672
原创 大模型时代,你准备好了吗?
文生视频大模型并非OpenAI独创,Runway、Pika、Stable Video Diffusion等大量AI创业公司在这条赛道上百家争鸣,但Sora发布后造成如此大轰动与热议的原因,在于它突破性的进展,满足了AI领域新一代生产力工具愿景,从“生成视频的长度”、“镜头切换与画面流畅度”、“使用的基础模型架构”三个方面均远超现有同类产品水平。随着计算资源的优化、算法的迭代升级以及训练数据集的日益丰富,大模型正在逐步打破现实与虚拟世界的界限,为人类社会带来前所未有的便捷与效率提升,也会有很多行业被取代。
2024-08-07 12:15:00
781
原创 大模型Infra这些年:黑铁时代,黄金时代,白银时代
越来越多人开始关注大模型,很多做工程开发的同学问我怎么入门大模型训练推理系统软件(俗称大模型Infra)作为一名曾经后台开发岗位同学,大家的心情我感同身受。近年来国内互联网业务整体低迷,而大模型却在逆势崛起,每天新闻可谓繁花似锦,烈火烹油,和其他子领域形成了鲜明对比。环球同此凉热,2023年硅谷裁了几十万软件工程师,但美国各大厂都在疯狂买GPU高价招人做大模型,这半年的美股靠这波AI的预期再创新高。冷热对比,高下立判,作为计算机从业者肯定都不想错失上车的机会。
2024-08-07 08:00:00
2156
原创 从零开始学习大模型-第一章-大模型简介
大模型就像一座庞大的图书馆,里面有非常多的书籍。但与普通图书馆不同的是,这座图书馆中的每本书都是关于不同事物的描述和知识。而这些书籍中的每一页都代表了这个事物的一些特征或细节。现在,想象一下,你是一个研究员,你想了解各种各样的话题,比如天气、历史、科学等等。但是你没有时间和精力去阅读所有的书籍,而且有些书籍可能非常专业和深奥,你也未必能理解。这时,一位聪明的朋友建议你去一座巨大的图书馆,这个图书馆里面的每本书都已经被一个智能的读者阅读过,并且将书中的重要内容总结成了简单易懂的概要。
2024-08-06 20:30:00
1782
原创 国产开源大模型都有哪些?
AGI Eval:微软发布的大模型基础能力评测基准,在2023年4月推出,主要评测大模型在人类认知和解决问题的一般能力,涵盖全球20种面向普通人类考生的官方、公共和高标准录取和资格考试,包含中英文数据。随着ChatGPT引领的大模型热潮,国内的公司开始相继投入研发自己的人工智能大模型,截止到2023年10月,国产公司的大模型有近百个,包括一些通用大模型,比如百度的文心一言,也有特定领域的专用大模型,比如蚂蚁金服的CodeFuse,京东的言犀等。当然,国产的商业产品也很多,但因为缺少模型细节,实在不好细究。
2024-08-06 12:45:00
5352
1
原创 大模型开“卷”行业应用
这两款模型已经在魔搭社区上线,开源、免费、可商用。场景需求碎片化、研发和应用计算成本高以及长尾场景数据较少等问题依然存在,从实验室场景中训练出的模型算法在真实场景中的表现也还需要进一步观察,但可以肯定的是,尽管前路漫漫,更多的期待仍然值得拥有,更多的惊喜仍就值得等待。在煤矿领域,盘古矿山大模型已经在全国8个矿井规模使用,一个大模型可以覆盖煤矿的采、掘、机、运、通、洗选等业务流程下的1000多个细分场景,让更多的煤矿工人能够在地面上作业,不仅能让煤矿工人的工作环境更加舒适,而且可以极大地减少安全事故。
2024-08-06 09:15:00
1665
1
原创 对大模型原理解读最通透的一篇文章
生成式 AI 太火爆了,可以说无处不在,频频刷爆我们的朋友圈。你可能已经试用过 ChatGPT 了,甚至已经把它当作你的智能小助手。但我知道很多人心里会有个疑问:这些 AI 模型的智能究竟是怎么来的?今天咱们就来聊聊这个话题。我会用大家都能懂的,而不是那些让人头大的高等数学术语来解释生成式文本模型的工作原理,揭开它的神秘面纱,把它变成简单的计算机算法。
2024-08-05 16:57:45
982
原创 大模型面试八股
人人讨厌八股文,人人都问八股文。八股文主要考察原理理解,被痛恨的原因就是实际工作用不上,其实不满足于当一个碉堡侠的时候,八股也就不是八股了,更多的是原理的谙熟于心。很多也算不上八股,更多是经验的交流吧。大模型训练太难了!现在大模型面试的问题还处在一个蓝海阶段,很多面试官自己也问不出太有深度的问题,整理以下仅供参考
2024-08-05 14:12:57
1175
原创 要想赚钱,AI模型该大该小?贾扬清:论AI模型经济学的技巧
此前也有人提出质疑,对大型模型服务商的运营成本和营运收益做了简单的计算,每天8张H100显卡运营节点的成本约为1000美元,每天可以提供2600万token的服务,但按Llama 405B每一百万token 3美元的价格,怎么算都是亏本的,无法盈利的大型模型不会被市场抛弃吗?同时他还指出,每秒大约30个token指的是输出token,大模型对于输入token的处理速度更快,这也增加了处理的总token数,大模型通常对输入和输出分别计费,也正是这个道理。在此之后,模型发展的重点转移到了维持平衡。
2024-08-05 10:08:15
941
原创 开源大模型项目,助你效率提高 10 倍
Flowise 是一款开源 UI 可视化工具,用于构建定制的 LLM 编排流程和 AI 代理。ORurl,)}
2024-08-04 13:15:00
402
原创 大模型应用开发实战基础
下面用程序演示「生成下一个字」。可以自己修改 prompt 试试。还可以使用相同的 prompt 运行多次。`prompt = "今天天气很" # 改明天试试``)`大模型通俗的讲就是根据上文,猜下一个词(的概率):大模型可是个爱学习的小家伙,它把人类说过的话都记在了心里。这就是我们说的「机器学习」,而它学习的过程,我们叫它「训练」。它还特别擅长记概率,把一串接一串的token可能跟着的token都记录下来了。这些记录,就是我们说的「参数」,也可以叫做「权重」。
2024-08-03 13:00:00
1007
原创 2024下半年,前端的技术风口来了
你近期有体验过哪些大模型产品呢?你有使用大模型API做过一些实际开发吗?在你日常开发中,可以与大模型相关应用结合来完成工作吗?**最近,一直在和同事聊,关于前端可以用大模型干点啥!**从去年底开始,大模型的发展趋势就非常迅猛,这也代表着人工智能进入了一个新的时代。以上几个话题,在程序员话题圈中长期位列榜首,大家都跃跃欲试,期望在这次AI风口上抢占先机。认知和规划是重中之重
2024-08-02 17:40:10
6559
5
原创 大模型面试,最全八股和答案
层归一化 Layer Norm 在 大语言模型 LLMs 中的不同位置 有什么区别么?如果有,能介绍一下区别么?在大语言模型(Large Language Models)中,Layer Norm(层归一化)可以应用在不同位置,包括输入层、输出层和中间隐藏层。这些位置的归一化有一些区别:输入层归一化:在输入层应用 Layer Norm 可以将输入的特征进行归一化,使得输入数据的分布更加稳定。这有助于减少不同样本之间的分布差异,提高模型的泛化能力。
2024-08-02 14:13:07
1709
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人