- 博客(94)
- 资源 (108)
- 收藏
- 关注
原创 面向未来AI算力中心的电能消耗及优化策略
结合发电量和负荷预测,运行最优化算法,制定柔性需求侧响应方案,发电厂可以根据市场需求和预测数据提交发电计划和报价,电网则根据市场价格进行优化调度,进行有针对性的负荷削峰填谷,实现电网供需的动态平衡。基于电力市场的现货和远期合约价格波动,对未来时段的发电量、用电需求、电费支出等进行集成优化,制定出最佳的电力购售策略,降低企业整体的用电成本,例如,在电力需求高峰时段,现货市场的电价较高,激励发电厂增加发电量。通过源网荷储一体化的解决方案,可以有效应对新能源发电带来的不稳定性,优化电力资源配置,降低能耗成本。
2024-05-26 00:21:15
1047
原创 深度求索推出DeepSeek-V2:经济高效的多专家语言模型
AI苏妲己深度求索发布了DeepSeek-V2混合专家(MoE)语言模型,每百万tokens,2元人民币价格,简直便宜到令人发指(而且不是活动价格噢),可以说是继Groq以后,AI领域最惊艳的新闻了。那让我们来探究一下深度求索都做了哪些技术上的创新。一、DeepSeek-V2基本情况DeepSeek-V2依然是Transformer架构,包含2360亿个总参数,其中210亿个参数处于激活状态,支持128K的上下文长度。与其上一代模型DeepSeek 67B相比,DeepSeek-V2
2024-05-13 11:12:33
3297
1
原创 关于对Kolmogorov-Arnold Networks (KANs)论文的一些理解
在生物神经元中,神经元之间的连接不仅仅是简单的"导线",而是涉及复杂的化学过程,如神经递质的释放和吸收、离子通道的开关等。但是,这种额外的复杂性带来了更强大的表示能力,使得KANs在某些任务上可以超越传统的神经网络。这意味着网络中的非线性不再是由神经元上的固定激活函数提供的,而是由权重上的可学习函数提供的。KANs的特点是其激活函数是可学习的,并且位于网络的边(权重)上,而不是节点(神经元)上。他们发现,自动优化的KANs通常比人工设计的更小、更高效,这意味着KANs能够以更简洁的方式表示复杂的信息。
2024-05-10 09:59:17
2374
原创 Llama 3 模型上下文长度扩展至1048K
为了适应更长的上下文使用场景,Gradient AI 采用了渐进式训练方法, 使模型逐步适应更长的文本序列。这种训练策略不仅提高了模型的稳定性和效率,还允许模型在一个任务中考虑更多的信息,从而提高了理解和生成文本的精确度和相关性。在技术实现上,Gradient AI 采用了多项创新技术,包括 RingAttention 库和 EasyContext Blockwise 技术,这些技术优化了注意力机制的计算,使得模型能够高效地处理长序列。
2024-05-07 17:39:22
1703
原创 C#里如何设置输出路径,不要net7.0-windows
Visual Studio 及其基础生成引擎 (MSBuild) 就能知道你将多个项目输出放在同一文件夹中,因此 MSBuild 会省略项目依赖于其他项目时通常发生的复制步骤。在每个项目中,根据其类型选择“编译”或“生成”,并将“输出路径”或“基本输出路径”设置为要用于解决方案中所有项目的文件夹。在顶部的配置下拉列表中,选择你想要更改其输出文件位置的配置(“调试”、“发布”或“所有配置”)。键入要生成输出的路径(绝对或相对于根项目目录),或选择“浏览”,浏览到该文件夹。单击解决方案中的项目。
2024-05-07 13:48:14
1845
原创 苹果发布专为终端设备而设计的小模型OpenELM
性能方面,OpenELM 通过采用一系列先进的模型架构技术,在保持较小模型尺寸的同时,实现了出色的零样本任务和排行榜测试性能,展现了其作为高效大规模语言模型的潜力。特别需要提出的是,苹果公司不仅开源了OpenELM的模型权重和代码,还提供了完整的训练和评估框架,包括训练日志、多个检查点和预训练配置。它表明,通过巧妙的架构设计和技术创新,可以在保持模型性能的同时,大幅降低模型的复杂度和资源需求。这将为 AI 技术的普及和应用开辟新的途径,并为用户带来更加便捷、智能的体验。
2024-04-29 10:32:53
356
原创 对增加LLaMA 3 上下文长度技术的猜测
在预训练模型的基础上,将原有的绝对位置编码替换为ROPE编码。微调模型在下游任务上的性能。设计针对长文本的预训练任务,在预训练阶段,设计一些专门针对长文本理解的任务,如长文本摘要、长文本问答等,以帮助模型学习到更好的长文本表示和处理能力。通过针对性的微调、渐进式的位置编码替换、稀疏注意力机制、层次化注意力机制等技术手段,研究者们正在努力提高模型与RoPE编码的匹配度,并在有限的计算资源下处理更长的序列。1.预训练模型的参数是在原有的绝对位置编码下学习的,替换为RoPE编码后,模型的性能可能会受到一定影响。
2024-04-24 17:29:41
1059
原创 LLAMA3性能提升的秘密:数据质量是关键
32K 标记器通常使用较小的词汇量,这意味着它将词语拆分成较少的子词语,导致词语表示不够细腻,可能无法捕捉微妙的差异,使用较大的词汇量标记器,如128K,对于需要语言细腻理解的模型,如语言翻译、问题回答和文本生成,可能更有利。例如:1.不同的数据源(例如,新闻文章、社交媒体帖子、书籍等)2.不同的数据格式(例如,文本、图像、音频等)3.不同的数据特征(例如,词袋模型、TF-IDF、语言模型等)3.优化的改善:随着数据的增加,优化器有更多的机会调整模型的参数以更好地拟合训练数据。
2024-04-22 10:34:14
488
原创 Reka团队打造前沿多模态语言模型,展现卓越性能
而Reka Edge和Flash这两个规模较小的模型,也在各自的算力范围内展现了出色的性能,达到了业界领先水平。这些模型不仅能处理和推理文本,还能够灵活应对图像、视频和音频等多种输入,在各项测试中表现出色,在某些指标上甚至超越了更大规模的知名模型。总的来说,Reka团队通过大量高质量数据、先进的算法设计以及优化的训练流程,成功打造了这一系列强大的多模态语言模型,在AI技术发展中树立了新的里程碑。他们借鉴了谷歌PaLM模型的设计思路,但做了一些优化和简化,在保证效率的同时避免过于复杂的结构。
2024-04-17 17:03:07
930
原创 Grok-1.5 Vision:X AI发布突破性的多模态AI模型,超越GPT 4V
在最近的基准测试中,Grok-1.5V展现了其强大的性能。特别是在新的RealWorldQA真实世界物理空间基准测试中,Grok-1.5V的表现超过了所有现有的模型,包括GPT 4V。近日,马斯克旗下的X AI公司发布了其最新的多模态模型——Grok-1.5 Vision(简称Grok-1.5V),这一模型在处理文本和视觉信息方面展现出了卓越的能力,引起了业界的广泛关注。Grok-1.5V模型能够处理包括文档、图表、截图和照片在内的各种视觉信息,这使得它在理解和生成与真实世界相关的信息方面具有独特的优势。
2024-04-15 15:42:49
570
原创 字节跳动 MegaScale 系统:高效稳定训练巨型模型
论文指出,MegaScale 系统在训练 1750 亿参数的 LLM 模型时,在 12,288 个 GPU 上实现了 55.2% 的模型 FLOPs 利用率 (MFU),相比 Megatron-LM 提升了 1.34 倍。近年来,人工智能领域兴起“规模为王”的趋势,模型规模和训练数据量成为决定模型能力的关键因素。未来,我们需要进一步探索新的算法、系统和硬件技术,以构建更加高效、稳定和可扩展的训练平台,从而推动人工智能的未来发展。故障会导致昂贵的训练时间损失,而性能落后的节点会降低训练效率,延长训练时间。
2024-04-15 15:42:16
766
原创 苹果公司推出MLLLM Ferret-UI,开创移动UI界面理解新纪元
Ferret-UI模型通过采用“任何分辨率”技术,将屏幕分割成基于原始宽高比的子图像,并对每个子图像进行单独编码,从而在不丢失重要视觉信号的情况下放大细节,实现了对小型对象的准确识别。苹果公司此次推出的Ferret-UI模型,不仅为移动UI界面的理解带来了革命性的突破,也为未来的智能设备交互体验开辟了新的可能性。该模型的关键创新之一是其独特的“任何分辨率”技术,该技术通过放大细节来解决小型对象的识别问题,显著提高了模型对UI元素的理解精度。
2024-04-11 10:04:49
530
原创 体绘制闭合曲线裁剪
pragma region 使用vtkGPUVolumeRayCastMapper体渲染方式。#pragma region 渲染管线。
2024-04-09 15:14:17
923
原创 Octopus:2B 参数语言模型即可媲美 GPT-4 的函数调用性能
这项研究的潜在影响是巨大的,为大模型为手机端等针对应用程序特定场景的训练铺平了道路,开发人员可以精确定位其用户最常用的 API,将它们转换为模型的函数标记,然后继续部署。为此斯坦福大学采用了一种独特的功能性标记策略,基于谷歌Gemini 2B模型开发了Octopus-V2模型,专为Android API的功能调用定制,超越了基于RAG的方法,特别适用于边缘计算设备。展望未来,开发一个专注于设备推理的模型将实现云部署速度的显著提升,在本地部署时,为注重隐私或运营成本的用户提供有价值的解决方案。
2024-04-09 10:02:35
667
原创 量子计算领域迎来了一项令人振奋的突破。
在测试中,联合团队展示了无错误运行量子电路的14000个独立实例,这一成果不仅显示出系统的稳定性和可靠性,也预示着通用容错量子计算的实现进程将大幅加快。MicrosoftAzureQuantum的高级量子开发副总裁兼杰出工程师Krysta Svore博士也对这一突破给予了高度评价,认为这是量子计算领域的一个重要里程碑,展示了混合经典和量子超级计算的光明未来,这将对科学发现产生深远的影响。此次合作的成功不仅为量子计算领域带来了新的希望,也为材料科学、药物发现等众多领域的发展提供了强大的技术支持。
2024-04-08 12:39:57
295
原创 苹果发布 ReALM——端侧大语言模型再突破!显著提升 Siri 智能程度
此外,传统的图像识别模型通常使用真实世界的图片进行训练,而手机屏幕上的图像与真实世界的图片分布差异很大,并且,对于手机屏幕图像,很多信息在底层已经获得,如文本内容、元素位置等。在自然语言处理领域,指代消解(Coreference Resolution)是一项重要任务,旨在确定代词(如"他"、"她"、"它"等)或其他指示性词语(如"这个"、"那个"等)所指代的实体或对象。其次,ReALM 针对手机屏幕上的图像特点,设计了新的编码算法,可以有效提取图像中的关键信息,提升识别精度。类似于人与人之间的对话。
2024-04-03 09:41:47
875
原创 SambaNova 芯片:深入解析其架构和高性能秘诀
英伟达GPU采用的是一种更加传统的架构。这种快速的数据流编译技术使SambaNova芯片能够针对给定的AI模型,自动生成最优的计算指令和分布式执行策略,充分利用芯片的硬件能力,突破了传统架构的性能瓶颈。可重构数据流架构是SambaNova芯片的核心,它能够根据不同人工智能模型的需求,动态调整芯片内部的数据通路,实现高效的计算和数据流动。可重构数据流架构代表了人工智能芯片设计的一个重要方向,它通过灵活的硬件结构和智能的编译映射技术,实现了高性能、高效率、高适应性的特点,为人工智能的加速发展提供了强大的动力。
2024-04-02 13:52:33
1406
原创 SambaNova 芯片:深入解析其架构和高性能秘诀
英伟达GPU采用的是一种更加传统的架构。这种快速的数据流编译技术使SambaNova芯片能够针对给定的AI模型,自动生成最优的计算指令和分布式执行策略,充分利用芯片的硬件能力,突破了传统架构的性能瓶颈。可重构数据流架构是SambaNova芯片的核心,它能够根据不同人工智能模型的需求,动态调整芯片内部的数据通路,实现高效的计算和数据流动。可重构数据流架构代表了人工智能芯片设计的一个重要方向,它通过灵活的硬件结构和智能的编译映射技术,实现了高性能、高效率、高适应性的特点,为人工智能的加速发展提供了强大的动力。
2024-04-02 11:12:25
1401
1
原创 AI模型开发 “智能炼金术“:进化合并模型的妙招 !开启AI模型开发的新时代
这个新的大模型开发思路,可以让我们在相对较少的资源投入下,快速探索和迭代新模型,我们可以利用现有的模型作为"积木",在此基础上快速构建和测试新的模型架构。比如,如果用一个语言模型的编码器替换一个视觉模型的编码器,新模型在视觉语言任务上的表现提升了,那么可以推断语言模型的编码器可能更擅长处理跨模态的信息交互。近日,日本大模型公司。在进化过程中,不同的模块组合被看作是不同的"物种",它们在不同任务上的表现决定了它们的"适应度",适应度高的物种会被保留并产生新的变异,适应度低的物种则会被淘汰。
2024-03-29 10:21:53
1055
原创 科普的理解 Sora 视频生成模型的核心技术
借助创新的DiT架构、高质量多样的训练数据,以及强大的文本理解能力,Sora不仅能根据文字描述生成逼真视频,而且生成质量和处理能力都达到了一个全新的高度。我们可以期待,在不久的将来,创作者无需复杂的拍摄制作,只需简单输入一段文字,就能"变戏法"般生成出栩栩如生的视频作品。推理时,则按相反过程操作。如果Sora最终版本的计算量也提升了16倍,而且考虑到DiT XL版本相比B/2版本的计算复杂度提升了12倍,那么我们可以粗略估计,Sora最终版本的计算复杂度约为DiT XL的16/12=1.33倍。
2024-03-27 10:24:59
1421
原创 新型多智能体框架Mora挑战视频生成领域 欲与OpenAI的Sora比肩
Lehigh大学的Lichao Sun教授作为共同通讯作者,对Mora项目的未来充满期待,他表示:“我们希望Mora能够指导视频生成技术的未来发展方向,通过协作AI智能体,推动视频内容创造和利用方式的重大进步。Mora采用多智能体协作的方式,通过分解视频生成过程为多个子任务,并由专门的智能体负责执行,从而实现了文本到视频、图像到视频、视频编辑和模拟数字世界等多种视频生成任务。随着技术的不断进步和开源合作的深入,我们有理由相信,未来将有更多创新的AI应用出现在我们的视野中,为人类社会的发展带来更多可能。
2024-03-27 10:24:12
454
原创 C++ pdf 打印 插入图片
在C++中,要实现PDF打印,你可以使用第三方库,如PoDoFo或者使用系统命令调用打印程序。// 保存更改后的PDF文档。// 创建一个新的PDF文档。// 创建一个新的PDF文档。// 设置文字的颜色为黑色。// 设置文字的颜色为黑色。// 设置图片位置和尺寸。// 设置字体和字体大小。// 释放PDF文档对象。// 设置字体和字体大小。// 释放PDF文档对象。// 在页面上绘制图片。// 在页面上添加文字。// 在页面上添加文字。// 打开PDF文档。// 创建一个新页面。// 创建一个新页面。
2024-03-27 10:13:53
854
原创 算力的尽头是光伏和储能——电力算力融合:能源问题的新思路
然而,现有的多站融合案例大多局限于220千伏及以下的变电站,受限于站内可用空间,一般只能容纳几十面机柜,适合建设小型的边缘计算节点,难以支撑区域级、骨干级数据中心的建设需求。在"双碳"目标的背景下,如何在保障算力供给的同时,实现能源的高效利用和绿色发展,成为亟需破解的难题。能源和算力,一个是新经济的"血液",一个是新经济的"引擎"。电力行业要树立"算力即负荷"的新理念,加快电网基础设施与算力基础设施的一体化部署,推动能源流与数据流的互联互通。,110千伏砂坪变电站率先实现了电力、通信、算力的"多站合一"。
2024-03-20 09:42:35
1373
原创 GPT -5引领下一代 AI 革命: Altman 警告创业公司勿低估改进幅度
他强调, GPT -5的进步将是革命性的,可能超出许多人的想象。此外, Altman 正在推动全球 AI 基础设施的创新,他乐观地认为,一旦突破当前的计算能力限制,实现 AGI ,将解决当前面临的各种问题,包括能源短缺。将关注重点全面转向 AI 领域,不再关注其他技术。他强调, GPT -5的进步将是革命性的,可能超出许多人的想象。此外, Altman 正在推动全球 I 基础设施的创新,他乐观地认为,一旦突破当前的计算能力限制,实现 AGI ,将解决当前面临的各种问题,包括能源短缺。
2024-03-19 18:19:48
320
原创 tiktok 与 赵长鹏 遭遇了什么
对于美丽国来说,比特币是国家资产,赵长鹏动了国家资产的奶酪,当然要被消灭;新闻媒体是国家资产,TIKTOK作为新兴媒体也动了国家资产的奶酪,当然也在消灭之列;高端芯片、波音飞机也是国家资产,威胁到国家资产的公司和个人也应该被消灭。其实,国家资产并非国家所有,连美联储都是私人财产,这些国家资产只是某些群体的私人财产而已。 这就是美丽国政客们的核心逻辑。
2024-03-19 09:38:20
399
1
原创 研究揭示OpenAI GPT-3.5-Turbo模型参数量可能只有7B
加利福尼亚州,洛杉矶 - 一项由南加州大学计算机科学系的研究人员进行的新研究,通过创新的数学方法,对OpenAI公司的最新语言模型GPT-3.5-Turbo的内部结构进行了深入分析。研究团队通过一系列精心设计的“暴力提问”实验,成功地估计了该模型的嵌入大小大约为4096,从而为理解这一先进人工智能系统的能力提供了新的视角。该研究的主要作者Matthew Finlayson表示:“我们的工作不仅仅是对GPT-3.5-Turbo进行了一次技术层面的剖析,更是对当前大型语言模型能力的一次重要评估。
2024-03-18 17:42:06
1023
原创 苹果怎么了?在全球手机销量下滑的情况下,一会搞车、一会搞AI,是摸不到北了吗?
iphone、ipad用户何尝不需要AI生成式内容。任何一家伟大的企业往往只能抓住一个时代的风口。google在内的几家巨头是在步奥特曼后尘。CEO 蒂姆·库克官宣要搞 GenAl。造车团队的一部分成员也转向 GenAl。GenAl是他们不可或缺的一部分。并不代表,它真的能搞出元宇宙。这种创新的驱动力根植于的土壤,在全球手机销量下滑的情况下,放弃10 年之久的造车项目,这不是扎克伯格能够决定的,然后又出现了神奇的马斯克。能诞生facebook。担心美国会被谁超越的问题。有意思的是苹果最近公布的。
2024-03-15 14:47:36
159
原创 LeCun和马斯克辩论2029年是否实现超越人类的人工智能,你怎么看?
杨立坤:不,如果是这样的话,我们会有Alsystems,可以像任何17岁的孩子一样,在20个小时的练习中自学驾驶汽车。但我们仍然没有完全自主、可靠的自动驾驶,尽管我们(您)有数百万小时的“标记”培训数据。埃隆·马斯克:AI明年可能会比任何一个人都聪明。到2029年,Alis可能比所有人类加起来都聪明。
2024-03-15 09:17:38
281
原创 OpenAI即将推出Sora
然而,Murati强调,与水印相比,视频内容的审核和限制更为关键,因为随着生成技术的进步,区分视频内容的真实性将变得越来越困难。Sora目前正处于开发和测试阶段,预计将在今年内发布,尽管具体日期尚未确定,但OpenAI正在考虑全球选举等因素,以确保最佳发布时机。首先,Sora的视频生成速度相当快,对于720P分辨率或20秒长的短视频,生成时间大约只需几分钟,这与之前传言中提到的数小时生成时间大相径庭。此外,Sora在内容生成方面也将有所限制,例如不会生成公众人物的图像,以防止误导和滥用。
2024-03-14 15:35:00
345
原创 科幻走进现实,酷似人脑的GPT有身体了
GPT+机器人的这个组合来的太快 OpenAl 与机器人初创企业 Figure 将大模型技术集成到人形机器人中, AI 开始迈向实体化应用的新阶段。“ Figure One 回应: “我看到桌子中间盘子里有一个红苹果, 旁边有个挂着杯子和盘子的沥水架, 还有你站在边上,手搭在桌子上。“ 随后精确而稳当地抓取苹果递给人类, 智能识别出眼前唯一可供食用的对象, 无需人类具体指定 视频接下来的画面则是 Figure 机器人将地面垃圾捡起, 并有序地把盘子和杯子放入沥水架内的过程。背后没有任何远程操控。
2024-03-14 14:19:57
539
原创 OpenAI GPT-4.5 Turbo 泄露,六月或将发布
在泄露的预告文本中,一个关键特性是模型的上下文窗口扩展到了256,000个令牌——是GPT-4 Turbo的128,000个令牌的两倍。OpenAI首席执行官Sam Altman暗示了一个新的AI模型将会“值得期待”,并计划在Lex Fridman的播客节目中露面,这一事件通常紧随OpenAI的重要公告之后。这种潜在的延迟发布可能是OpenAI的战略举措。自2023年12月以来,有关GPT-4.5 Turbo发布的传言一直在流传,有猜测新模型可能除了文本和图像之外,还包括视频或3D功能。
2024-03-13 17:02:02
784
原创 DeepSeek发布多模态大型语言模型DeepSeek-VL,技术创新性突出
该模型参数规模为1.3B和6.7B,采用了创新的联合视觉和语言预训练方法,旨在解决传统的单模态预训练方法的局限性。在数据准备方面,采用了策略性数据采样方法,平衡了多模态数据和纯文本数据的比例,避免影响语言模型原有的语言理解能力。在模型架构方面,引入了混合视觉编码器,能够高效处理1024x1024高分辨率图像,同时控制了计算量的增长。在模型架构设计上,体现了在多任务场景下保持推理一致性和语义完整性的初衷。在训练方法上,采用了高效的训练算法,实现了对高分辨率图像的高效建模,且保持了语义丰富性。
2024-03-13 15:54:31
1322
原创 Llama-3即将发布:Meta公布其庞大的AI算力集群
这一雄心勃勃的计划建立在Meta早期的成功基础之上,该公司在2022年1月首次公布了其AI研究超级集群(RSC),该集群配备了16,000个英伟达A100 GPU,并在开发全球最受欢迎的类ChatGPT模型Llama和Llama 2中发挥了重要作用。硬件平台方面,新增的集群全部使用了Meta内部设计的Grand Teton,这是一个开放性的GPU硬件平台,它将电源、控制、计算和结构接口集成到一个机箱中,以提高整体性能和散热效率。随着Llama-3的即将发布,Meta再次证明了其在AI领域的领导地位。
2024-03-13 15:53:56
545
1
原创 OpenAI官宣开源Transformer Debugger!不用再写代码了
刚刚,OpenAI超级对齐团队负责人官宣开源Transformer调试器。研究人员不用写代码,就能快速探索LLM的内部构造了!这项工作,是用GPT-4来分析GPT2中输入和输出之间的对应关系,从而推断各个神经元可能承担什么语言特征编码职责,如词性、句法结构、上下文关系等。如果去掉某个神经元后,模型处理名词短语能力明显下降,说明这个神经元很可能与名词短语编码相关,通过这种方法可以让我们更好探究黑箱模型的一些内在逻辑,从而更好地理解它是如何工作的,在一定程度上提高了模型的可解释性和透明度。
2024-03-13 15:53:03
311
1
原创 全球首个AI程序员Devin问世,颠覆传统编程领域
近日,一家名为Cognition的初创公司震撼推出了全球首位AI软件工程师——Devin,这一创新成果预示着编程领域的重大变革。在SWE-bench基准测试中,Devin以13.86%的正确率远超其他AI模型如Claude 2、Llama、GPT-4等,展现出了其卓越的编程能力。Devin的出现,不仅是技术进步的象征,也可能预示着编程工作的全新模式。随着Devin的不断进步和完善,未来程序员的工作重点可能将转向如何更有效地与AI合作,以及如何利用AI提高工作效率。
2024-03-13 15:52:28
455
原创 OpenAI官宣开源Transformer Debugger!
这项工作,是用GPT-4来分析GPT2中输入和输出之间的对应关系,从而推断各个神经元可能承担什么语言特征编码职责,如词性、句法结构、上下文关系等。如果去掉某个神经元后,模型处理名词短语能力明显下降,说明这个神经元很可能与名词短语编码相关,通过这种方法可以让我们更好探究黑箱模型的一些内在逻辑,从而更好地理解它是如何工作的,在一定程度上提高了模型的可解释性和透明度。刚刚,OpenAI超级对齐团队负责人官宣开源Transformer调试器。研究人员不用写代码,就能快速探索LLM的内部构造了!
2024-03-13 09:40:15
121
原创 国产AI视频技术迎来新成员Etna,4K 60帧 15秒超高清视频
🚀 国产技术的崛起 Etna的问世,标志着国产AI视频技术迈出了重要的一步。而且,Etna在细节处理上也表现出色,无论是动物的羽毛还是人物的表情,都能做到细腻呈现。🔍 真实性的挑战然而,尽管Etna在技术上取得了显著进展,但它与国际领先的SORA相比,仍存在一定差距。目前,Etna生成的视频更偏向于动画质感,而非SORA所展现出的近乎真实的世界。随着短视频和短剧市场的蓬勃发展,Etna等技术的未来发展值得我们持续关注。国内AI视频技术领域传来好消息,一款名为Etna的AI视频生成工具引起了业界的广泛关注。
2024-03-12 14:26:07
2453
原创 GaLore的全称是“Gradient Low-Rank Projection“,翻译过来就是“梯度低秩投影“
LoRA是在预训练模型上叠加一个小矩阵来微调,内存占用是小了,但只适合微调,不能从头训练。GaLore的目标就是在不影响训练效果的前提下,最大限度地压缩优化器状态的内存占用。它用到了一些很巧妙的数学技巧,比如低秩分解,将原本庞大的矩阵近似表示为两个更小的矩阵的乘积。再加上一些其他的内存优化技术,最终将总内存消耗控制在了21.3GB,比原来的58GB低了很多。以70亿参数的模型为例,模型权重约占14GB,中间激活值约占2GB,但优化器状态却高达42GB!GaLore的出现,为大模型训练开辟了一条全新的道路。
2024-03-11 14:03:11
443
苹果大模型论文MM1:Methods,Analysis & Insights from MultimodalLLM Pre-tr
2024-03-15
一文弄懂神经网络中的反向传播法——BackPropagation - Charlotte77 .pdf
2021-11-18
达芬奇机器人及手术机器人四巨头专利分析.7z
2021-11-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人