自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(158)
  • 收藏
  • 关注

原创 支付宝开放平台-开发者社区——AI 日报「4 月 22 日」

另一面值得关注的,它还是业界唯一一个基于全国产算力训练的推理模型。此外,升级后的星火X1私有化部署简便,定制门槛低——4张910B即可部署满血版星火X1,16张910B即可完成行业定制优化,再次印证全栈自主可控大模型,具备登顶高水平的实力和持续创新的潜力。它理解你的意图,将繁琐的点击化为一句简单的指令,将多个网站整合成智能工作流,在你需要时提供恰到好处的帮助,比如表单自动填充、标签页自动管理;同时,它也拥有强大的「自主行动力」,在你授权下,作为一个可靠的助理,为你处理那些跨越多个网站的繁琐事务。

2025-04-22 14:38:17 808

原创 支付宝开放平台-开发者社区——AI 日报「4 月 17 日」

在联发科的畅想中,AI助手不再是一个单纯的执行者,而是变成了一个能够协作,甚至“懂得拒绝”的伙伴。阿里巴巴通义实验室的 HumanAIGC 团队专注于 2D 数字人和人物视频生成的研究,在相关领域内已发表了多篇顶会论文,比如单图驱动角色视频生成 Animate Anyone 以及 Animate Anyone2,单图语音驱动视频生成技术 EMO 以及 EMO2,实时数字人 ChatAnyone 等均出自该团队。尤其是,对于图像、图表、图形分析,o3表现尤为突出,能够深入挖掘视觉输入的细节。

2025-04-17 14:33:19 530

原创 支付宝开放平台-开发者社区——AI 日报「4 月 11 日」

在 AI 势能大会下午的 AI 基础设施峰会上,阿里云智能集团副总裁、阿里云智能计算平台事业部负责人汪军华就谈到了 MoE 架构特有的一些困难,包括 token drop 选择对吞吐的影响、在路由专家与共享专家之间考虑效率和效果的权衡、专家的选取数量和比例等。在视频总结和视频要点之后,我们继续提出要求:请帮我剪辑视频中的片段,包含任意由客户指定的场景,提取相关片段,标明时间范围,并为每个片段配上解说文案,用户场景为:进球时刻。现在的国产AI应用,一口气看好几分钟的视频,都可以直接做推理和解析了!

2025-04-11 15:38:43 685

原创 支付宝开放平台-开发者社区——AI 日报「4 月 10 日」

这个浏览器不仅要解决现有工具的性能和部署问题,更核心的是要利用 LLM 和 VLM 赋予浏览器理解和适应网页变化的能力,让 AI Agent 能用更接近自然语言的方式与之交互,稳定地完成任务。在上述质检任务中,AI大小模型协同,视觉专家小模型负责业务目标的理解,通义千问VL大模型负责通用场景理解,还有阿里云提供的异步工程链路提高吞吐量,AI质检整体准确率达95%,事件准确率达80%。”如果没有强有力的 GTM 策略就无法获得成功,“首次创业的人痴迷于产品,二次创业的人则专注于分发。3)建立值得信赖的品牌;

2025-04-10 14:10:52 531

原创 支付宝开放平台-开发者社区——AI 日报「4 月 9 日」

2024 年 7 月,Captions 获得了 Index Ventures 领投,a16z 等跟投的 6000 万美元 C 轮融资,这轮融资后,它的估值达到 5 亿美元。针对这个版本问题,大模型竞技场官方账号也给出了回应,称 Meta 的做法是对平台政策的误读,应该更清楚地说明他们的模型是定制模型。这一突破不仅为学术界提供了低门槛的研究工具,更为大模型性能优化提供了新的思路:通过智能调度实现异构模型的协同增效,以极低的计算成本突破单一模型的性能上限。Llama 4 这么大的节奏,Meta 终于绷不住了。

2025-04-09 15:14:15 605

原创 支付宝开放平台-开发者社区——AI 日报「4 月 8 日」

用他们的话来说,你们的对话,决定了「小美」的命运。然而,如果想要实现更多功能,例如深入精读或做笔记、存档,很多 AI 就难以满足需求了,因为目前真正为研究场景量身定制的 AI 助手并不多见。当然,这个工具只是初具雏形,还有很多可以改进的功能,比如播客的音色、停顿有时还不够自然,链接到的论文有时不支持直接精读(需要一个上传的操作)……回到Anuttacon与蔡浩宇,过去一段时间里,或许是人才涌入、AI赋能,可谓是进展十分神速——官宣不到一年,众多大佬加入,团队已接近50人,已有一款AI游戏内测。

2025-04-08 14:25:11 720

原创 支付宝开放平台-开发者社区——AI 日报「4 月 7 日」

2024 年 11 月,Anthropic 推出了开源协议 MCP(Model Context Protocol,模型上下文协议),旨在为 AI 模型与外部数据源和工具之间的交互提供一个通用、标准化的连接方式。当大家都能用到经过严格测试的工具时,公司就不必「重复造轮子」,这样既减少了安全隐患,也降低了恶意代码出现的可能。另外,我们还希望确保拥有足够的算力,来应对前所未有的需求。最后一个尚未推出,只是预告,但Meta已经毫不避讳地称前两者是“我们迄今为止最先进的型号,也是同类产品中最好的多模态型号”。

2025-04-07 14:15:38 754

原创 支付宝开放平台-开发者社区——AI 日报「4 月 3 日」

同时,所有的设计师们,可能这两周感觉到的冲击,也是最大的。先是Gemini 2.0上线原生多模态生成,让行业里的人好好玩了一波,然后紧接着就是GPT-4o的原生多模态图片生成上线,彻底破圈,直接让我的朋友圈和X上,全是GPT-4o生成的图,我也第一时间,给大家连更两篇。而这一次即梦3.0最难能可贵的点就是,不仅把大字的准确性、设计感、丰富度拉到了一个新的高度,同时大幅的解决了小字的稳定性问题。如果你没看到的话,不要着急,即梦的人说了,目前是灰度内测,全量上线应该是在4月7日,稍微等一等就好。

2025-04-03 14:41:44 762

原创 支付宝开放平台-开发者社区——AI 日报「4 月 2 日」

跨机器人数据中枢,负责实时共享空间、时间和本体记忆,为决策规划与优化协作操作提供信息支持,从而形成感知 - 认知 - 决策 - 行动的闭环。智源研究院在 2025 中关村论坛 “未来人工智能先锋论坛” 上发布首个跨本体具身大小脑协作框架 RoboOS 与开源具身大脑 RoboBrain,可实现跨场景多任务轻量化快速部署与跨本体协作,推动单机智能迈向群体智能,为构建具身智能开源统一生态加速场景应用提供底层技术支持。GPT-4o生成的各种车票、机票、比赛门票,都能随手伪造了,逼真到无法鉴定。

2025-04-02 14:24:37 616

原创 支付宝开放平台-开发者社区——AI 日报「4 月 1 日」

此次投资阵容堪称豪华,不仅有阿美风险投资旗下Prosperity7 Ventures(P7)领投,还有华发集团、浙江省科创母基金与上市公司浙江东方在杭州共同发起设立的善富科创子基金提供战略加持,以及招商局创投、广发信德、靖亚资本、东方富海、华控基金等知名玩家强势入局。创始人 Daniel Nadler 最近参与红杉资本的播客节目,对于 AI 医疗产品的落地、增长,以及如何做没有幻觉的 AI 模型,输出了很多干货信息。如今,也就3个多月的时间,它便进化出全流程叠衣服的能力。

2025-04-01 14:22:38 629

原创 支付宝开放平台-开发者社区——AI 日报「3 月 31 日」

谷歌Gemini 2.5 Pro,Grok 3,GPT-4o的原生图像功能,来自Grok、Perplexity和谷歌的Deep Research产品等等,让人惊呼:AI的又一波大爆发来了?可以说,全国AI发展看北京,北京AI发展看海淀。3月29日,智源研究院在2025中关村论坛「未来人工智能先锋论坛」上发布首个跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain,可实现跨场景多任务轻量化快速部署与跨本体协作,推动单机智能迈向群体智能,为构建具身智能开源统一生态加速场景应用提供底层技术支持。

2025-03-31 14:31:14 728

原创 支付宝开放平台-开发者社区——AI 日报「3 月 28 日」

vivo 为自身制定的目标是聚焦消费级市场,打造面向个人和家庭场景的机器人产品,让技术走出实验室,走进用户的真实生活,回归场景,解决痛点。这种摆脱繁琐定制、聚焦标准化产品的转型,不仅让出门问问实现了高毛利的商业飞跃,更以惊艳的增长数据,诠释了GenAI在全球市场的无限可能。vivo 希望依托自身在 AI 大模型与影像领域的积累,叠加自研混合现实头显积累的实时空间计算能力,着重研究孵化机器人的「大脑」和「眼睛」,让机器人可以「看得懂场景,听得懂需求,给得了回应」。从数字上来看,这一步棋无疑是下对了。

2025-03-28 14:18:26 575

原创 支付宝开放平台-开发者社区——AI 日报「3 月 27 日」

TARS——一家2025年2月才低调出发的创业公司,团队还很精简,技术和产品也才刚刚立项,就在投资市场引发了追逐风暴:大牌投资机构抢着竞购,最后罕见在春节前后完成超募,甚至有些动作不够快的投资机构,只能排到下一轮。可以想见,它离引爆全球音乐市场的一天,已经不远了!MCP为Agent提供了标准化的方式来接入各种工具和数据源,无论是本地运行的工具,例如通过stdio服务器,还是远程托管的服务HTTP over SSE服务, Agent都可以通过统一的接口与它们进行交互,极大扩展了第三方工具库。

2025-03-27 16:03:29 796

原创 支付宝开放平台-开发者社区——AI 日报「3 月 26 日」

对比近期开源的Mistral-Small-3.1-24B 、Gemma-3-27B-IT等, Qwen2.5-VL-32B在纯文本能力上也达到了同规模的SOTA表现。像《Talking Coin》这类模拟经营游戏,玩家的语音指令能直接影响经济和政治,做出的每个决策都能立刻看到效果,增加了游戏的互动感。像《Deviation Game》和《telAIphone》这些派对游戏,AI 用实时解析和图像生成,增强了互动的乐趣,给传统的社交玩法带来了新花样。这一次的32B版本进一步兼顾尺寸和性能,可在本地运行。

2025-03-26 11:17:42 883

原创 支付宝开放平台-开发者社区——AI 日报「3 月 25 日」

与此同时,英伟达也推出了一个采用 Mamba-Transformer 混合架构的模型家族 ——Nemotron-H,其速度是同体量竞品模型的三倍。如今,腾讯、英伟达等科技巨头对 Mamba-Transformer 混合架构的高度关注与投入,释放出一个极为重要的信号:此类架构所蕴含的巨大价值,值得我们深入挖掘与探索。这种突破性的编程形式,实则蕴含着改变世界的潜能——让数百万没有计算机学位或经过编程培训的普通人,也能借助工具,让计算机完成高度定制化任务,打造属于自己的个性化工具。

2025-03-25 14:40:22 981

原创 支付宝开放平台-开发者社区——AI 日报「3 月 24 日」

奥特曼再谈AGI信念!OpenAI最近发了2个比Whisper更好的语音转文本的STT模型:gpt-4o-transcribe和gpt-4o-mini-transcribe,1个文本生成语音的TTS模型 :gpt-4o-mini-tts。这个模型的核心,就是就是识别文字的准确率有多高,我相信大家在用剪映生成字幕的时候,一定会出现很多文字识别错误的情况,所以评判一个ASR模型效果咋样,就看正确率。在价格上,gpt-4o-mini-tts是$0.015/分钟,大概1毛钱人名币1分钟,已经几乎是最低价了。

2025-03-24 14:33:43 589

原创 支付宝开放平台-开发者社区——AI 日报「3 月 21 日」

想象一下,通过一部手机录下家庭的布局画面,给到SpatialLM后,便能输出完整的3D空间信息:房间布局、家具摆放、通道宽度悉数标注。紧接着,虚拟数字道场SpatialVerse基于这一3D场景的数据生成更多的物理真实场景,这些虚拟的场景中,机器人可训练避障、抓取、紧急制动,在训练成本和效率各方面都得到显著提升。群核科技正是前段时间因杭州六小龙出圈的科技企业之一,其业务聚焦空间智能探索,而论文中提到的SpatialVerse是群核面向具身智能等行业开放的虚拟数字道场,通过合成可交互三维数据实现机器人训练。

2025-03-21 14:21:36 825

原创 支付宝开放平台-开发者社区——AI 日报「3 月 18 日」

慧思开物」通过统一架构,如同安卓系统为智能手机提供通用操作系统一样,打破传统机器人开发模式,解决了行业长期存在的碎片化、泛化性难的问题,统一为机器人赋予了跨场景、跨本体的智能化能力。发布会全程实时直播,并现场真实展示了搭载「慧思开物」平台的各构型机器人以行云流水般的动作,完成了工业分拣、积木搭建、桌面整理、物流打包四大场景任务,展现了自然语言理解、视觉理解、空间感知、复杂任务理解、任务精准拆解、工具调用、双臂协作、毫米级精度操作、自主纠错、实时重规划执行等方面的惊人进化。Google最近的动作真的多。

2025-03-18 13:58:26 718

原创 支付宝开放平台-开发者社区——AI 日报「3 月 13 日」

2024 年,行业人士认为,像 Monica.im 这样带有记忆功能的 AI 助手,会面临来自比如豆包这样的强劲对手的压力,做起来并不会像 2023 年那样容易。Open-Sora 2.0——全新开源的SOTA(State-of-the-Art)视频生成模型正式发布,仅用20万美元(224张GPU)成功训练出商业级11B参数视频生成大模型,性能直追HunyuanVideo和30B参数的Step-Video。在多项关键指标上,它与动辄百万美元训练成本的模型分庭抗礼,全面提升视频生成的可及性与可拓展性。

2025-03-13 14:29:51 761

原创 支付宝开放平台-开发者社区——AI 日报「3 月 12 日」

从2023年的“技术验证年(POC)”,到2024年的“规模生产年”,当企业级客户的需求从追逐单一模型的“极致性能”转向寻求性能、成本、安全与场景适配性的平衡,头部云厂商的战略分野已然清晰——亚马逊云科技于昨天凌晨在Amazon Bedrock平台推出全托管、无服务器的DeepSeek-R1模型,是首个提供DeepSeek-R1作为全托管、正式商用模型的海外云厂商,同时DeepSeek是首个登陆Amazon Bedrock的国产大模型。又开卷了,哦是开源,R1-Omni来了。

2025-03-12 14:37:20 874

原创 支付宝开放平台-开发者社区——AI 日报「3 月 11 日」

现在,随着狸谱持续出圈,这款产品正在突破人们对AI工具的固有认知——它从诞生之初就不是单纯的生图工具,而是一个以“抽象共创”为核心的赛博漫展,用户、角色、作品在这里可以深度互动。2023年5月,高通发布了《混合AI是AI的未来》白皮书,其中提到:AI处理必须分布在云端和终端进行,才能实现AI的规模化扩展并发挥其最大潜能。而在DeepSeek之外,值得关注的是,大部分接入的终端产品都是“高通芯”。围绕这3点,再回溯高通这两年以来的技术布局,不难看出,高通在终端AI领域,再次引领了时代之先。

2025-03-11 14:26:27 887

原创 支付宝开放平台-开发者社区——AI 日报「3 月 10 日」

不同于传统的工程技术层面的解释方法,张教授提出了「等效与或交互」解释性理论,用严谨的数学符号化方式证明神经网络的内在表征逻辑,为理解泛化性、鲁棒性和过拟合提供了新的视角。Manus这个产品也成功火到了国外,海外用户得到码之后的剧情和这边差不多,有不少试用之后被惊艳到的,变成“自来水”的。他所倡导的AI治理方式,意味着AI输出的答案取代人类判断,而这些答案往往缺乏充分讨论或监督的合理性。他领衔的DOGE正打造一款AI神器GSAi,要提升政府内部12000名员工的效率,甚至还要开发一款AI编码智能体。

2025-03-10 14:51:40 981

原创 支付宝开放平台-开发者社区——AI 日报「3 月 7 日」

不仅如此,TRON 1已经完成了全球多个国家和地区的产品交付,初步实现了产品的设计、研发、量产和销售的商业化闭环。随后,同年12月,逐际动力又曝光了全尺寸人形机器人的测试,展现了整机工程化升级,实现全身多关节协同大范围运动。这个模型最大的特点,是它仅用320亿参数,就和目前公认的开源最强6710亿参数的满血版DeepSeek-R1媲美。无论是最近引爆全球 AI 技术爆发的 DeepSeek-R1,还是ChatGPT,以及首次下围棋赢了人类的人工智能的AlphaGo,都是强化学习的"杰作"。

2025-03-07 14:46:47 738

原创 支付宝开放平台-开发者社区——AI 日报「3 月 6 日」

UCLA等机构的研究者发现,虽然目前已经涌现出许多试图复现DeepSeek-R1的研究,然而这些研究大多遭遇了这个难点:很难复现出R1所表现出的回答长度增加和思考模式。没有任何SFT的情况下,模型就在CVBench上达到了59.47%的准确率,比基础模型高出约30%,比经过SFT的模型高出约2%。甚至,这个模型大幅超越了指令微调模型,而后者的训练数据明显更多。产品上线后 4 个月,月活跃用户数便突破了百万大关,2025 年 2 月,AiPPT.com 的全球单月访问量逼近 1400 万,全球排名第 2。

2025-03-06 14:14:09 781

原创 支付宝开放平台-开发者社区——AI 日报「3 月 5 日」

就在前不久,这一套借力引流的组合拳下来,原本在App Store免费应用榜的200名开外的元宝,现在却挤掉豆包,来到了榜单第一的位置。而且出击的对象瞄准了字节。不用依赖昂贵的英伟达卡,星火X1用更小的规模、更少的算力,就能对标671B满血版R1和o1,充分证明了算法创新在国产算力上的巨大潜力。在自主可控的前提下,科大讯飞再下一城,这是中国AI的硬核自信。3 月 3 日,官宣了一轮 35 亿美元的 E 轮融资,本轮融资后 Anthropic 的估值达到了 651 亿美元,可以说,产品力和商业上都有了新成绩。

2025-03-05 14:44:47 1039

原创 支付宝开放平台-开发者社区——AI 日报「3 月 4 日」

支付宝/钉钉扫码加入支付宝开发者钉组织,可了解支付宝开放能力最新动态,订阅文档更新消息,和同城同行业交流业务,与支付宝产研沟通交流。

2025-03-04 14:42:52 803

原创 支付宝开放平台-开发者社区——AI 日报「2 月 28 日」

RISC-V 备受关注,一方面是因为其作为新兴的指令集架构,有别于 x86、arm 的封闭或付费授权,坚持走开源开放的路线,其开源精神与 AI 天然契合。而且,幻觉率大幅降低。由于 DeepSeek 技术的普及,AI 芯片的形态即将重构,从原本依赖云计算的大规模并行计算,到今天可以在边缘设备上独立运行的低功耗芯片,AI 芯片正在走向多样化和高效化。因为凭借极致的深度优化,DeepSeek 大幅降低了大模型的训练和推理成本,算力、内存、互联原有平衡发生剧变,为算力架构的创新带来了重大的机会。

2025-02-28 16:44:50 1088

原创 支付宝开放平台-开发者社区——AI 日报「2 月 27 日」

一家名为Zep AI的初创公司推出了为智能体打造的记忆层,通过回忆聊天历史,可以自动生成摘要和其他相关信息,使AI助手能够在不影响用户聊天体验的情况下,异步地从过去的对话中提取相关上下文。具体来看,Zep可视为AI智能体的基本内存,由具有时间感知能力的知识图谱引擎Graphiti所驱动,可以摄入并综合结构化业务数据和非结构化的消息数据,并动态更新知识图,从而表征一个复杂、不断发展的世界。但是,一旦超出上下文窗口的限制,大模型就需要重新开一个对话,如同「失忆」一般忘记之前交流的内容。

2025-02-27 14:10:42 652

原创 支付宝开放平台-开发者社区——AI 日报「2 月 26 日」

为了解决这一问题,蚂蚁团队提出了一种基于大语言模型的多词元并行预测方法K-ON,其利用多词元并行预测机制能够一次生成对所有实体的评估结果,进而实现语言模型实体层级的对比学习。正是因为前几天阿里炸裂的财报,还有AGI的决心,让全球的投资者都认识到,中国的宏观、行业、企业在节点上,都已经完成了对齐。凌晨2点半,Claude发3.7 Sonnet,凌晨5点半,阿里发了推理模型QwQ-Max的预览版,早上10点DeepSeek开源了一个DeepEP代码库,然后晚上10点20,阿里的视频模型万相2.1,也来了。

2025-02-26 14:36:57 916

原创 支付宝开放平台-开发者社区——AI 日报「2 月 25 日」

这是一款用于 Hopper GPU 的高效型 MLA 解码核,仅用了 24 小时就达到了接近 8k 的 star 量(详情请参见《刚刚,DeepSeek 开源 FlashMLA,推理加速核心技术,Star 量飞涨中》)。这是Claude系列中,迄今为止最智能的模型,几乎能够及时响应,并进行可扩展的、逐步的思考。在生成完视频之后,点击菜单栏中的“重绘”,就会弹出各种各样的风格,包括:梵高风、巴洛克风、黏土风、赛博朋克风、浮世绘风、折纸风、羊毛毡风、吉卜力漫画风、辛普森风,以及芭比风,共计10种可选。

2025-02-25 14:25:19 1106

原创 支付宝开放平台-开发者社区——AI 日报「2 月 24 日」

同样是自动的方式,它可以帮你发现数据中隐藏的规律,识别时间数据的趋势,找出异常值和波动,预测未来的走势,还能分析不同数据之间的关系。例如让 AI 角色产生内心 OS,让 AI 角色有自己的,定期更新的状态等等,这些细微之处都依赖大模型,但并不依赖模型最强的能力,它们成本极低,但让用户可以以前所未有的方式感受到 AI 的存在,当然这些创新很快被许多友商借鉴,但就如同哄哄模拟器当初那样,既然始终无法避免,而最终又能对行业有所启发,我觉得也不算太坏。可以说,这次大会是名副其实的「社区的社区」。

2025-02-24 14:11:42 647

原创 支付宝开放平台-开发者社区——AI 日报「2 月 21 日」

值得一提的是,对于那些热门话题,Deep Research 反而常常给出质量比较差的结果,因为相关内容中鱼龙混杂,“水分”很多。Deep Research 极大的降低了信息整合的成本,以前要专门人去整理的工作,现在借助 Deep Research 十分钟左右就可以完成,但是它也很依赖于公开的信息,而且热门话题往往噪音多、信噪比差;但正如互联网时代“透明”与“污染”并存,给了我们通过独立品牌或媒介建立个人信誉与影响力的机会一样,AI 时代也会在加剧“信息泛滥”的同时,为我们带来新的解决思路和商业模式。

2025-02-21 14:50:53 933

原创 支付宝开放平台-开发者社区——AI 日报「2 月 20 日」

清华大学电子系城市科学与计算中心研究团队,联合清华大学智能社会治理研究院、公共管理学院、社会科学学院等跨学科团队深度协作,充分发挥大模型智能体、真实社会环境仿真与大规模模拟加速框架的技术优势,结合智能社会治理的前沿理论与实践探索,成功构建了基于大模型的 “大型社会模拟器 AgentSociety” 1.0 版本,可精确模拟社会舆论传播、认知观点极化、公众政策响应等。7)提供灵活的并行策略配置接口,包括数据并行、模型并行、专家并行、ZeRO和Offload等,以适应不同硬件规模。它会让你变得更强大、更自信。

2025-02-20 14:33:57 666

原创 支付宝开放平台-开发者社区——AI 日报「2 月 19 日」

在多项基准测试中,Grok-3在数学(AIME 2024)、科学问答(GPQA)、编码(LCB)上刷新SOTA,大幅超越DeepSeek-V3、Gemini-2 Pro、GPT-4o。紧接着,中国头部的公有云平台,腾讯云、阿里云、百度云、火山引擎,同样赶在春节期间上线 DeepSeek 模型的 API 服务,甚至拿出更低的价格。第三,针对DiT模型的超参设置、模型结构和训练效率,Step-Video-T2V了进行深入的系统优化,确保训练过程的高效性和稳定性。晚点LatePost|

2025-02-19 14:22:59 669

原创 支付宝开放平台-开发者社区——AI 日报「2 月 18 日」

近日,他发文表示,「随着更多工作变得AI化,我认为这将会改变,将会有更多10倍专业人士。立足当下,如果你能成为那个善于利用工具、形成独到见解的人,就有可能在这场AI潮流中把握更多主动权,迎来指数级的成长。因此,在第一阶段,EMO2 基于音频仅生成手部动作,然后将动作表征作为第二阶段视频生成中的控制信号使用。AI 技术发展已经实现了通过音频驱动人物面部表情的能力,但在虚拟主播、数字人交互等新兴领域,如何让 AI 通过音频自动生成自然流畅的动作肢体语言和表情,始终是业界关注的技术焦点。

2025-02-18 14:43:44 616

原创 支付宝开放平台-开发者社区——AI 日报「2 月 14 日」

在 AI coding 领域的创业公司中,Codeium 拥有最鲜明地针对企业需求的价值主张,在企业安全、合规和个性化等关键维度上建立了差异化优势,并在短短两年内构建起相对完整的产品矩阵,覆盖了广泛的 IDE 插件和 IDE 产品,Windsurf 也在 Copilot 和 Agent 之间找到了独特定位,开创了新颖的开发范式。其次,企业级市场的拓展正在加速,越来越多非技术用户开始搭建仅仅部署在公司内网的效率工具,这意味着网站生成平台有机会为企业提供更多企业级的定制化功能,并与低代码工具市场形成互补。

2025-02-14 18:31:05 1043

原创 支付宝开放平台-开发者社区——AI 日报「2 月 10 日」

中长期看,GPU 资源充裕的公司还是受益的,一方面是第二梯队的 Meta 可以快速跟进新方法,Capex 更加 efficient,Meta 可能是很大受益者,另一方面是智能提升还需要更多探索,DeepSeek 开源把大家水平拉齐,进入全新探索又需要 10 倍甚至更大量级的 GPU 投入。从 24Q3 开始我们就一直在讲 AI 的下半场,虽然 OpenAI o1 提出了 RL 叙事,但因为各种原因没有破圈,DeepSeek R1 解了 RL 的谜题,推进整个行业进入了新范式,真正进入智能下半场。

2025-02-10 12:08:07 788

原创 支付宝开放平台-开发者社区——AI 日报「2 月 8 日」

基于此现状,Center for AI Safety(AI 安全中心)与 Scale AI 联合打造一个名字相当吸引眼球的新基准:Humanity's Last Exam,即「人类的最后考试」,简称 HLE。如果模型能在 HLE 上取得高准确度表现,则说明其在封闭式、可验证的问题和前沿的科学知识上具备了专家级的表现,但仅靠这个基准,并不能表明模型已经具备自主研究能力或者已经是所谓的「通用人工智能」。就在今天,纳德拉官宣,GitHub Copilot将all-in智能体,微软自主的SWE智能体首次亮相。

2025-02-08 15:06:09 550

原创 支付宝开放平台-开发者社区——AI 日报「2 月 7 日」

从 DeepSeek 让训练成本大幅降低的 MLA 模式,R1 和 o1 等模型的性能对比,人均年薪千万的顶尖人才,还指出目前 DeepSeek 的成本估算是错误的,推测其拥有大约 5 万块Hopper GPU……上周的 CES 2025,黄仁勋有提到,在英伟达看来,Scaling Laws 仍在继续,所有新 RTX 显卡都在遵循三个新的扩展维度:预训练、后训练和测试时间(推理),提供了更佳的实时视觉效果。春节没过完,就已迅速适配多个国产芯片,并在各大云平台上线,好生热闹~

2025-02-07 14:04:19 680

原创 支付宝开放平台-开发者社区——AI 日报「2 月 6 日」

就像在CES上意外爆火的AI陪伴玩具,以及这个春节收到关注的“元宝红包封面助手”,它们的共同点都是通过低门槛、贴地气的使用场景,不需要改变人类习惯,不需要教育用户认知。Tülu 3 405B在许多标准的基准测试中均实现了与Deepseek v3和GPT-4o相当或更优的性能,而且也超越了许多先前发布的后训练开源模型(同等参数规模),包括Llama 3.1 405B Instruct和Nous Hermes 3 405B。过年拜年那会儿,这个功能的确蛮实用,没什么门槛,从没接触过AI的长辈也能玩得来。

2025-02-06 15:08:39 942

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除