- 博客(166)
- 收藏
- 关注

原创 AISHELL-2 中文语音数据库
AISHELL-1 is by far the largest open-source speech corpus available for Mandarin speech recognition research. It was released with a baseline system containing solid training and testing pipelines for Mandarin ASR. In AISHELL-2, 1000 hours of cle
2022-03-09 16:41:03
7237
原创 IEEE T-ASLP | 基于特定人跟踪的在线说话人日志研究
近期,昆山杜克大学在语音旗舰期刊IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP) 上发表了一篇题为“Online Neural Speaker Diarization with Target Speaker Tracking”的论文。论文探索了利用特定人声纹提取和语音活动检测来进行在线说话人日志任务。
2025-03-28 11:22:58
931
原创 杭州六小龙最新开源「空间理解模型」,保姆级教程来了!
点云编码器将点云信息编码为紧凑的特征表示,随后由大语言模型(LLM)生成描述场景的场景代码(scene codes),这些场景代码可以被进一步转换为三维结构布局。SpatialLM 是一款专门为三维空间理解设计的大语言模型,通过三维点云数据,生成结构化的三维场景理解输出,包括墙壁、门、窗等建筑元素,以及带有语义类别的定向物体边界框。点云数据(Point Cloud)是一种由大量空间点组成的数据集合,每个点记录了其在三维空间中的位置坐标,通常还包含颜色或反射强度信息,可用于精确描述三维物体或场景的空间结构。
2025-03-28 11:17:39
371
原创 NAACL 2025丨上交大跨媒体语言智能实验室5篇论文分享
大语言模型(LLMs)和人工智能生成内容(AIGC)的快速发展加速了AI原生应用的出现,例如基于AI的故事书,它们能够自动生成吸引儿童的故事内容。这些挑战源于GUI环境的动态性和结构化特性,包括文本、图像及空间关系的融合,以及不同页面和任务间操作空间的变动性。朱梓臣,汤浩,李妍思,刘丁烨,许洪深,兰焜耀,张丹阳,姜懿轩,周浩,王辰润,张思拓,孙良泰,王熠笑,孙羽恒,陈露,俞凯。徐薛楠,梅嘉豪,李晨亮,吴宇宁,严明,赖少鹏,张霁,张佶,吴梦玥。罗嘉鸣,罗未一,孙国庆,祝梦辰,唐海峰,吴梦玥,朱其立。
2025-03-18 15:35:14
714
原创 全球首个混合推理模型:Claude 3.7 Sonnet来袭,最强编程大脑暴击DeepSeek R1
具体而言,通过调用等同于256个独立样本的计算资源,结合训练优化的评分模型,并设置最大64,000个Token的推理限额,Claude 3.7 Sonnet在GPQA测试中达到了84.8%的总体得分(其中物理学部分高达96.5%)。仅仅这两条提示之后,就出现了一个功能齐全的交互式体验,甚至还配有粗糙但迷人的像素图像(这些图像实际上令人惊讶地印象深刻——AI必须使用纯代码「绘制」这些图像,而无法看到它正在创建的内容,就像一个被蒙住眼睛的艺术家。这种统一的方法为用户提供了更流畅的体验。
2025-02-28 11:07:03
1139
原创 中国首个自研空间智能AI登场!单张图即生3D世界
这样,不仅视频内容非常符合用户意图,还能拓展在虚拟环境、交互式应用和沉浸式体验中的应用场景,可以用在3D游戏场景中快速可控建模,以及在具身智能中快速搭建模拟场景。而用户在场景中运动时,3D场景生成大模型就会不断对场景缺失区域进行几何和纹理的补全,因此用户无论在任何位置、任何角度,都能看到合理、一致的场景。从生成的视频中不难看出,Matrix-Zero自由探索的范围任意大,任意广。我们还需要做的是,在大模型训练过程中,还需要将3D世界的几何和物理规则系统植入,从而让AI拥有对这个世界的推理、理解、生成能力。
2025-02-21 11:21:01
768
原创 加快建设人工智能高质量数据集
面向重点场景,打造数据技术“测试场”,提供真实数据环境、模拟应用场景,建设中试基地,吸引企业、高校和科研机构参与数据技术的创新和验证,加速新技术推广和应用。面向医疗、教育、科研、法律、工业、农业、物流、金融、能源、交通等重点领域建设大数据中心及大模型行业应用创新(工程)中心,打破信息孤岛,构建完备数据生态,构建高质量数据集,提升垂直领域人工智能模型能力。面向新一代人工智能技术开发和应用发展需求,完善数据资源构建体系,培育数据产业,支持数据技术发展,系统推进高质量数据集建设,强化行业应用。
2025-02-13 14:13:22
383
原创 4000字!深度解析 DeepSeek 的蒸馏技术
在机器学习中,模型蒸馏是一种优化技术,通过模仿教师模型的输出,训练一个较小的学生模型,从而实现知识的传递。教师模型通常具有较高的性能,但计算成本高昂,而学生模型则更加轻量级,推理速度更快,且内存占用更少。
2025-02-13 14:09:39
1021
原创 喜报!希尔贝壳在2024年“数据要素×”大赛全国总决赛获奖!
希尔贝壳技术团队均来自人工智能、大模型、数据科学领域,在音视频高质量数据集的建设已经达到了国际领先水平,部分数据集已成为产学研的标准。拥有行业领先的数据工程技术,针对人工智能大模型所必须的高质量数据提供精准的数据集、数据采集、标注、清洗、合成等方案。希尔贝壳在模型评测、AI辅助标注、AI数据工程、数据处理平台、高质量数据集等建立了领先的核心技术体系。荣获优秀奖是对我们数据产品、开源项目的肯定,也鼓励希尔贝壳不断突破,取得新成绩,努力将希尔贝壳打造成全球最具影响力的AI大数据服务商。
2025-01-08 11:44:45
331
原创 国家发展改革委、国家数据局、教育部、财政部、金融监管总局、中国证监会印发《关于促进数据产业高质量发展的指导意见》
近日,国家发展改革委、国家数据局、教育部、财政部、金融监管总局、中国证监会等六部门联合印发《关于促进数据产业高质量发展的指导意见》(下称《意见》)。《意见》从加强数据产业规划布局、培育多元经营主体、加快数据技术创新、提高数据资源开发利用水平、发展数据流通交易、强化基础设施支撑、提高数据领域动态安全保障能力、优化产业发展环境等八个方面部署了系列政策举措。
2025-01-08 11:42:45
1524
原创 英伟达年终核弹!全新B300为o1推理大模型打造,RTX5090也曝光了
梦晨 西风 发自 凹非寺量子位 | 公众号 QbitAI英伟达老黄,成了今年的圣诞老黄。AI芯片大礼包刚刚曝光:GPU新核弹,以及附带CPU的超级芯片。,在产品层面上相比B200在FLOPS上提高50%,从192GB提升到288GB,也是提高了50%。包含72块GB300的“新一代计算单元,更是被评价为“能让OpenAI o1/o3推理大模型的思维链长度,在高batch size下达到10万tokens的唯一方案”。这与今年3月份“AI春晚”发布的B200系列。
2024-12-26 13:51:07
874
原创 OpenAI被曝自研人形机器人,4年前因缺数据解散团队,如今要用机器人数据反哺大模型了
梦晨 发自 凹非寺量子位 | 公众号 QbitAI这次像Figure、1x和Physical Intelligence这样的机器人初创公司,也团队搞机器人强化学习。,研发有双臂、双腿的实体人形机器人。Information的消息称,两位直接了解这个项目的人透露了这个消息。甚至人事上也能看出这种迹象,11月挖来了。他宣布自己的新角色正是:将人工智能带入物理世界。
2024-12-26 10:33:21
501
原创 北交开源o1代码版!强化学习+蒙特卡洛树搜索,源代码、精选数据集以及衍生模型通通开源
北京交通大学研究团队悄默声推出了一版o1,而且所有源代码、精选数据集以及衍生模型都开源!名为O1-CODER,专注于编码任务。论文链接:https://arxiv.org/pdf/2412.00154团队认为编码是一个需要System-2思维方式的典型任务,涉及谨慎、逻辑、一步步的问题解决过程。而他们的策略是将强化学习(RL)与蒙特卡洛树搜索(MCTS)相结合,让模型能够不断生成推理数据,提升其System-2能力。实验中,团队有以下几点关键发现: 当推理正确时,基于伪
2024-12-20 10:47:27
912
原创 上交大与上海人工智能研究所联合推出医学多语言模型,模型数据代码开源
今天为大家介绍的是来自上海交通大学的王延峰与谢伟迪团队的一篇论文。开源的多语言医学语言模型的发展可以惠及来自不同地区、语言多样化的广泛受众。来源丨 DrugAI、 机器人的脑电波。
2024-11-14 17:52:04
1090
原创 大模型重构生命科学!最大基础模型面世,解锁DNA超长序列,参数规模达2100亿
生命科学领域,!今年,化学诺贝尔奖授予了AlphaFold,AI+Science受到空前的关注。人们惊叹于,仅仅是一个蛋白质结构预测模型,就能释放出如此巨大的行业潜力。就在当下,在第三届中国生物计算大会上,全球规模最大的生命科学基础模型横空出世——,参数规模高达2100亿,覆盖蛋白质、DNA、RNA、细胞等七大主流模态。背后玩家正是来自李彦宏孵化创办的。与应用于其他行业的基础模型有所不同,他们解码的是生命语言,而非自然语言,意味着不仅能处理复杂的生物序列,为药物研发、精准医疗等领域助力;
2024-11-08 15:46:08
524
原创 UCLA、MIT数学家推翻39年经典数学猜想!AI证明卡在99.99%,人类最终证伪
6月,剑桥大学的Lawrence Hollom在另一种语境下,证伪了上下铺问题的一个版本。这个猜想的表述并非针对图,而是研究称为超图(hypergraph)的数学对象。在超图中,边的定义不再局限于连接一对顶点,而是可以连接任意数量的顶点。Hollom找到了这个版本猜想的一个反例。他创建了一个小型超图,每条边都连接三个顶点:Gladkov发现这篇论文后意识到,这正是他们三人所需要的!他从晚上一直读到凌晨3点,并在睡觉前给Zimin发了短信。第二天,两个人便通了电话。
2024-11-06 17:04:39
767
原创 苹果地表最强AI PC诞生,M4 Max猛兽加持性能暴涨!顶配6万,续航飙至24小时
此外,M4系列的GPU硬件中,光线追踪引擎的速度获得了提升,《Control》等游戏将呈现出更逼真的画面效果,专业3D渲染器也能以更高效率输出高品质视觉画面。在GPU方面,M4 Pro比M2 Pro提速1.5倍,比M1 Pro提速1.9倍。对于在AI、视频、程序开发等领域处理大型文件的专业用户来说,M4 Pro不仅提供了卓越的性能表现,还继承了苹果芯片一贯的高能效设计优势。它可以说是笔记本芯片的最强范本,不仅继承了苹果在芯片设计上的优势,并且在性能方面进行了史诗级加强,成为专业用户和高性能需求者的首选。
2024-11-01 15:35:51
1074
原创 o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App
另外一个用RealTimeAPI构建太阳系导航应用程序,利用o1实时语音能力介绍星系。从太阳系中最大的木星,到地球,再到火星深入介绍,o1全部都能娓娓道来。OpenAI研究员表示,这一功能教会了自己:在教女儿新知识时如何成为有趣的父母。奥特曼QA环节,自曝最敬佩Cursor没有Sam Altamn的开发者日,就不算是完整的。在整场演讲结束后,最后一个环节,就是Altamn QA问答了。在线上,奥特曼抛出了一个深刻的思考:人们总是倾向于用历史上的技术革命来类比当前的AI革命。
2024-11-01 14:53:28
723
原创 希尔贝壳受邀参加首届“数据标注产业大会暨供需对接会”
作为全球领先的AI大数据服务商,将持续在人工智能大模型的数据供给提供资源和服务拓展,不断拓展数据资源服务能力,并提供有效的技术和安全保障,为大模型提供高质量数据服务,为数字经济的繁荣和发展注入动力。作为国内人工智能数据领域的代表企业之一,希尔贝壳与大同市数据局签署建设数据标注基地试点重点任务意向合作协议,发挥希尔贝壳技术创新、生态构建以及高质量数据集产品优势,助力数据标注基地建设。未来,希尔贝壳将与数据标注基地及产业链伙伴深入合作,持续深耕训练数据领域,以高质量数据为基石,助力数据标注产业发展。
2024-10-25 15:30:49
239
原创 希尔贝壳与西湖大学音频信息与信号处理实验室联合发布的论文被国际顶级会议 NeurIPS 2024 录用
神经信息处理系统大会(Conference on Neural Information Processing Systems,NeurIPS)是中国计算机学会(CCF)推荐的人工智能领域 A 类学术会议,其 H5 指数高达 337,在 Google Scholar 的 AI 类出版物中排名第一,与 ICML 和 ICLR 并称为机器学习领域难度最高、影响力最大的“三大会议”。使用估计得到的直达路径滤波器对播放的语音源信号进行滤波,进而得到直达路径信号,方便语音增强网络的训练。联合发布的论文成功入选。
2024-10-18 10:14:35
672
原创 微软Office全家桶再爆办公革命,o1模型加持重塑十亿人工作流!1句话生成PPT+自定义智能体
颠覆全球十亿打工人的Office办公全家桶,昨夜迎来重磅升级!在微软Copilot第二弹发布会上,CEO纳德拉官宣,「用AI构思,共同协作的全新工作流——Web+Work+Pages正式开启」。全程半小时,每一幕都在透露着,一种革命性划时代的办公方式全然来临。整场发布会中,共有三大精彩亮点:1 Copilot Pages:一个界面,把上网搜索+内容策划+团队写作,全部搞定了。用微软的话来说,这是Copilot聊天中动态、持久的「画布」。
2024-09-19 17:44:26
1058
原创 o1方法性能无上限!姚班马腾宇等数学证明:推理token够多,就能解决任意问题
本论文一共有四名作者,全部都是华人。按署名顺序,第一位作者为清华姚班校友李志远,是斯坦福博士、马腾宇的博士后,现为芝加哥丰田技术学院(TTIC)的助理教授。第二位作者是Hong Liu,也是马腾宇的博士生,现在在读,本科就读于清华,曾获得特等奖学金及优秀毕业生荣誉。第三位是Google Brain推理团队创建者Denny Zhou,中科院博士,2017年加入Google前在微软担任了11年的高级研究员。最后是2021年斯隆奖得主、斯坦福大学助理教授马腾宇,他是姚班校友、陈丹琦的同班同学。
2024-09-19 17:32:08
911
原创 iPhone 16全系上车最强3nm芯片!首款AI原生手机,按键竟成最大亮点
欢迎来到全新时代!带着首款完全为Apple智能而来的,库克宣告了苹果的新篇章。为了AI,这次甚至最便宜的iPhone 16也能用上最新芯片了。A18,第二代3nm芯片A18,具备16核神经网络引擎、机器学习能力翻番。发布会上也是各种大晒AI功能。机器学习这个关键词被cue了无数次。不过到了网友这里,大家讨论度最高的,居然还是配色?粉青蓝黑白被嘲为“垃圾袋配色”。尤其是粉色,被评为“回村的诱惑”。之所以搞成这种尴尬局面,或许还是因为iPhone 16延续了此前两年的风格。变了,但没完全变。
2024-09-13 10:55:23
1278
原创 逼真到被打假!OpenAI投的机器人身穿衣服做家务,被怀疑人类套壳拍视频
微软和OpenAI投资的人形机器人公司,又上新了!来自挪威的机器人公司1X Technologies,发布了全新一代家务机器人NEO的原型。不同于那些只有机械骨骼的钢铁巨兽,NEO穿上了人类一样的衣服,看上去更像人了。NEO专为居家场景而打造,手部拥有20个自由度,可以完成一系列的泡咖啡操作。另外也主打超静音,只需要一个起身的动作,就能让NEO帮忙拿起地上的背包并递到手中。有不少网友都认为,这一定是衣服里面有个真人在模仿机器人活动(手动狗头)。
2024-09-02 16:49:01
982
原创 OpenAI破产危机解除!最新估值冲上$1000亿,奥特曼又拉来一批投资输血
OpenAI估值,超!这一数字完全碾压同行,达到了Anthropic估值(150亿)的6倍、马斯克xAI(240亿)的4倍。最新消息,OpenAI正在就新一轮融资进行谈判。老股东兴盛资本(Thrive Captial)可能领投10亿美元,最大股东也有望参与此轮融资(但没看到OpenAI首位投资人Vinod Khosla的身影)。由此,OpenAI的估值将超过此前的860亿美元,甚至超过1000亿美元。这也是从2023年1月微软投了100亿后,OpenAI最大一笔外部融资。
2024-08-30 10:51:11
552
原创 震撼!AI实时生成游戏,每秒20帧输出,DeepMind扩散模型最新突破一夜爆火
比Sora还震撼”,AI可以实时生成游戏了!谷歌DeepMind打造出了首个完全AI驱动的实时游戏引擎——。在单个谷歌TPU上,它以模拟起了经典射击类游戏DOOM(毁灭战士)。所有游戏画面都是根据玩家操作,与复杂环境进行交互,。也就是说你走进一道门之前,门后的内容还不存在。质量不输事先存储的那种,能“以假乱真”,人类评估者都难以察觉。各种操作都能丝滑转换:GameNGen的背后是大家熟悉的。。网友们看到这项研究一时间炸开了锅,推特、Reddit上相关帖子热度持续不减,谁发谁火。
2024-08-30 10:43:16
705
原创 统一 transformer 与 diffusion !Meta 融合新方法剑指下一代多模态王者
最后将 Transfusion 方法扩展到 70 亿参数和 2 万亿多模态 token,能够生成与相似规模的扩散模型和语言模型相媲美的图像和文本,从而获得两个领域的优势。研究者一直试图将语言模型与扩散模型结合,一种方法是直接扩展语言模型,使其能够利用扩散模型作为一个工具,或者将一个预训练的扩散模型嫁接到语言模型上。另一种替代方案是对连续模态进行量化处理,然后在离散的 token 上训练一个标准的语言模型,这种方法虽然简化了模型架构,但也会造成信息的丢失。(2)U-Net 的 up 和 down 块。
2024-08-27 17:23:24
634
原创 IEEE T-ASLP | 利用ASR预训练的Conformer模型通过迁移学习和知识蒸馏进行说话人验证
近期,昆山杜克大学在语音旗舰期刊 IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP)上发表了一篇题为“Leveraging ASR Pretrained Conformers for Speaker Verification Through Transfer Learning and Knowledge Distillation”的论文。
2024-08-23 11:24:18
1357
原创 论文合集下载丨第十九届全国人机语音通讯学术会议
全国人机语音通讯学术会议作为语音技术领域内的专家、学者及科研精英汇聚的盛会,自1990年首次开创至今已成功举办十八届,现仍持续扮演着推动该领域最新研究成果交流、促进研究与发展工作不断迈上新台阶的关键角色,每一届都见证了语音技术领域的蓬勃发展与持续进步。本次大会围绕语音科学、语音技术、音频处理、对话和口语等主题,吸引了广大学界专家、产业工程师和青年学子参与论文投稿和交流,投稿论文数量超过200篇,参会人数突破400人,稿件数量和参会人数与上届持平。语音之家公众号后台回复“”,获取本次大会论文集。
2024-08-22 16:39:34
513
原创 阿里发布开源语音交互大模型 Qwen2-Audio
Qwen2-Audio 是一个大型的音频语言模型系列,它能够接受音频信号输入,进行音频分析或直接文本响应,支持语音聊天和音频分析两种交互模式,并且提供了预训练模型Qwen2-Audio-7B和聊天模型Qwen2-Audio-7B-Instruct的版本。具体来说,通义千问团队使用 Qwen 语言模型和音频编码器这两个基础模型,接着依次进行多任务预训练以实现音频与语言的对齐,以及 SFT 和 DPO 来掌握下游任务的能力并捕捉人类的偏好。可以直接使用Record,录下自己的音频,然后点Submit就可以了。
2024-08-15 13:23:50
767
1
原创 语音克隆达到人类水平,微软全新VALL-E 2模型让DeepFake堪比配音员
本文第一作者陈三元是哈尔滨工业大学和微软亚洲研究院的联合培养博士,他从2020年开始担任MSRA自然语言计算组的实习研究员,研究兴趣主要是用于语音和音频处理的预训练语言模型。
2024-08-09 15:42:32
1032
原创 浅谈Llama3.1,从结构、训练过程、影响到数据合成
Llama3.1系列模型的开源,真让大模型格局大震,指标上堪比最好的闭源模型比如GPT 4o和Claude3.5,让开源追赶闭源成为现实。这里给大家分享一篇俊林兄(@知乎张俊林)的一篇解读,主要对LLaMA3.1的模型结构、训练过程进行分享,并对其带来的影响、小模型要如何做、合成数据等方面谈点看法。LLaMa3的模型结构如上图所示,这基本已经形成目前Dense LLM模型的标准结构了,绝大多数LLM模型结构都与此非常接近。
2024-08-02 15:45:28
940
原创 AKOOL助力戛纳广告大奖,发布革命性实时数字人平台
此外,系统采用4K超高清分辨率,旨在呈现高质量的画面和精细的动作细节,进一步提升数字人的真实感和沉浸式体验。,不管是常见问题解答、产品推荐、还是简单故障排除,数字人都可以轻松应对,并能提供全天候、个性化客户支持,为人工客服减负,提高商家服务效率。在现有技术基础上,他们推出了一套数字人系统,不仅可以捕捉人脸的细微表情,还能实时展现流畅动作,生成数字人的娱乐性与互动性可与真人媲美。视频中,我们看到了姆巴佩、吉鲁、格里兹曼......,实际上,所有在球场上奔跑的运动员都不是真人,而是人工智能生成的虚拟角色。
2024-07-18 15:48:59
994
原创 6700万参数比肩万亿巨兽GPT-4!微软MIT等联手破解Transformer推理密码
在所有评估设置中,公理化训练模型TS2(NoPE)的性能明显优于随机基线,即使因果链的长度超过其训练数据。特别是,模型没有在完全反转的链上进行训练,它的表现也与规模更大的GPT-4模型相当(图 2)。在其他任务中,它的准确性往往优于或与Gemini Pro、Phi-3等十亿参数规模的模型相当。这些结果表明,经过公理训练的模型可以从简单因果序列的演示中,学会推理更复杂的因果结构。这表明公理训练在因果图推理方面的潜力。
2024-07-15 14:28:14
938
原创 6种语言超过10万小时语音生成数据集Emilia
🤔🤔 先听听基于Emilia数据集训练的语音合成TTS模型的生成效果,跟同样量级数据集训练的CosyVoice的生成效果对比,感受一下。再看看Emilia 10万小时数据集训练的TTS系统跟SeedTTS、ChatTTS等开源和商业系统/模型的客观指标对比(其中测试数据来自SeedTTS官方测试集)。目前该数据集是CC-BY-NC。相较于MLS、Libri-Light等有声书数据集,Emilia数据集在声学特征和语义覆盖方面更为丰富,如下图所示。数据预处理框架,学术界也能众筹数据了,也能玩大模型了!
2024-07-12 15:20:23
1943
原创 中文读唇总动员:CNVSRC 2024 中文连续视觉语音识别挑战赛 Leaderboard 开放
当前,唇语识别的研究方兴未艾,虽然在独立词、短语等识别上取得了长足进展,但在大词表连续识别方面仍面临巨大挑战。为此,清华大学在2023年发布了 CN-CVS 数据集[1],成为首个大规模的中文视觉语音识别数据库,为进一步推动大词表连续视觉语音识别 (LVCVSR) 提供了可能。在提交结果的同时,参赛队伍需以论文形式提交系统技术报告。本次赛事以 CN-CVS 中文视觉语音识别数据库为基础数据,评估在录音室朗读 (Reading) 和网络演讲 (Speech) 两类场景下的 LVCVSR 系统的性能。
2024-07-03 15:23:42
1024
原创 开源发布Whistle: 基于弱音素监督推进数据高效多语言和跨语言语音识别
论文地址:https://arxiv.org/abs/2406.02166开源代码及模型:https://github.com/thu-spmi/CAT/blob/master/egs/cv-lang10/readme.md摘 要Whistle和Whisper一样,均采用弱监督方式训练ASR基座模型。不同于Whisper采用基于子词(subword based)弱监督,Whistle采用基于音素(phoneme based)弱监督。子词是语言文本的记录符号,而音素则是记录了语
2024-07-03 15:16:31
1272
原创 全球首个开源类Sora猛升级,16秒720p画质电影感拉满!代码权重全开源
就在刚刚,潞晨Open-Sora团队在720p高清文生视频质量和生成时长上实现了突破性进展!如今,全新升级的Open-Sora不仅支持无缝产出任意风格的高质量短片,而且更令人惊喜的是,团队选择再给开源社区带来亿点点震撼——继续全部开源。通过他们的模型权重,能够生成各种酷炫的短片,比如海浪和海螺的亲密接触,还有那些深不可测的森林秘境。人物肖像的渲染也相当逼真。不管是中国古典美女,还是欧美风的人物,能够保持一致的风格。还能精准渲染赛博朋克风,让短片瞬间充满强烈的未来感和科技感。
2024-06-20 11:24:03
1078
原创 【论文速递】IEEE T-ASLP|基于统一跨模态注意力机制的鲁棒音视频语音识别
本论文中,我们提出了基于统一跨模态注意力机制的音视频多模态语音识别系统,借助视觉模态中的唇部动作信息提升嘈杂环境下的语音识别性能。在文中,我们还提出了音视频同步性感知训练的策略,既显著缓解了音画不同步对系统性能的负面影响,也能直接用作音视频偏移量的预测任务。此外,我们设计的启发式的模态间注意力对齐方案能够显著降低多模态交互的计算复杂度,并带来进一步的性能增幅。
2024-06-20 11:02:18
1124
原创 快手「可灵」爆火:海外AI圈巨震,中国版Sora一号难求
现在,我们用可灵生成的是 5 秒的单镜头片段,伴随着技术的不断演进,用户单次能够生成的视频时长也会增加。依托快手在视频技术领域的多年积累,可灵大模型团队已经构建了完备的标签体系,包括从视频基础质量、美学、自然度等多个维度对视频数据质量进行刻画,并针对每一个维度设计多种定制化的标签特征,以此来精细化筛选训练数据或调整训练数据的分布。为了满足训练文生视频模型过程中成对的视频和文本描述需求,可灵大模型团队自研了视频描述模型,可以生成精确、详尽、结构化的视频描述,显著提升视频生成模型的文本指令响应能力。
2024-06-13 17:58:25
1703
1
考虑到部分同学配置环境可能会遇到一些问题,我们在AutoDL平台准备了SpatialLM的环境镜像,点击下方链接并直接创建Autodl示例即可
2025-03-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人