希尔贝壳AISHELL-优快云博客

原创 AISHELL-2 中文语音数据库

AISHELL-1 is by far the largest open-source speech corpus available for Mandarin speech recognition research. It was released with a baseline system containing solid training and testing pipelines for Mandarin ASR. In AISHELL-2, 1000 hours of cle

2022-03-09 16:41:03 7663

原创 AISHELL-5 全球首套智能驾舱中文语音交互数据集开源

AISHELL-5作为首个开源的真实车载多通道中文语音识别数据集，填补了智能驾舱语音交互研究领域的数据空白。该数据集包含893.7小时真实车内录音（含706小时对话和187小时噪声），采集自165名说话人在60多个车载场景下的多方位麦克风信号。由希尔贝壳联合理想汽车等机构发布的该项研究入选INTERSPEECH2025会议，配套开源基线系统展示了主流ASR模型在复杂驾舱环境中的性能挑战。数据集下载及论文详见相关链接。作为国家级高新技术企业，希尔贝壳凭借专业的数据工程能力，持续推动人工智能技术的产业化

2025-06-10 16:29:44 1033

原创首个多模态统一CoT奖励模型来了，模型、数据集、训练脚本全开源

UnifiedReward-Think 展示了奖励模型的未来方向 —— 不仅仅是一个 “打分器”，而是一个具备认知理解、逻辑推理与可解释输出能力的智能评估系统。目前，该项目已全面开源：包括模型、数据集、训练脚本与评测工具，欢迎社区研究者探索、复现与应用。

2025-05-29 17:08:04 883

原创从“无差别降噪”到“精准语音保留”：非因果优化技术为助听设备和耳机降噪注入新活力

第二种场景更复杂些，目标语音还是从 0° 方向来，但是周围有五个不同方向的噪声源，分别在 45°、90°、135°、255°、330°。该研究为开放式可听设备的降噪技术开辟了新路径，其提出的非因果优化框架有望推动智能声学设备在医疗（助听器）、消费电子（降噪耳机）、通信（语音增强）等领域的应用革新。针对开放式设备的声学特性优化，在保留环境感知能力的同时提升复杂场景下的语音清晰度，为助听器、智能耳机等设备的实用化提供技术支撑。，通过建模声源的反向时间响应，更准确地描述声波传播路径，从而优化控制滤波器的设计。

2025-05-29 16:44:11 592

原创 SpeechColab排行榜：一个开源的语音识别评测平台

我们报告了一项全面的基准测试，揭示了当前ASR系统的最新技术全景，涵盖多个开源模型与商业服务；我们量化了评分流程中不同细微差异对最终基准结果的影响，包括大写、标点、感叹词、缩略形式、同义词使用、复合词等问题，这些因素在端到端ASR系统转型背景下显得尤为重要；受Kolmogorov复杂度和归一化信息距离（NID）的启发，我们提出并讨论了对传统字/词Token错误率（TER）指标的改进型修正——mTER，该改进指标具有归一化特性，且在参考文本与识别文本之间保持对称性。

2025-05-09 11:09:24 914

原创 200B参数击败满血DeepSeek-R1，字节豆包推理模型Seed-Thinking-v1.5要来了

通过人类对 Seed-Thinking-v1.5 与 DeepSeek-R1 输出结果的比较评估，结果发现，Seed-Thinking-v1.5 获得的用户积极反馈总体高出 8.0%，凸显了其在复杂用户场景处理能力方面的能力。然后，它会估算各种配置的性能和内存使用情况，以获得最佳配置。从技术架构看，Seed-Thinking-v1.5 采用了混合专家模型（Mixture-of-Experts，MoE）设计，总参数量为 200B，实际激活参数仅为 20B，相比同等性能的其他最先进推理模型，规模相对紧凑高效。

2025-04-25 11:43:38 1314

原创 IEEE T-ASLP | 基于特定人跟踪的在线说话人日志研究

近期，昆山杜克大学在语音旗舰期刊IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP) 上发表了一篇题为“Online Neural Speaker Diarization with Target Speaker Tracking”的论文。论文探索了利用特定人声纹提取和语音活动检测来进行在线说话人日志任务。

2025-03-28 11:22:58 1249

原创杭州六小龙最新开源「空间理解模型」，保姆级教程来了！

点云编码器将点云信息编码为紧凑的特征表示，随后由大语言模型（LLM）生成描述场景的场景代码（scene codes），这些场景代码可以被进一步转换为三维结构布局。SpatialLM 是一款专门为三维空间理解设计的大语言模型，通过三维点云数据，生成结构化的三维场景理解输出，包括墙壁、门、窗等建筑元素，以及带有语义类别的定向物体边界框。点云数据（Point Cloud）是一种由大量空间点组成的数据集合，每个点记录了其在三维空间中的位置坐标，通常还包含颜色或反射强度信息，可用于精确描述三维物体或场景的空间结构。

2025-03-28 11:17:39 625

原创 NAACL 2025丨上交大跨媒体语言智能实验室5篇论文分享

大语言模型（LLMs）和人工智能生成内容（AIGC）的快速发展加速了AI原生应用的出现，例如基于AI的故事书，它们能够自动生成吸引儿童的故事内容。这些挑战源于GUI环境的动态性和结构化特性，包括文本、图像及空间关系的融合，以及不同页面和任务间操作空间的变动性。朱梓臣，汤浩，李妍思，刘丁烨，许洪深，兰焜耀，张丹阳，姜懿轩，周浩，王辰润，张思拓，孙良泰，王熠笑，孙羽恒，陈露，俞凯。徐薛楠，梅嘉豪，李晨亮，吴宇宁，严明，赖少鹏，张霁，张佶，吴梦玥。罗嘉鸣，罗未一，孙国庆，祝梦辰，唐海峰，吴梦玥，朱其立。

2025-03-18 15:35:14 1191

原创全球首个混合推理模型：Claude 3.7 Sonnet来袭，最强编程大脑暴击DeepSeek R1

具体而言，通过调用等同于256个独立样本的计算资源，结合训练优化的评分模型，并设置最大64,000个Token的推理限额，Claude 3.7 Sonnet在GPQA测试中达到了84.8%的总体得分（其中物理学部分高达96.5%）。仅仅这两条提示之后，就出现了一个功能齐全的交互式体验，甚至还配有粗糙但迷人的像素图像（这些图像实际上令人惊讶地印象深刻——AI必须使用纯代码「绘制」这些图像，而无法看到它正在创建的内容，就像一个被蒙住眼睛的艺术家。这种统一的方法为用户提供了更流畅的体验。

2025-02-28 11:07:03 1485

原创中国首个自研空间智能AI登场！单张图即生3D世界

这样，不仅视频内容非常符合用户意图，还能拓展在虚拟环境、交互式应用和沉浸式体验中的应用场景，可以用在3D游戏场景中快速可控建模，以及在具身智能中快速搭建模拟场景。而用户在场景中运动时，3D场景生成大模型就会不断对场景缺失区域进行几何和纹理的补全，因此用户无论在任何位置、任何角度，都能看到合理、一致的场景。从生成的视频中不难看出，Matrix-Zero自由探索的范围任意大，任意广。我们还需要做的是，在大模型训练过程中，还需要将3D世界的几何和物理规则系统植入，从而让AI拥有对这个世界的推理、理解、生成能力。

2025-02-21 11:21:01 1096

原创加快建设人工智能高质量数据集

面向重点场景，打造数据技术“测试场”，提供真实数据环境、模拟应用场景，建设中试基地，吸引企业、高校和科研机构参与数据技术的创新和验证，加速新技术推广和应用。面向医疗、教育、科研、法律、工业、农业、物流、金融、能源、交通等重点领域建设大数据中心及大模型行业应用创新（工程）中心，打破信息孤岛，构建完备数据生态，构建高质量数据集，提升垂直领域人工智能模型能力。面向新一代人工智能技术开发和应用发展需求，完善数据资源构建体系，培育数据产业，支持数据技术发展，系统推进高质量数据集建设，强化行业应用。

2025-02-13 14:13:22 664

原创 4000字！深度解析 DeepSeek 的蒸馏技术

在机器学习中，模型蒸馏是一种优化技术，通过模仿教师模型的输出，训练一个较小的学生模型，从而实现知识的传递。教师模型通常具有较高的性能，但计算成本高昂，而学生模型则更加轻量级，推理速度更快，且内存占用更少。

2025-02-13 14:09:39 1113

原创喜报！希尔贝壳在2024年“数据要素×”大赛全国总决赛获奖！

希尔贝壳技术团队均来自人工智能、大模型、数据科学领域，在音视频高质量数据集的建设已经达到了国际领先水平，部分数据集已成为产学研的标准。拥有行业领先的数据工程技术，针对人工智能大模型所必须的高质量数据提供精准的数据集、数据采集、标注、清洗、合成等方案。希尔贝壳在模型评测、AI辅助标注、AI数据工程、数据处理平台、高质量数据集等建立了领先的核心技术体系。荣获优秀奖是对我们数据产品、开源项目的肯定，也鼓励希尔贝壳不断突破，取得新成绩，努力将希尔贝壳打造成全球最具影响力的AI大数据服务商。

2025-01-08 11:44:45 441

原创国家发展改革委、国家数据局、教育部、财政部、金融监管总局、中国证监会印发《关于促进数据产业高质量发展的指导意见》

近日，国家发展改革委、国家数据局、教育部、财政部、金融监管总局、中国证监会等六部门联合印发《关于促进数据产业高质量发展的指导意见》（下称《意见》）。《意见》从加强数据产业规划布局、培育多元经营主体、加快数据技术创新、提高数据资源开发利用水平、发展数据流通交易、强化基础设施支撑、提高数据领域动态安全保障能力、优化产业发展环境等八个方面部署了系列政策举措。

2025-01-08 11:42:45 1608

原创英伟达年终核弹！全新B300为o1推理大模型打造，RTX5090也曝光了

梦晨西风发自凹非寺量子位 | 公众号 QbitAI英伟达老黄，成了今年的圣诞老黄。AI芯片大礼包刚刚曝光：GPU新核弹，以及附带CPU的超级芯片。，在产品层面上相比B200在FLOPS上提高50%，从192GB提升到288GB，也是提高了50%。包含72块GB300的“新一代计算单元，更是被评价为“能让OpenAI o1/o3推理大模型的思维链长度，在高batch size下达到10万tokens的唯一方案”。‍这与今年3月份“AI春晚”发布的B200系列。

2024-12-26 13:51:07 1048

原创 OpenAI被曝自研人形机器人，4年前因缺数据解散团队，如今要用机器人数据反哺大模型了

梦晨发自凹非寺量子位 | 公众号 QbitAI这次像Figure、1x和Physical Intelligence这样的机器人初创公司，也团队搞机器人强化学习。，研发有双臂、双腿的实体人形机器人。Information的消息称，两位直接了解这个项目的人透露了这个消息。甚至人事上也能看出这种迹象，11月挖来了。他宣布自己的新角色正是：将人工智能带入物理世界。

2024-12-26 10:33:21 553

原创北交开源o1代码版！强化学习+蒙特卡洛树搜索，源代码、精选数据集以及衍生模型通通开源

北京交通大学研究团队悄默声推出了一版o1，而且所有源代码、精选数据集以及衍生模型都开源！名为O1-CODER，专注于编码任务。论文链接：https://arxiv.org/pdf/2412.00154团队认为编码是一个需要System-2思维方式的典型任务，涉及谨慎、逻辑、一步步的问题解决过程。而他们的策略是将强化学习（RL）与蒙特卡洛树搜索（MCTS）相结合，让模型能够不断生成推理数据，提升其System-2能力。实验中，团队有以下几点关键发现：当推理正确时，基于伪

2024-12-20 10:47:27 963

原创上交大与上海人工智能研究所联合推出医学多语言模型，模型数据代码开源

今天为大家介绍的是来自上海交通大学的王延峰与谢伟迪团队的一篇论文。开源的多语言医学语言模型的发展可以惠及来自不同地区、语言多样化的广泛受众。来源丨 DrugAI、机器人的脑电波。

2024-11-14 17:52:04 1222

原创大模型重构生命科学！最大基础模型面世，解锁DNA超长序列，参数规模达2100亿

生命科学领域，！今年，化学诺贝尔奖授予了AlphaFold，AI+Science受到空前的关注。人们惊叹于，仅仅是一个蛋白质结构预测模型，就能释放出如此巨大的行业潜力。就在当下，在第三届中国生物计算大会上，全球规模最大的生命科学基础模型横空出世——，参数规模高达2100亿，覆盖蛋白质、DNA、RNA、细胞等七大主流模态。背后玩家正是来自李彦宏孵化创办的。与应用于其他行业的基础模型有所不同，他们解码的是生命语言，而非自然语言，意味着不仅能处理复杂的生物序列，为药物研发、精准医疗等领域助力；

2024-11-08 15:46:08 682

原创 UCLA、MIT数学家推翻39年经典数学猜想！AI证明卡在99.99%，人类最终证伪

6月，剑桥大学的Lawrence Hollom在另一种语境下，证伪了上下铺问题的一个版本。这个猜想的表述并非针对图，而是研究称为超图（hypergraph）的数学对象。在超图中，边的定义不再局限于连接一对顶点，而是可以连接任意数量的顶点。Hollom找到了这个版本猜想的一个反例。他创建了一个小型超图，每条边都连接三个顶点：Gladkov发现这篇论文后意识到，这正是他们三人所需要的！他从晚上一直读到凌晨3点，并在睡觉前给Zimin发了短信。第二天，两个人便通了电话。

2024-11-06 17:04:39 862

原创苹果地表最强AI PC诞生，M4 Max猛兽加持性能暴涨！顶配6万，续航飙至24小时

此外，M4系列的GPU硬件中，光线追踪引擎的速度获得了提升，《Control》等游戏将呈现出更逼真的画面效果，专业3D渲染器也能以更高效率输出高品质视觉画面。在GPU方面，M4 Pro比M2 Pro提速1.5倍，比M1 Pro提速1.9倍。对于在AI、视频、程序开发等领域处理大型文件的专业用户来说，M4 Pro不仅提供了卓越的性能表现，还继承了苹果芯片一贯的高能效设计优势。它可以说是笔记本芯片的最强范本，不仅继承了苹果在芯片设计上的优势，并且在性能方面进行了史诗级加强，成为专业用户和高性能需求者的首选。

2024-11-01 15:35:51 1677

原创 o1驾驶无人机后空翻，OpenAI开发者日惊掉下巴！2分钟爆改代码写App

另外一个用RealTimeAPI构建太阳系导航应用程序，利用o1实时语音能力介绍星系。从太阳系中最大的木星，到地球，再到火星深入介绍，o1全部都能娓娓道来。OpenAI研究员表示，这一功能教会了自己：在教女儿新知识时如何成为有趣的父母。奥特曼QA环节，自曝最敬佩Cursor没有Sam Altamn的开发者日，就不算是完整的。在整场演讲结束后，最后一个环节，就是Altamn QA问答了。在线上，奥特曼抛出了一个深刻的思考：人们总是倾向于用历史上的技术革命来类比当前的AI革命。

2024-11-01 14:53:28 844

原创希尔贝壳受邀参加首届“数据标注产业大会暨供需对接会”

作为全球领先的AI大数据服务商，将持续在人工智能大模型的数据供给提供资源和服务拓展，不断拓展数据资源服务能力，并提供有效的技术和安全保障，为大模型提供高质量数据服务，为数字经济的繁荣和发展注入动力。作为国内人工智能数据领域的代表企业之一，希尔贝壳与大同市数据局签署建设数据标注基地试点重点任务意向合作协议，发挥希尔贝壳技术创新、生态构建以及高质量数据集产品优势，助力数据标注基地建设。未来，希尔贝壳将与数据标注基地及产业链伙伴深入合作，持续深耕训练数据领域，以高质量数据为基石，助力数据标注产业发展。

2024-10-25 15:30:49 276

原创希尔贝壳与西湖大学音频信息与信号处理实验室联合发布的论文被国际顶级会议 NeurIPS 2024 录用

神经信息处理系统大会（Conference on Neural Information Processing Systems，NeurIPS）是中国计算机学会（CCF）推荐的人工智能领域 A 类学术会议，其 H5 指数高达 337，在 Google Scholar 的 AI 类出版物中排名第一，与 ICML 和 ICLR 并称为机器学习领域难度最高、影响力最大的“三大会议”。使用估计得到的直达路径滤波器对播放的语音源信号进行滤波，进而得到直达路径信号，方便语音增强网络的训练。联合发布的论文成功入选。

2024-10-18 10:14:35 813

原创微软Office全家桶再爆办公革命，o1模型加持重塑十亿人工作流！1句话生成PPT+自定义智能体

颠覆全球十亿打工人的Office办公全家桶，昨夜迎来重磅升级！在微软Copilot第二弹发布会上，CEO纳德拉官宣，「用AI构思，共同协作的全新工作流——Web+Work+Pages正式开启」。全程半小时，每一幕都在透露着，一种革命性划时代的办公方式全然来临。整场发布会中，共有三大精彩亮点：1 Copilot Pages：一个界面，把上网搜索+内容策划+团队写作，全部搞定了。用微软的话来说，这是Copilot聊天中动态、持久的「画布」。

2024-09-19 17:44:26 1374

原创 o1方法性能无上限！姚班马腾宇等数学证明：推理token够多，就能解决任意问题

本论文一共有四名作者，全部都是华人。按署名顺序，第一位作者为清华姚班校友李志远，是斯坦福博士、马腾宇的博士后，现为芝加哥丰田技术学院（TTIC）的助理教授。第二位作者是Hong Liu，也是马腾宇的博士生，现在在读，本科就读于清华，曾获得特等奖学金及优秀毕业生荣誉。第三位是Google Brain推理团队创建者Denny Zhou，中科院博士，2017年加入Google前在微软担任了11年的高级研究员。最后是2021年斯隆奖得主、斯坦福大学助理教授马腾宇，他是姚班校友、陈丹琦的同班同学。

2024-09-19 17:32:08 961

原创 iPhone 16全系上车最强3nm芯片！首款AI原生手机，按键竟成最大亮点

欢迎来到全新时代！带着首款完全为Apple智能而来的，库克宣告了苹果的新篇章。为了AI，这次甚至最便宜的iPhone 16也能用上最新芯片了。A18，第二代3nm芯片A18，具备16核神经网络引擎、机器学习能力翻番。发布会上也是各种大晒AI功能。机器学习这个关键词被cue了无数次。不过到了网友这里，大家讨论度最高的，居然还是配色？粉青蓝黑白被嘲为“垃圾袋配色”。尤其是粉色，被评为“回村的诱惑”。之所以搞成这种尴尬局面，或许还是因为iPhone 16延续了此前两年的风格。变了，但没完全变。

2024-09-13 10:55:23 2211

原创逼真到被打假！OpenAI投的机器人身穿衣服做家务，被怀疑人类套壳拍视频

微软和OpenAI投资的人形机器人公司，又上新了！来自挪威的机器人公司1X Technologies，发布了全新一代家务机器人NEO的原型。不同于那些只有机械骨骼的钢铁巨兽，NEO穿上了人类一样的衣服，看上去更像人了。NEO专为居家场景而打造，手部拥有20个自由度，可以完成一系列的泡咖啡操作。另外也主打超静音，只需要一个起身的动作，就能让NEO帮忙拿起地上的背包并递到手中。有不少网友都认为，这一定是衣服里面有个真人在模仿机器人活动（手动狗头）。

2024-09-02 16:49:01 1506

原创 OpenAI破产危机解除！最新估值冲上$1000亿，奥特曼又拉来一批投资输血

OpenAI估值，超！这一数字完全碾压同行，达到了Anthropic估值（150亿）的6倍、马斯克xAI（240亿）的4倍。最新消息，OpenAI正在就新一轮融资进行谈判。老股东兴盛资本（Thrive Captial）可能领投10亿美元，最大股东也有望参与此轮融资（但没看到OpenAI首位投资人Vinod Khosla的身影）。由此，OpenAI的估值将超过此前的860亿美元，甚至超过1000亿美元。这也是从2023年1月微软投了100亿后，OpenAI最大一笔外部融资。

2024-08-30 10:51:11 651

原创震撼！AI实时生成游戏，每秒20帧输出，DeepMind扩散模型最新突破一夜爆火

比Sora还震撼”，AI可以实时生成游戏了！谷歌DeepMind打造出了首个完全AI驱动的实时游戏引擎——。在单个谷歌TPU上，它以模拟起了经典射击类游戏DOOM（毁灭战士）。所有游戏画面都是根据玩家操作，与复杂环境进行交互，。也就是说你走进一道门之前，门后的内容还不存在。质量不输事先存储的那种，能“以假乱真”，人类评估者都难以察觉。各种操作都能丝滑转换：GameNGen的背后是大家熟悉的。。网友们看到这项研究一时间炸开了锅，推特、Reddit上相关帖子热度持续不减，谁发谁火。

2024-08-30 10:43:16 843

原创统一 transformer 与 diffusion ！Meta 融合新方法剑指下一代多模态王者

最后将 Transfusion 方法扩展到 70 亿参数和 2 万亿多模态 token，能够生成与相似规模的扩散模型和语言模型相媲美的图像和文本，从而获得两个领域的优势。研究者一直试图将语言模型与扩散模型结合，一种方法是直接扩展语言模型，使其能够利用扩散模型作为一个工具，或者将一个预训练的扩散模型嫁接到语言模型上。另一种替代方案是对连续模态进行量化处理，然后在离散的 token 上训练一个标准的语言模型，这种方法虽然简化了模型架构，但也会造成信息的丢失。（2）U-Net 的 up 和 down 块。

2024-08-27 17:23:24 883

原创 IEEE T-ASLP | 利用ASR预训练的Conformer模型通过迁移学习和知识蒸馏进行说话人验证

近期，昆山杜克大学在语音旗舰期刊 IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP)上发表了一篇题为“Leveraging ASR Pretrained Conformers for Speaker Verification Through Transfer Learning and Knowledge Distillation”的论文。

2024-08-23 11:24:18 1748

原创论文合集下载丨第十九届全国人机语音通讯学术会议

全国人机语音通讯学术会议作为语音技术领域内的专家、学者及科研精英汇聚的盛会，自1990年首次开创至今已成功举办十八届，现仍持续扮演着推动该领域最新研究成果交流、促进研究与发展工作不断迈上新台阶的关键角色，每一届都见证了语音技术领域的蓬勃发展与持续进步。本次大会围绕语音科学、语音技术、音频处理、对话和口语等主题，吸引了广大学界专家、产业工程师和青年学子参与论文投稿和交流，投稿论文数量超过200篇，参会人数突破400人，稿件数量和参会人数与上届持平。语音之家公众号后台回复“”，获取本次大会论文集。

2024-08-22 16:39:34 725

原创阿里发布开源语音交互大模型 Qwen2-Audio

Qwen2-Audio 是一个大型的音频语言模型系列，它能够接受音频信号输入，进行音频分析或直接文本响应，支持语音聊天和音频分析两种交互模式，并且提供了预训练模型Qwen2-Audio-7B和聊天模型Qwen2-Audio-7B-Instruct的版本。具体来说，通义千问团队使用 Qwen 语言模型和音频编码器这两个基础模型，接着依次进行多任务预训练以实现音频与语言的对齐，以及 SFT 和 DPO 来掌握下游任务的能力并捕捉人类的偏好。可以直接使用Record，录下自己的音频，然后点Submit就可以了。

2024-08-15 13:23:50 1168 1

原创语音克隆达到人类水平，微软全新VALL-E 2模型让DeepFake堪比配音员

本文第一作者陈三元是哈尔滨工业大学和微软亚洲研究院的联合培养博士，他从2020年开始担任MSRA自然语言计算组的实习研究员，研究兴趣主要是用于语音和音频处理的预训练语言模型。

2024-08-09 15:42:32 1224

原创浅谈Llama3.1，从结构、训练过程、影响到数据合成

Llama3.1系列模型的开源，真让大模型格局大震，指标上堪比最好的闭源模型比如GPT 4o和Claude3.5，让开源追赶闭源成为现实。这里给大家分享一篇俊林兄（@知乎张俊林）的一篇解读，主要对LLaMA3.1的模型结构、训练过程进行分享，并对其带来的影响、小模型要如何做、合成数据等方面谈点看法。LLaMa3的模型结构如上图所示，这基本已经形成目前Dense LLM模型的标准结构了，绝大多数LLM模型结构都与此非常接近。

2024-08-02 15:45:28 1110

原创 AKOOL助力戛纳广告大奖，发布革命性实时数字人平台

此外，系统采用4K超高清分辨率，旨在呈现高质量的画面和精细的动作细节，进一步提升数字人的真实感和沉浸式体验。，不管是常见问题解答、产品推荐、还是简单故障排除，数字人都可以轻松应对，并能提供全天候、个性化客户支持，为人工客服减负，提高商家服务效率。在现有技术基础上，他们推出了一套数字人系统，不仅可以捕捉人脸的细微表情，还能实时展现流畅动作，生成数字人的娱乐性与互动性可与真人媲美。视频中，我们看到了姆巴佩、吉鲁、格里兹曼......，实际上，所有在球场上奔跑的运动员都不是真人，而是人工智能生成的虚拟角色。

2024-07-18 15:48:59 1098

原创 6700万参数比肩万亿巨兽GPT-4！微软MIT等联手破解Transformer推理密码

在所有评估设置中，公理化训练模型TS2（NoPE）的性能明显优于随机基线，即使因果链的长度超过其训练数据。特别是，模型没有在完全反转的链上进行训练，它的表现也与规模更大的GPT-4模型相当（图 2）。在其他任务中，它的准确性往往优于或与Gemini Pro、Phi-3等十亿参数规模的模型相当。这些结果表明，经过公理训练的模型可以从简单因果序列的演示中，学会推理更复杂的因果结构。这表明公理训练在因果图推理方面的潜力。

2024-07-15 14:28:14 1014

原创 6种语言超过10万小时语音生成数据集Emilia

🤔🤔 先听听基于Emilia数据集训练的语音合成TTS模型的生成效果，跟同样量级数据集训练的CosyVoice的生成效果对比，感受一下。再看看Emilia 10万小时数据集训练的TTS系统跟SeedTTS、ChatTTS等开源和商业系统/模型的客观指标对比（其中测试数据来自SeedTTS官方测试集）。目前该数据集是CC-BY-NC。相较于MLS、Libri-Light等有声书数据集，Emilia数据集在声学特征和语义覆盖方面更为丰富，如下图所示。数据预处理框架，学术界也能众筹数据了，也能玩大模型了！

2024-07-12 15:20:23 3058

考虑到部分同学配置环境可能会遇到一些问题，我们在AutoDL平台准备了SpatialLM的环境镜像，点击下方链接并直接创建Autodl示例即可

空空如也