自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(351)
  • 问答 (44)
  • 收藏
  • 关注

原创 WeNet语音识别实战

音之家-AI工匠学堂推出《WeNet语音识别实战》, WeNet是目前工业界最流行的开源端到端语音识别系统之一,也是学习端到端语音识别的最佳实践项目。语音识别的学习者和从业者,可以通过学习这门课程高效全面的掌握WeNet的基本原理和实战方法,降低自己摸索的成本,快速构建出高性能的语音识别系统。...

2022-06-21 15:06:58 6806 4

原创 老黄携GB300震撼登场!DeepSeek推理暴涨40倍加速全球最快,26年Rubin问世

这次,老黄的金句直接升级为「买得越多,赚得越多」。老黄展示这张图中,x轴代表了生成的token,y轴代表着每秒token吞吐效率,理想情况下,图中黄色曲线应该是一个方形,即在工厂能力极限之内,非常快速生成token。但老黄认为,技术进步太快,工作负载又重,像AI工厂这样的大型项目,最好投资在最新版本的技术上,比如Blackwell,这样才能跟上潮流,避免落后。相比之下,新的Blackwell架构比Hopper强多了,尤其在能耗固定的情况下,性能提升了25倍,甚至在推理模型上直接比Hopper高40倍。

2025-03-28 11:52:22 697

原创 新算法实现混响环境中多说话人语音分离

通过调整A组麦克风数量(5/7/10个)发现,当A组为7个、B组固定17个时,以第一个说话人为例,其短时客观可懂度(STOI)从处理前的37.35%提升至92.16%,信干比(SIR)从1.40dB跃升至25.37dB,信畸比(SDR)达到9.49dB。在实际办公室环境(2.94×4.4×3.04米,混响时间410ms)的验证中,使用15个麦克风(A组5个,B组10个)对2个说话人与2个噪声源进行分离。个噪声源,Q个麦克风被划分为两组(A组和B组),其接收信号可表示为传递函数矩阵与声源信号的线性组合。

2025-03-28 11:32:20 510

原创 开源超越GPT-4o!中国团队造出“SQL翻译官”,250万数据炼成真功夫

未来,有望扩展至多语言、多数据库引擎场景,在自然语言交互式数据分析中发挥更大作用,推动大数据和人工智能技术发展应用。从自然语言问题到SQL查询的推理步骤,让用户明白模型如何得出结果,提高模型可解释性与用户信任度,也方便研究人员优化模型。训练时,模型学习问题到SQL的转换,也学习每步推理逻辑,提高推理准确性与可靠性,向用户展示透明推理过程,增强信任。在Spider、BIRD等9个权威文本转SQL基准测试中,OmniSQL成绩优异,,不依赖外部SQL修正模块,减少系统复杂性与维护成本,提升运行效率与稳定性。

2025-03-18 15:13:44 865

原创 LIFT:将长上下文知识注入模型参数,提升大模型长文本能力

为了在模型原有能力和微调后新的参数内知识之间找到平衡,我们提出了一种专门的参数高效微调模块——门控记忆适配器(Gated Memory Adapter),它能平衡原始模型的 In-Context Learning(ICL)能力和 LIFT 训练后对长输入的记忆理解能力。针对每一篇需要处理的长文本,LIFT 通过分段的 language modeling 以及精心设计的辅助任务来微调模型,实现用模型参数来记忆和理解长文本,从而避免过长的 context 造成的推理复杂度提升和长程依赖丢失。

2025-03-18 15:06:51 508

原创 DeepSeek一口气开源3个项目,训练速度,GPU利用,优化经验

DeepSeek 的开源周已经进行到了第四天。今天这家公司一口气发布了两个工具和一个数据集:DualPipe、EPLB 以及来自训练和推理框架的分析数据。来源丨新智元、机器之心、赛博禅心DeepSe此次本次开源的三个项目:DualPipe:一种用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法;EPLB:一个针对V3/R1的专家并行负载均衡工具;深入分析V3/R1模型中的计算与通信重叠机制。

2025-02-28 11:13:19 533

原创 【直播预告】Xmart•学生论坛丨袁锐斌:Scaling Foundation Models for Music

音乐是跨越人类文明的通用语言,与创造力、文化和情感深度融合。本次演讲将分享我们在构建开源音乐基础模型过程中的探索历程。我们秉持"AGI不仅应理解与创作音乐,也应从音乐学习中受益"的愿景,系统性地推进音乐智能研究。首先介绍业界广泛应用的MERT——基于音频模态的音乐理解模型。随后展示如何将符号音乐理解与生成能力融入LLaMA框架,实现自然语言与符号表征的统一建模(ChatMusician)。

2025-02-28 11:11:03 633

原创 OpenAI开源SWELancer,大模型冲击100万年薪

具体来讲,SWE-Lancer 包括了独立工程任务(从 50 美元的 bug 修复到 32,000 美元的功能实现)和管理任务,其中模型选择各种技术实施方案。目前,测试模型代码能力的基准主要有SWE-Bench和SWE-BenchVerified,但这两个有一个很大的局限性,主要针对孤立任务,很难反映现实中软件工程师的复杂情况。对于 OpenAI 开源的这个基准测试,有人认为很棒,并表示随着软件工程中 AI 能力的扩展,拥有标准化的评估方法非常重要,但应该是独立的。任务是全栈式的,而且很复杂。

2025-02-21 11:16:55 962

原创 人工智能语音合成公司ElevenLabs获1.8亿美元C轮融资,估值33亿美元

此轮融资由Andreessen Horowitz和ICONIQ Growth联合领投,其他投资者包括NEA、World Innovation Lab、Valor、Endeavor Catalyst Fund、Lunate、Sequoia Capital、Salesforce Ventures、Smash Capital、SV Angel、NFDG和BroadLight Capital。近日,据海外媒体报道,人工智能语音合成公司ElevenLabs宣布已完成1.8亿美元的C轮融资,其估值也达到了33亿美元。

2025-02-13 13:49:19 433

原创 小红书最新开源语音识别模型FireRedASR,中文效果新SOTA

值得一提的是,在需要歌词识别能力的场景中,FireRedASR-LLM 也表现出极强的适配能力,CER 实现了 50.2%~66.7% 的相对降低,这一成果进一步拓宽了 FireRedASR 的应用范围,使其不仅能胜任传统语音识别需求,还能在创新性的多媒体场景中大放异彩。FireRedASR-AED(右下):基于经典的 Attention-based Encoder-Decoder 架构,FireRedASR-AED 通过扩展参数至 1.1B,成功平衡了 ASR 语音识别的高准确率与推理效率。

2025-02-13 13:30:59 968

原创 AI教父辛顿力挺马斯克,明确反对 OpenAI 的营利化转型。

让我们回到2015年,当时的OpenAI是以非营利研究机构的身份诞生的。2024年2月,马斯克发起诉讼,要求北加州联邦法院阻止OpenAI改变其结构,他认为非营利组织不能违背其最初的使命,这些使命得到了包括他在内的捐赠者的支持。Encode认为,OpenAI目前所采用的非营利控制结构提供了必要的治理护栏,如果将控制权移交给营利性实体,这些护栏将被剥夺。作为AI领域的传奇人物,杰弗里·辛顿教授不仅是2024年诺贝尔物理学奖得主,更被誉为"人工智能教父",他深知技术快速发展的背后,风险同样在加速。

2025-01-09 16:04:29 302

原创 ICASSP2025丨上交大跨媒体语言智能实验室12篇录用论文分享

自动音频描述(AAC)的目标是为输入的音频信号生成自然的文本描述。近年来,音频预训练模型和大语言模型(LLMs)的发展显著提升了音频理解和文本推理能力,为AAC的改进带来了可能性。在本文中,我们提出了SLAM-AAC,通过引入重述增强和CLAP-Refine策略进一步提升AAC性能。我们使用音频自监督模型EAT提取细粒度音频表征,并通过轻量级的线性层将其与文本嵌入对齐。生成音频描述的LLM通过LoRA适配器实现高效微调。借鉴机器翻译中的回译方法,我们在预训练阶段实施了重述增强策略,以扩展Clotho数据集。

2025-01-09 15:49:55 1614

原创 AI首次自主发现人工生命!人类窥见上帝造物

Sakana AI联合MIT、OpenAI等机构提出了全新算法,自动搜索人工生命再达新的里程碑!不需要繁琐手工设计,只通过描述,AI就能发现全新的人造生命体了。就在刚刚,由Transformer八子创立的Sakana AI,联合来自MIT、OpenAI、瑞士AI实验室IDSIA等机构的研究人员,提出了「自动搜索人工生命」的新算法!言归正传,ALife,即「人工生命」,是一门跨学科研究,旨在通过模拟生命的行为、特性和演化过程来理解生命的本质,通常结合了计算科学、生物学、复杂系统科学以及物理学等领域。

2024-12-26 13:46:06 778

原创 CultureLLM 与 CulturePark:增强大语言模型对多元文化的理解

本文介绍团队刚刚在加拿大温哥华召开的顶会NeurIPS 2024上发表的两篇系列工作:CultureLLM 和CulturePark。此项研究以生成文化数据并训练文化专有模型为主要手段,旨在提升已有基础模型的多文化理解能力,使得其在认知、偏见、价值观、在线教育等不同场景下的文化理解任务上均得到提升。

2024-12-26 13:28:45 1221

原创 隔墙有耳:非视距声学成像算法介绍

具体而言,从发射阵列发出chrip信号,并通过麦克风阵列测量返回的波形,并通过分析多次反射的声音效应来解决拐角成像的问题。共焦测量是指发射和接收位置相同或非常接近的情况,可以通过直接捕捉从物体表面反射回来的信号,来重建物体的形状。这表明,通过信号的傅里叶变换,我们能够通过分析信号的延迟来推断反射器的位置和物体的几何形状。由于非共焦测量的数据具有额外的传播时间延迟,需要对时间维度进行重采样,以将这些额外的传播时间调整回共焦测量对应的时间。这是通过对时间数据进行适当的调整和插值,消除由偏移带来的额外时间差异。

2024-12-20 10:37:38 796

原创 市场规模超 60 亿美元,语音如何改变对话式 AI?

本篇报告的作者 Lightspeed 投资了 Character.ai(AI 角色对话)、Cartesia(语音 AI 模型)、Volley(语音 AI 游戏) 、Yellow.ai(语音 AI 客服)等语音 AI 公司。不同于此前分享的侧重企业应用场景分析,Lightspeed 此篇报告更关注语音 AI 底层技术模型的演进趋势。语音技术的演变:语音技术从 1970 年代的「交互式语音应答」(IVR)系统发展到现代智能语音电话树,再到如今的 LLM 系统,用户体验不断提升。

2024-12-20 10:35:56 612

原创 通义实验室开源 ClearerVoice-Studio语音处理框架

随着语音技术的普及,语音质量已成为人们关注的焦点。环境噪声、混响、设备拾音等问题,常常使语音质量和可懂度大打折扣。无论是录制清晰语音却因周围环境嘈杂充满噪声,还是在地铁、餐厅等喧闹场景中与人通话时不得不提高嗓音,这些场景都体现了语音处理技术的迫切需求。特别是在复杂的多人对话环境中,如何,避免其他干扰,一直是语音处理领域的难点和热点。,一个集成等功能的语音处理框架。通过融合复数域深度学习算法,我们大幅提升了语音降噪和分离的性能,能够最大限度地消除背景噪声并保留语音清晰度,同时保持语音失真最小化。

2024-12-12 14:25:01 950

原创 空间智能版ImageNet来了!李飞飞吴佳俊团队出品

要求模型对视频中的关键事件、主要交互等进行概括性描述,例如总结出脖子上挂了个相机的人在超市中有什么关键交互行为。

2024-11-12 14:12:58 910

原创 OpenAI华人VP翁荔离职:北大校友,掌管安全,最近B站分享被热议

就在刚刚,那个掌管OpenAI安全的北大校友,OpenAI研究副总裁(安全),离职了。翁荔是OpenAI华人科学家、ChatGPT的贡献者之一。北大毕业后,翁荔在2018年加入OpenAI,后来在GPT-4项目中主要参与预训练、强化学习和对齐、模型安全等方面的工作。。而就在前不久,她还刚刚现身,发表了的主题演讲。

2024-11-11 17:01:58 682

原创 技术沙龙预告丨揭秘新一代大规模声音克隆TTS模型MaskGCT

MaskGCT 是一个两阶段模型:在第一阶段,模型使用文本预测从语音自监督学习(SSL)模型中提取的语义标记;通过对 10 万小时的自然语音进行实验,结果表明 MaskGCT 在质量、相似度和可理解性方面优于当前最先进的零样本 TTS 系统。非自回归系统在训练过程中需要显式的文本与语音对齐信息,并预测语言单元(如音素)的持续时间,这可能会影响其自然度。该模型在包含 10 万小时多语言数据的 Emilia 数据集上进行训练,展现出超自然的语音克隆、风格迁移以及跨语言生成能力,同时保持了较强的稳定性。

2024-11-06 14:55:04 683

原创 微软清华改进Transformer:用降噪耳机原理升级注意力,一作在线答疑

Transformer自问世后就大放异彩,但有个小毛病一直没解决:总爱把注意力放在不相关的内容上,也就是信噪比低。微软亚研院、清华团队提出全新改进版 Differential Transformer,专治这个老毛病,引起热议。

2024-11-06 11:09:35 639

原创 刚刚,ChatGPT变身AI搜索免费用!OpenAI颠覆谷歌,搜索变天了

ChatGPT搜索重磅登场!在过去几周,他表示,自己玩的爱不释手,让使用量直接翻一番,甚至再也回不到过去了。ChatGPT会为你制定出一份完美的规划,从整条路线起始点,沿途驻足的网红打卡点,到交通工具选择、旺季时间,再到酒店预定等一系列必备问题,都会为你贴心地考虑到。不过,即使启用AI搜索,会话中的每个查询也不一定会用到Grounding,以后这会导致额外的成本和延迟。技术层面,搜索模型是GPT-4o的微调版本,通过创新的合成数据生成技术进行二次训练,包括从OpenAI o1-preview中蒸馏的输出。

2024-11-01 14:03:44 983

原创 开放下载丨超自然对话语音合成数据集NCSSD

🔎 超236小时自然对话语音数据,包括搜集自互联网的电视剧集片段(搜集子集),以及人工录制的对话内容(录制子集)。🌏 支持两种语言:中文(Zh)和英语(En)📣 丰富的对话场景,涵盖多种对话主题和内容,丰富的说话人(776人以上)。🏆 基于NCSSD训练的GPT-Talker性能优秀,可以为agent合成自然且具有表现力的对话语音。NCSSD 数据集统计GPT-Talker模型结构图NCSSD数据集构建过程。

2024-11-01 11:36:28 695

原创 语音语言模型最新综述! 关于GPT-4o背后技术的尝试

SpeechLMs作为一种新兴的语音交互技术,展现出了巨大的潜力。它不仅能够克服传统ASR+LLM+TTS方案的局限性,还能实现更自然、更丰富的人机语音交互。随着研究的深入,我们有理由相信SpeechLMs将在未来的AI语音交互中扮演越来越重要的角色。

2024-10-25 15:13:36 1437

原创 中科大&科大讯飞开源OpenMusic:音乐生成更高质量,更有乐感

为了解决这些挑战,今天和大家分享一种全新的高质量音乐生成范式,该范式结合了质量感知训练策略,使生成模型能够在训练过程中辨别输入音乐波形的质量。创新性地将masked扩散Transformer引入到音乐信号中,展示了其在建模音乐潜在空间上的独特效果,以及其在质量控制感知方面的卓越能力,从而进一步提升了生成音乐的质量和音乐性。文本对齐度低,大多数的音频处于少标签,弱标签,错标签。提出了一种质量感知训练范式,使模型在训练过程中能够感知数据集的质量,从而在音乐性(美学角度)和音频质量方面实现卓越的音乐生成效果。

2024-10-16 17:55:04 831

原创 诺贝尔物理学奖为啥颁给AI?谈谈人工智能的历史变迁及对人类社会的影响

直到2012年,Geoffrey Hinton带着他的学生Alex在李飞飞构建的ImageNet图像大数据上,用提出的Alex网络将识别性能比前一届一次性提高将近10个百分点,这才让大部分的人工智能学者真正转向深度学习,因为以之前每届用统计机器学习方法较上一届提升性能的速度估计,这次的提高需要用20多年时间。尽管从神经生理学角度来看,这个网络的记忆能对应于原型说,每个神经元可以看成是一个具有某个固定记忆的离散吸引子(Discrete Attractor),但它的记忆是有限的,且不具备良好的几何或拓扑结构。

2024-10-10 14:46:45 888

原创 刚刚,2024年诺贝尔物理学奖揭晓,John J. Hopfield、Geoffrey E. Hinton 获奖 !

分别是1903年的Marie Curie,1963年的Maria Goeppert-Mayer,2018年的Donna Strickland、2020年的Andrea Ghez及2023年的Anne L’Huillier。2019年——美国科学家James Peebles获奖,获奖理由是“在物理宇宙学的理论发现”;2022年——Alain Aspect,John Clauser及Anton Zeilinger获奖,以表彰他们在“用纠缠光子进行实验,建立了贝尔不等式的违反,开创了量子信息科学的先机”的贡献。

2024-10-09 11:36:31 354

原创 保守派中间派原生派,谁将主导搜索引擎未来三十年?

传统搜索引擎倾向于 CTR 导向( Click Through Rate ,点击率),这直接关系到广告收入,所以,返回内容往往倾向点击率高的网页(很多时候是一些 UGC 网站,比如论坛、知识问答网站,或者「内容农场站」和「 AI 内容站」),而不是最准确的答案。AI 搜索会让搜索引擎从信息检索工具,进化成帮助用户完成知识探索的「知识引擎」,并最终,凭借不可逆的历史趋势,取代传统搜索引擎,成为用户检索信息、获取知识的首选。最重要的,几乎每句话都会注明出处,就像学术论文务必注明引文来源,引注数量也颇为可观。

2024-09-19 17:21:09 704

原创 刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限

大模型领域的技术发展,今天起再次「从 1 开始」了。大语言模型还能向上突破,OpenAI 再次证明了自己的实力。北京时间 9 月 13 日午夜,OpenAI 正式公开一系列全新 AI 大模型,旨在专门解决难题。这是一个重大突破,新模型可以实现复杂推理,一个通用模型解决比此前的科学、代码和数学模型能做到的更难的问题。OpenAI 称,今天在 ChatGPT 和大模型 API 中新发布的是该系列中的第一款模型,而且还只是预览版 ——o1-preview。

2024-09-19 17:09:35 835

原创 OpenAI「草莓」两周内发布?网传不是多模态,反应慢了10多秒

很多LLM的弱点就在推理能力上,而有些初创公司为了提高它们的推理能力,就采用了一种廉价的技巧,将问题分解为更小的步骤,尽管这些方法速度慢且成本高昂。另外,在FLOPs一致的评估中,对于那些较小的基础模型已取得一定程度非平凡成功率的问题,测试时计算可以使其超越规模大14倍的模型。草莓可能会有低价位和高价位的两档,前者会有速率限制,并且限制用户每小时的最大消息数量;另外,在去年Q*的前期准备中,OpenAI研究人员开发了一种被称为「测试时计算」的概念变体,目的是提升LLM的问题解决能力。

2024-09-13 11:04:47 489

原创 执教10年46枚美国IMO金牌!对话前总教练罗博深:不看好AI教育,不建议AI辅助学数学

相较于常规的数学课,LIVE 的教学风格更像是一种即兴表演,注重交流讨论、实时反馈,再加上游戏直播间般专业的灯光布置,以及线上的各种视觉特效,使得数学教育更像是充满趣味的社交媒体直播,而非枯燥无趣的传统线上课堂。解答竞赛数学题目,需要孩子切实学会调动自身的积极性,不断去尝试,运用不同的知识,从不同的角度和思路与问题进行碰撞,而竞赛成绩,或许是最微不足道的附加值。因为在他眼中,数学竞赛绝不是升学途中的点缀,除了能让孩子接触到更复杂、更有趣的数学题目,更为重要的是在解题过程中培养孩子思考和解决问题的胆量。

2024-09-02 17:02:48 1100

原创 爆火毒舌AI每小时赚2.8万!每分钟36个新用户,火遍全球只因改了一句提示词

(约2.8万元)说的就是病毒式传播的“毒舌AI”,只需输入一个推特用户名,就能得到AI根据历史发言做的犀利点评。而且只要是公开账号就行,并不需要获取任何权限,。比如马斯克是肯定逃不过这一劫的。首先AI会总结出几个能代表这个人的表情符号:火箭(SpaceX)、电池(特斯拉)、大脑(Neuralink)、金钱、地球、机器人……AI看来是真的懂老马。下面就开始一顿输出了,马斯克数次推迟赛博皮卡的黑历史、自负的性格都没有放过。

2024-08-22 15:59:42 669

原创 Llama 8B搜索100次超越GPT-4o!推理+搜索即可提升性能,新「Scaling Law」诞生?

最近的论文表明,LLM等生成模型可以通过搜索来扩展,并实现非常显著的性能提升。另一个复现实验也发现,让参数量仅8B的Llama 3.1模型搜索100次,即可在Python代码生成任务上达到GPT-4o同等水平。来源丨新智元强化学习先驱、加拿大阿尔伯塔大学CS系教授Rich Sutton曾在2019年写下一篇名为《The Bitter Lesson》的博文,成为AI领域的经典论述之一。甚至,Rich Sutton在字里行间体现出的直觉已经颇有Scaling Law的意味。

2024-08-19 16:13:24 693

原创 谷歌版Her抢跑!一键召唤Gemini,全球52亿终端被颠覆

均有14%的性能差异。CPU方面,G4配备了1个运行在3.1GHz的Cortex-X4核心、3个运行在2.6GHz的Cortex-A720核心,以及4个运行在 1.95GHz 的 Cortex-A520核心。比如,假设我们正在为出国旅行做攻略,刚看完一个旅游视频博客,点击「询问此视频」,让它列出视频中出现的所有餐馆、添加到谷歌地图中,Gemini就会一一照做。在一口气发布的Pixel 9系列手机中,谷歌也探索了「AI+手机」的新样态:Gemini、安卓、Pixel的融合,会孵化出怎样的端侧AI产品形态。

2024-08-15 15:26:32 842

原创 非Transformer架构站起来了!首个纯无注意力大模型,超越开源巨头Llama 3.1

例如,在 Arc、TruthfulQA 和 GSM8K 基准测试中,Falcon Mamba 7B 的得分分别为 62.03%,53.42% 和 52.54%,超过了 Llama 3 8 B, Llama 3.1 8B, Gemma 7B 和 Mistral 7B。具体而言,Falcon Mamba 7B 经过了 AdamW 优化器、WSD(预热 - 稳定 - 衰减)学习率计划的训练, 并且在前 50 GT 的训练过程中,batch 大小从 b_min=128 增加到了 b_max=2048。

2024-08-15 13:38:52 616

原创 比OpenAI的Whisper快50%,最新开源语音模型

这意味着在生成新序列时,模型每次只能预测下一个token,然后将这个预测的token加入到序列中,再基于更新后的序列预测下一个token。这种并行的数据处理方式不仅加快了模型的推理效率,还增加了模型的表达能力,因为每个注意力头都可以专注于序列的不同子集,捕捉到更丰富的上下文信息。此外,由于每次只能处理一个 token ,模型难以捕捉到数据中的长程依赖关系,可能会忽略一些重要的全局信息,从而影响模型的整体性能和准确性。,然后将各自的输出通过拼接的方式组合起来,形成一个多维度的向量。

2024-08-09 14:57:11 708

原创 秘密打造「AI陶哲轩」 震惊数学圈!谷歌IMO梦之队首曝光,菲尔兹奖得主深度点评

谷歌DeepMind正在做的,是要打造出世界上最强的AI数学家。Perplexity AI的CEO对此做出了大胆预测——DeepMind继续研究下去的话,应该可以搞出一个「AI陶哲轩」了!这个预测可谓相当大胆。要知道,陶哲轩在IMO竞赛圈,乃至整个数学界,都是传奇般的存在。「天才出少年」、「数学界莫扎特」,各种溢美之词放到他身上都不为过,毕竟人家首次参加IMO竞赛时只有10岁,是迄今为止最年轻的参赛者。10岁铜牌、11岁银牌、12岁金牌,一路高歌猛进,他又成为了IMO史

2024-08-02 15:58:44 945

原创 通过语音预测自杀风险:多模态大语言模型的新进展

本研究通过采集参与者在任务设置下自发产生的语音数据,利用多模态大数据模型融合文本和音频信息,为精准预测自杀风险开辟了新的可能性。

2024-07-23 14:44:31 1215

原创 混元单日调用tokens达千亿后,腾讯大模型战略露出全貌

对大模型行业玩家的评判标准也不再只看技术。战略布局、落地进展、未来判断……成为了更被重视的维度。无论“杨植麟们”还是大厂高管,公开探讨大模型的频率越来越高,包括一直低调的腾讯。前脚,腾讯云与智慧产业事业群CEO汤道生万字采访释出,回应“关于腾讯大模型的一切”;后脚,在万众瞩目的WAIC上,腾讯云副总裁、腾讯云智能、腾讯优图实验室负责人吴运声带来大模型产品最新进展。

2024-07-18 17:17:33 1098

原创 一口气投出4家具身智能明星创企,联想创投王光熙:中国应是机器人最大用户国/生产国

国内To B方面,用户付费意愿比较低,厂商之间内卷也比较严重。To C方面更是如此,其刚需性来自于机器人的泛化能力、场景渗透和应用服务。对于普通消费者而言,购买一个智能硬件,不仅为了购买硬件本身和软件OS能力,

2024-07-18 16:51:21 1194

空空如也

请问cmake -B build的时候报这个错,大家有遇到的吗?

2022-08-03

想着用自己电脑训模型,理论上可以吗?

2022-08-03

stage1这个报错是为什么? sudo了一下,conda,pytorch环境都已经按要求配置好了

2022-08-03

WeNetspeech数据集的采集处理脚本代码,有没有开源呢?能否用这个代码自己去采集数据?

2022-08-03

用了aishell的数据集报这种问题的原因是什么?

2022-08-03

模型测试时,使用的average model,这是什么方法,有没有参考资料。

2022-08-03

如果想要在WeNet放出来的checkpoint模型u2pp_conformer_exp上增量训练,需要怎么做?

2022-08-03

aishell example运行stage 4,遇到这个报错,请问是什么问题?

2022-08-03

单并发,用的WeNetspeech离线大模型以及libtorch1.10,rescore和search都在500ms+,,为什么这么慢呢?一般TLG有多大呀?语言模型大小会很影响速度的吧?

2022-08-02

实战1课程AIshell-1模型训练,到stage4 neural network training训练的时候报了这个runtime 的错,是什么原因?

2022-08-02

这里用conv2d做降采样的原理是什么?为什么用两个conv2d,第一次conv2d通道是从1->odim,第二次conv2d从odim->odim?第一次通道数为什么要改变?

2022-08-02

最后一个模型量化,在x86上也是有必要的吗?速度会提升多少?

2022-08-02

sort是让一个batch内的音频按顺序排列吗?

2022-08-02

conf中shuffle和sort为什么不冲突,而且注解说sort size必须小于shuffle size

2022-08-01

目前如果用WeNet,如果要使用一台服务器支持100个并发,这样需要什么要配置才能满足要求?

2022-08-01

一般这种websocket 如何做高并发,有没有好的解决方案呢

2022-08-01

我们测试websocket server 在高并发连接情况下出现连接慢的情况,这个是同时100个ws连接下出现的。这个有什么好的解决办法吗?

2022-08-01

热词输出带上 context 的标志了,是不是通过参数可以控制?还是要改下代码,去掉?

2022-08-01

这个热词文件,有行数限制么?比如:3万行,可以么?

2022-08-01

热词标记,但是最后没有实现是因为什么?

2022-08-01

web socket server,用的onnx的模型,加上热词后,score从3-10都试了下,没有起作用。onnx模型,是从非流模型导出的,会是这个原因吗?

2022-08-01

WeNet进行一些简单的优化rtf大概能到多少?

2022-08-01

为什么这里算概率一定要把这些全部加起来,为什么不能像一个一个地算,求出最大概率为声学对齐结果呢?

2022-07-22

不把16k降到8k维护一套8k的是因为16k准确率高吗?如果有存储需求16k意味着存的音频占的硬盘翻倍了,rtf也会下降吧

2022-07-22

一般外呼场景都是8k采样率的录音, 假设模型都一样 ,8k和16k不同采样率训练出的模型准确率会有差距吗?

2022-07-22

web socket server 配置了 热词的文本文件后,如果有追加或更新,需要重启服务么?还是说,自动就生效了?

2022-07-22

在流式识别中,如何解决背景噪音带来的干扰?

2022-07-22

web socket server支持语言模型吗?

2022-07-22

-context_score 这个值是什么范围?一般多少合适?

2022-07-22

web socket server 怎么启用热词?

2022-07-20

热词的文件是什么结构?

2022-07-20

CTC的尖峰效应,是不是可以理解为:目标函数约束前面的神经网络,将一个词的多帧信息,集中到了'尖峰'这一帧?

2022-07-20

WeNet 转 onnx 的时候要拆成几个模型导出,可以合并为一个吗?

2022-07-19

目前WeNet的时间戳方案不太准确(一是静音的判断不准确,二是字与字的时间戳是连着的,无论中间静音有多大),请问有什么方案可以提高时间戳的准确度吗?

2022-07-19

WeNet有什么独特的地方吗?比如流识别方面?

2022-07-19

当前最新的比较好的算法好像也就是 conformer了,还有比这更好的吗,如果找不到更好的算法,应该从哪些方面来优化预训练模型呢?

2022-07-19

端到端模型对于领域文本优化有什么方案可以在实际应用中使用的?

2022-07-19

如果想充分理解一个预训练模型的算法,比如aishell预训练模型,应该从哪入手?

2022-07-19

请问现在工业上用传统的技术多还是端到端的技术多啊?

2022-07-05

热词增强和热词唤醒在实现上的区别是什么?

2022-07-05

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除