
智能语音
文章平均质量分 75
希尔贝壳AISHELL
以开放数据、技术变革创新为理念,实现人工智能民主化
展开
-
强的离谱,AI 大模型杀疯了!
除了Perplexity之外,海外AI搜索初创企业如Glean、Andi等近期动作频频,国内玩家如昆仑万维、百度、阿里、360等也都陆续推出了AI搜索产品。其中,昆仑万维更是早在2023年8月就推出了国内首款AI搜索产品“天工AI搜索”,成为国内AI搜索鼻祖。原创 2024-03-13 16:07:31 · 1083 阅读 · 0 评论 -
语音情感基座模型emotion2vec
在语音技术领域,准确理解用户的语音指令和意图是构建高效人机交互系统的基础。一个高品质的语音交互系统不仅需要理解字面上的语言内容,更应捕捉到说话者语音中蕴含的情感信息。这正是语音情感识别(SER)技术要解决的问题:通过分析语音的声调、节奏、强度等副语言学信息,来判断说话者的情感状态,从而实现对人类意图的更真实和自然的理解。原创 2024-03-12 15:56:12 · 3201 阅读 · 0 评论 -
chatGPT的耳朵!OpenAI的开源语音识别AI:Whisper !
Whisper是由研发出ChatGPT的OpenAI的研究团队开发的,OpenAI的研究成果也经常引起广泛的关注和讨论,比如GPT系列的预训练语言模型、DALL-E的图像生成模型、CLIP的图像分类模型等等。原创 2024-03-07 14:00:04 · 2105 阅读 · 0 评论 -
DreamTalk:单张图像即可生成逼真人物说话头像动画,助力AI数字人落地
DreamTalk是一个基于扩散的音频驱动的富有表现力的说话头生成框架,可以生成不同说话风格的高质量的说话头视频。DreamTalk对各种输入表现出强大的性能,包括歌曲、多语言语音、噪声音频和域外肖像。原创 2024-03-04 16:27:53 · 1547 阅读 · 0 评论 -
52.2k star! 自己部署gpt4free, 免费使用各种GPT
GPT4Free是一个由开发者Xtekky在GitHub上发布的开源项目,它可以免费地使用GPT-3.5、GPT-4、llama、gemini-pro、bard、claude等多种大模型。截止到当前(2024.1.30)已经有52.2k star,可见其受欢迎程度。原创 2024-02-29 14:33:35 · 8289 阅读 · 2 评论 -
被年轻人置顶的国产大模型有多好玩?
岁末年终,AI给我带来了更大的惊喜:网友们在抖音、小红书分享了阿里巴巴「通义千问」大模型的最新玩法,让我发现生成式AI不只是打工人减负神器,更是让年轻人与故乡家人“紧密连接”的粒子对撞机。原创 2024-02-28 15:41:02 · 904 阅读 · 0 评论 -
Apple的这篇人工智能论文提出了声学模型融合,用以大幅降低语音识别系统中的单词错误率
Apple人工智能论文在提高自动语音识别 (ASR) 系统的准确性和效率方面取得了重大改进。最近的研究深入探讨将外部声学模型 (AM) 集成到端到端 (E2E) ASR 系统中,提出了一种解决域不匹配这一持续挑战的方法,这是语音识别技术中的常见障碍。原创 2024-02-22 15:26:20 · 845 阅读 · 0 评论 -
南洋理工大学NTU-生成式有源噪声控制GFANC
最近南洋理工大学DSP实验在TASLP,SPL,ICASSP上发表了生成式固定滤波器主动噪声控制(Deep Generative Fixed-filter Active Noise Control, GFANC) 的相关文章。原创 2024-02-21 16:00:38 · 1168 阅读 · 0 评论 -
AI语音合成工具-Lalamu Studio
近期,Lalamu Studio开启了beta版本测试:Lalamu Studio。该工具整合了TTS和lip sync功能,可以让任意视频中的人物开口说话,并精确模拟口型。原创 2024-02-02 11:24:15 · 905 阅读 · 0 评论 -
语音革命:打造您的个人AI助手,悄悄分享我的开源语音识别全攻略!
在本文中,将详细讲解如何在.Net环境下实现这一功能,并且分享开源项目,让更多的开发者可以学习并应用到自己的项目中去。原创 2024-01-23 15:18:42 · 555 阅读 · 0 评论 -
AI语音合成工具-Lalamu Studio
近期,Lalamu Studio开启了beta版本测试:Lalamu Studio。该工具整合了TTS和lip sync功能,可以让任意视频中的人物开口说话,并精确模拟口型。原创 2024-01-19 14:35:37 · 1033 阅读 · 0 评论 -
ICASSP 2024|字节跳动丢包补偿(冠军)与音质修复(亚军)国际挑战赛解决方案
在本届ICASSP 2024 各类音频国际挑战赛中,字节跳动流媒体音频团队联合西北工业大学音频语音与语言处理研究实验室,在丢包补偿(Packet Loss Concealment, PLC)与音质修复(Speech Signal Improvement, SSI)两个挑战赛道中,多项指标上表现优秀,分别取得第一和第二的优异成绩,达到国际领先水平。原创 2024-01-12 14:33:48 · 1455 阅读 · 0 评论 -
如何防止人工智能窃取你的声音
人工智能的进步使得听起来真实的语音合成成为可能,以至于一个人无法再区分自己是在与另一个人交谈还是与一个合成的声音交谈。如果一个人自己的声音在未经其同意的情况下被第三方“克隆”,恶意行为者就可以利用它来发送他们想要的任何消息。原创 2024-01-11 15:47:34 · 575 阅读 · 0 评论 -
ICASSP 2024丨上海交通大学跨媒体语言智能实验室14篇入选论文分享
此外,我们设计了一个BiRGAT模型来编码本体条目的层次结构,其骨干是一个双重关系图注意网络。杨亦凡,沈飞宇,杜晨鹏,马子阳,俞凯,Daniel Povey,陈谐。马子阳,吴雯,郑之胜,郭奕玮,陈谦,张仕良,陈谐。许洪深,曹瑞升,朱苏,蒋胜,张晗翀,陈露,俞凯。徐薛楠,徐晓航,谢泽宇,张平越,吴梦玥,俞凯。谢泽宇,李柏涵,徐薛楠,吴梦玥,俞凯。郭奕玮,杜晨鹏,马子阳,陈谐,俞凯。沈飞宇,郭奕玮,杜晨鹏,陈谐,俞凯。刘涛,杜晨鹏,樊帅,陈飞龙,俞凯。李俊杰,郭奕玮,陈谐,俞凯。刘森,郭奕玮,陈谐,俞凯。原创 2024-01-09 17:23:04 · 3289 阅读 · 0 评论 -
技术干货 | 加速语音识别模型推理的新方法——基于 CTC blank 控制的动态编码网络
网易云商关于“加速 CTC 语音识别模型推理”的论文被 ASRU2023 录用,ASR 是专注于探讨语音技术热点难点问题的国际顶级语音会议,本文将基于网易云商的实践经验,探究该论文解决的业务中的关键问题。原创 2024-01-09 16:14:25 · 1164 阅读 · 0 评论 -
小冰正式发布克隆人:已经有人拿它年入100万了!
2024开年,小冰再次归来,宣布将一系列测试产品转为正式发布!值得一提的是,小冰克隆人测试期间,部分大V网红年收入已破百万。原创 2024-01-08 14:54:47 · 1092 阅读 · 0 评论 -
Ambiq推出语音增强人工智能以消除物联网应用中的噪声
超低功耗半导体解决方案供应商Ambiq®推出了其最新产品——神经网络语音增强器 (NNSE),并已将该方案加入到neuralSPOT的(开源模型)Model Zoo中。这一高度优化过的AI模型可以高效实时地将背景噪声从设备对话中去除,从而在嘈杂的环境中实现清晰的语音捕获。与所有Ambiq Model Zoo组件一样,NNSE包含脚本和工具,可帮助开发人员向其应用程序添加语音去噪功能。原创 2024-01-05 14:38:47 · 640 阅读 · 0 评论 -
LauraTTS:达摩院开源,对标VALL-E
testsetWERInsDelSub3.01155120083.53VALL-E16.14142148113768.17LauraTTS4.56447827878.20Highlights适用于英文语音合成,具备 zero-shot 说话人自适应能力,也可以作为普通的语音合成器,可用于多种语音合成场景。较高的语音合成质量具备 zero-shot 说话人自适应能力可以用于多种场景,例如音色转换(Voice conversion)项目介绍。原创 2024-01-03 11:50:33 · 843 阅读 · 0 评论 -
智能语音信息处理团队EMNLP 2023入选论文解析
2023年12月6日至10日,自然语言处理领域顶会EMNLP 2023在新加坡举行。语音及语言信息处理国家工程研究中心智能语音信息处理团队共3篇论文被会议主会及Findings接收,论文方向涵盖多方对话、大语言模型应用、小说理解等,各接收论文解读见后文。原创 2024-01-02 17:49:53 · 1332 阅读 · 0 评论 -
OpenAI TTS:手把手教学如何使用OpenAI Text-to-Speech API
文本到语音(TTS)是一种辅助技术,用于将以文本格式提供的自然语言转换为语音。具体来说,文本到语音系统会取用计算机(或其他数字设备)上写的文字,并将文本大声朗读出来。原创 2023-12-25 15:24:29 · 5139 阅读 · 0 评论 -
AAAI 2024 | 清华大学人机语音交互实验室的3篇录用论文分享
分享3篇清华大学人机语音交互实验室(THUHCSI) 在AAAI 2024上被录用的论文,本次被录用的3篇论文涉及基于大语言模型(LLM)的语音情感描述生成、基于强化学习(RL)的多样化舞蹈动作生成、基于节点相似度的图神经网络标定等多个研究领域。论文工作紧扣产学研,合作伙伴包括腾讯AI Lab、香港中文大学等。原创 2023-12-22 14:16:41 · 626 阅读 · 0 评论 -
大模型混战时代,互联网企业怎么办?
随着“百模大战”的号角响起,大模型的混战走到后半场。在寻求更多智能与商业化的路上,行业过滤分层会更为剧烈,泥沙俱下,只有手握硬核实力和资源的企业才会活下去。原创 2023-12-21 15:21:02 · 197 阅读 · 0 评论 -
实验室关于表现力语音合成自动风格控制和篇章情感分析的工作荣获最佳论文
近日,实验室在表现力语音合成的自动风格控制和篇章情感分析上连续取得研究进展。原创 2023-12-20 14:36:07 · 199 阅读 · 0 评论 -
VoiceFixer 2:用于语音恢复的工具包
VoiceFixer 是一款通用语音修复工具,使用 AI 消除背景噪音、修复降级语音、增强旧录音的音频质量、提高音频分辨率等等,全部功能都在一个模型中!原创 2023-12-19 15:46:39 · 456 阅读 · 0 评论 -
Opus编解码器中音乐检测的奥秘
Opus是一个有损音频压缩的数字音频编码格式,由Xiph.Org基金会开发,之后由互联网工程任务组(IETF)进行标准化,目标是希望用单一格式包含声音和语音,取代Speex和Vorbis,且适用于网络上低延迟的即时声音传输,标准格式定义于RFC 6716文件。原创 2023-12-18 15:16:37 · 314 阅读 · 0 评论 -
Meta 新推出的实时语音翻译模型 Seamless
SeamlessM4T 是我们基础的一体式大规模多语言和多模式机器翻译模型,可为近 100 种语言的语音和文本提供高质量翻译。原创 2023-12-14 16:40:21 · 696 阅读 · 0 评论 -
几个跟数字人项目相关的开源大模型
目前很多大模型如雨后春笋般涌现出来,都有点心慌了。冷静下来还是需要一个个去识别哪些对自己有用。原创 2023-12-13 16:08:27 · 2329 阅读 · 0 评论 -
网易有道强力开源中英双语语音克隆
项目地址(基于PromptTTS):https://github.com/netease-youdao/EmotiVoice尝试EmotiVoice最简单的方法是运行docker镜像。你需要一台带有NVidia GPU的机器。先按照Linux和Windows WSL2平台的说明安装NVidia容器工具包。然后可以直接运行EmotiVoice镜像:docker run -dp 127.0.0.1:8501:8501 syq163/emoti-voice:latest现在打开浏览器,导航到 http://原创 2023-12-12 15:10:39 · 552 阅读 · 0 评论 -
中文读唇总动员:CNVSRC 2023 研讨会圆满落幕
12月9日晚,NCMMSC-CNVSRC 2023 学术研讨会在苏州召开的第十八届全国人机语音通讯学术会议(NCMMSC 2023)举办,会上公布了本次视觉语音识别竞赛 CNVSRC 2023 的最终结果,并举行颁奖仪式。原创 2023-12-11 17:16:27 · 151 阅读 · 0 评论 -
仅需30秒完美复刻任何人的声音 - 最强AI音频11Labs
ElevenLabs,简称11Labs。仅需30秒到5分钟左右的极少的数据集,就可以直接克隆任何一个人的声音,完美复刻他的说话方式、他的音色,甚至连他的情绪都复刻过来。原创 2023-12-08 14:13:55 · 1641 阅读 · 0 评论 -
基于原始波形的端到端阿尔茨海默症检测方法
本文提出一种基于原始波形的端到端阿尔茨海默症检测方法。该方法使用一维卷积从原始波形中提取时间维度特征,并使用含有膨胀卷积的残差块提取更复杂的特征。为进一步提高性能,在残差块中引入挤压-激励模块。原创 2023-12-06 14:30:08 · 177 阅读 · 0 评论 -
跨语种「AI同传」颠覆语音翻译!Meta谷歌连发重大突破
https://share-shalong.oss-cn-hangzhou.aliyuncs.com/yinpin/61/Conversational%20Translation%203.mp3原创 2023-12-05 15:59:12 · 439 阅读 · 0 评论 -
文字转语音、语音转文字! AI视频生成神器!
分享一波文字转语音、语音转文字!AI视频生成神器!让外国人说中文,口型自然,不限语言,感兴趣的同学可以试试~原创 2023-12-04 14:23:30 · 935 阅读 · 0 评论 -
巨擘OpenMMLab将开源综合音频生成项目:Amphion
项目地址:https://github.com/open-mmlab/Amphion。原创 2023-12-01 11:14:44 · 526 阅读 · 0 评论 -
颠覆性语音识别:单词级时间戳和说话人分离
作为一个数据管理系统,CKAN 提供了强大的平台来编目、存储和访问各种数据集,并具有丰富的前端界面、完整的 API (用于数据和目录)、可视化工具等功能。主要功能包括使用最新的 Vue3、Vite、Element-Plus、TypeScript 等技术进行开发。Vue Vben Admin 是一个免费开源的中后台模板,使用最新的 vue3、vite4 和 TypeScript 等主流技术进行开发。DocsGPT 是一个开源的文档助手项目,它集成了强大的 GPT 模型,可以简化在项目文档中查找信息的过程。原创 2023-11-30 14:58:49 · 886 阅读 · 0 评论 -
开源语音大语言模型来了!阿里基于Qwen-Chat提出Qwen-Audio!
大型语言模型(LLMs)由于其良好的知识保留能力、复杂的推理和解决问题能力,在通用人工智能(AGI)领域取得了重大进展。原创 2023-11-28 15:02:45 · 2532 阅读 · 0 评论 -
epub2tts:将epub或文本文件转换成有声读物
此脚本采用 epub(或文本文件)并将其读取为 mp3 或 m4b 有声读物文件,使用 TTS(https://github.com/coqui-ai/TTS)来源丨 GitHubStore我认识到这不是很用户友好,但我想分享以防人们认为它有用。如果有比我更多的人发现这很有用,我将继续努力将其变成可供没有开发经验的人使用的东西。注意:现在支持 OpenAI TTS!它不是免费的,但我测试过的几本书的平均成本约为 7 美元。如果您使用标志,epub2tts 将提供成本估算并提示您批准后再继续。原创 2023-11-27 15:11:54 · 915 阅读 · 0 评论 -
开源语音大语言模型来了!阿里基于Qwen-Chat提出Qwen-Audio!
大型语言模型(LLMs)由于其良好的知识保留能力、复杂的推理和解决问题能力,在通用人工智能(AGI)领域取得了重大进展。然而,语言模型缺乏像人类一样感知非文本模态(如图像和音频)的能力。原创 2023-11-24 15:46:56 · 1497 阅读 · 0 评论 -
通过Whisper模型将YouTube播放列表中的视频转换成高质量文字稿的项目
这个基于 Python 的工具旨在将 YouTube 视频和播放列表转录为文本。它集成了多种技术,例如用于转录的 Fast-Whisper、用于自然语言处理的 SpaCy 以及用于 GPU 加速的 CUDA,旨在高效处理视频内容。该脚本能够处理单个视频和整个播放列表,输出准确的文字记录和元数据。原创 2023-11-23 14:36:18 · 1184 阅读 · 0 评论 -
使用 Lhotse 高效管理音频数据集
Lhotse 是一个旨在使语音和音频数据准备更具灵活性和可访问性的 Python 库,它与 k2 一起,构成了下一代 Kaldi 语音处理库的一部分。对于特征抽取的存储,Lhotse 的写入效率会随着文件大小逐渐变慢,必要的时候需要 CutSet.split 成多个 JOB 执行来提高效率。除了文本与语音信息外,Lhotse 还可以 custom 许多信息:强制对齐、duration、pitch 等,可以方便地支持多种语音任务。1. 以 Python 为中心的设计吸引更广泛的社区参与语音处理任务。原创 2023-11-22 15:50:44 · 924 阅读 · 0 评论