去年的“AI孙燕姿”活跃至今,最近生成式AI在音频方面又玩出了新花样,比如昆仑万维发布「天工Sky Music」,Open AI发布能用15秒克隆任何语音的Voice Engine,网易云面向专业音乐人内测「网易天音」,Stable Audio 2.0支持用户通过文本或音频生成3分钟的高质量音乐。
在全球风险投资的低潮期,生成式AI(GenAI)逆市而起,融资额增长了400%,但GenAI的商业化还处在探索阶段。越来越多的公司加入AI生成音频的浪潮,试图借此打通一条AI变现的新路径。
使用过生成式AI的人可能都知道,AI生成的内容不可控,甚至还有很多潜在的风险。2024年4月,全国首例“AI声音侵权案”一审宣判,被告方书面赔礼道歉,并赔偿原告各项损失25万元。为了提前规避风险,对AI生成的内容进行专业审核是非常必要的。
一、刨根究底:明知不可控,为什么还要用AI生成声音?
1. 作为一种可商业化的创作工具
以前,使用电子技术制作虚拟歌手有着广泛的市场,洛天依、初音未来及其歌曲经久不衰。通过深度学习和自然语言处理等技术,现在的AI可以生成具有更高真实感和相似度的声音。这种技术可以应用于各种领域,如语音合成、语音识别、语音克隆、音乐创作等。
AI生成音频的市场需求正在不断增加,商业化前景十分广阔。4月初,基于昆仑万维「天工3.0」超级大模型打造的「天工SkyMusic」开启免费邀测,人声“以假乱真”,能够生成80秒44100Hz采样率双声道立体声的高质量AI歌曲。网易AI音乐推出「网易天音」,主打AI作词、AI编曲和AI一键写歌,“录入灵感、AI生成出稿、手动调整、导出”即可创作一首歌曲。
2.生成有声读物,提供阅读辅助
对于儿童或者暂时没有阅读条件的人群(如视力障碍者、车辆驾驶员),“AI生成音频”可以提供个性化、定制的服务,通过将文本转换成语音、搭配自然而富有感情的声线的方式,让用户更快速地获取信息,从而提高阅读效率。此外,能为语言能力受损的患者提供治疗应用程序,或为有学习需求的患者提供教育增强功能。
例如,Age of Learning作为一家儿童教育公司,正在使用AI技术生成各种有声读物,并把AI生成声音和GPT-4结合起来,与学生进行实时、个性化的互动。