春节期间,央视新闻新媒体推出了一款交互产品《你的生活,AI为你唱作》,该款产品是央视新闻联合微软平台全新打造的H5交互产品。《你的生活,AI为你唱作》融媒体交互产品利用了三种AI技术,分别是计算机视觉CV、智能歌词创作系统、定制语音技术。

以计算机视觉CV为出发点,用户通过上传不同的照片,系统对照片环境、人物、颜色、表情、主题进行分析;通过对照片的综合理解,进入智能歌词创作系统,生成不同的歌词;最后,歌词内容结合定制语音技术,将央视主持人康辉的声音进行合成,并与配乐伴奏混音处理。用户就这样,得到了自己专属定制的MP3歌曲。
根据官方数据统计结果,该产品在央视新闻新媒体各平台上线仅2小时,用户参与量就超过了300万人次。截至2019年2月8日,《你的生活 AI为你唱作》融媒体交互产品在各平台阅读量3800万,利用AI声音创作视频阅读量3500万,微博相关话题阅读量2700万,AI相关产品在央视新闻各账号总阅读量已超过1亿。以上数据直观的显示出,该融媒体产品的受欢迎程度。
AI应用产品大规模爆发,正值新旧媒体交替,融合发展。借此节点,近日,雷锋网与其它两家媒体,一同对微软基础研究部门、语音产品部门、智能云产品部门和市场部门的四位受访者进行采访。
受访人:
韦福如:微软亚洲研究院自然语言计算组资深研究员韦福如
李冕:微软(中国)资深产品市场经理
李迎彤:微软亚太研发集团云计算与人工智能(中国)微软新视界事业部 创新总监
刘越颖:微软亚洲互联网工程院产品经理
张硕:微软亚太研发集团公关总监
AI唱作交互产品,背后的“故事”
在《你的生活,AI为你唱作》融媒体交互产品中,无论是央视主持人康辉,还是微软智能女声晓晓,均采用了微软深度神经网络语音合成技术,具有更自然的音色和更丰富的情感。其中,康辉的声音用到了定制化语音技术,可以利用少量数据,制作出逼真、具有不同风格的智能语音。
而微软智能女声晓晓搭载了微软Azure云服务,为用户提供标准的语音合成API调用接口,满足用户实时调用语音的需求。 可以直接用于智能助理、智能客服、智能汽车、智能朗读等领域。雷锋网了解到,其技术特点为:
语音合成系统是业界率先产品化基于神经网络的模型,接近人声
定制语音合成所需训练数据量更少 (康辉的数据不到一个小时)
深度神经网络的语音合成模型让声音更逼真和自然
语音合成可以扩展到多种说话的风格(比如这次的rap)
平台化的定制语音让开发周期更短
上升到微软整体的深度神经网络语音合成服务,即基于端到端的神经网络声学模型和声音合成系统。通过优化发音和韵律,更逼真的还原发音人的音色和情感。生成更逼真、更自然的人工智能声音。
微软深度神经网络语音合成服务定制方面:
语料数量定制:从几百句到几千句不等,微软均可以支持。可以根据能提供的语料数量和模型复杂度定制不同的语音。
模型定制:具有多个可选的定制语音模型,包括参数合成、单元拼接、深度神经网络等
场景定制:微软的定制服务可以针对不同的应用场景进行优化。
风格定制:微软定制声音可以在性别,年龄,风格等方面有很好区分度。
其它方面:
灵活的部署方案:公有云部署;私有化部署;离线部署
多语言国际化支持:微软语音合成支持全球49个语言,近80个声音。深度神经网络支持中文和英文。
工业云计算平台:微软语音合成支持全球8个数据中心;深度神经网络可以达到产品级的实时率;支持高并发。
全系列语音支持:微软语音可以提供整套的语音识别,翻译,语音合成等解决方案,可以支持智能客服,翻译等场景。利用微软语音解决方已经落地的场景如ROBOO智能机器人、智能会议系统,微软翻译,微软听听文档等。
正如,微软云+AI部门的李迎彤所说,应用要瞬间触达到很多人的手机上。高并发且巨量的网络和计算需求,背后需要强大的云端基础设施做支持,同时,微软更多偏向后台方面。据微软TTS团队介绍,一个有趣的现象是,晓晓声音的调用次数超过了康辉老师的次数。也体现出,大家对微软智能女声晓晓声音的喜爱。
其实,微软与央视新闻的合作,源于CCTV团队在微软新技术展示中心的一次参观。此次,深度合作偶然中带着必然,一方面,AI技术不断出现重大突破。例如,微软亚洲互联网工程院产品经理刘越颖介绍,去年9月份,微软率先发布了企业级的定制语音合成的平台,企业可以根据自己想要的音色来微软的平台上定制声音。去年12月份,微软又有了一个语音方面的重大的技术突破,即深度神经网络语音合成技术。突然之间,让原来的语音合成不能做到的都能做到了,具体而言,自然度方面可以更加像人,语气、情感方面,包括模型的稳定度得到很大的提升。
另一方面,行业“转型”的大环境下,传统媒体向新媒体融合发展。传统企业也需要与新兴技术、新兴产业结合,顺应时代的潮流,承接未来的要求。其实,无论是,小米9王源定制版声音、央视主持人康辉定制版声音、Roobo机器人定制语音,以及呼叫中心、教育类AI在线老师。还是去年微软小冰团队与小米、华为智能音箱的合作。均应用到微软全方位的能力,视觉、听觉、云处理、语音类等等。
特别是,此次与央视新闻合作的融媒体产品,是微软多个部门协力合作的最终结果。刘越颖称,微软基础研究部门、工程部门、云产品部门、市场部门,还有语音产品部门,各个部门有一个组,在一块以一个非常短的时间与央视共同合作。相当于输入一张图片,出一首歌曲,唱出来,中间串联了好多不同的技术。而这种跨部门合作模式,于微软而言并不陌生,微软亚太研发集团公关总监张硕表示,类似于hackathon等等,有各种不同的形式。每年7月下旬进入高潮,微软全球都会做一个一个hackathon。大家自己命题,然后自己找跨部门的伙伴和技术能力的方式,这次其实也相当于微软内部的一个创新创业。
对于此次合作产品的意义,微软亚洲研究院自然语言计算组资深研究员韦福如解释说,以翻译来说,华为手机集成了微软技术。用户买到手机以后,开箱体验的翻译就是通过微软的技术来实现的。像小米生态链的物联网设备,包括小米的音响,也在跟微软小冰合作。所以,微软本身相对来说比较低调。更为主要的是,微软的策略与定位是一个平台,微软更愿意看到微软的生态,以及合作伙伴在微软平台上能够获得成功,而不是去讲微软自己有多成功,微软更愿意讲的是合作伙伴的成功。

(雷锋网(公众号:雷锋网)注:微软亚洲研究院自然语言计算机组韦福如)
从幕后走到台前,很多“Highligh”
提问:微软与央视新闻合作,背后有着怎样的考量?
李冕:当时做这个项目,当对方提出来合作时候我们考虑过几个方向。一是,用户的一些体验,包括微软的定位和形象。做得简单一点,比如说做一个图象识别的东西,或者把人脸改一改,把衣服穿一穿,换一件衣服,换一个窗花纸。这种纯换换图像类,噱头型的,其实微软完全可以做得到。
但是当时我们想,既然微软是一个全栈型,各个方面都有技术积累的IT企业,可以做得更广一点。其实这个Cener One(项目名称)里面用到了很多的不同方向,如图像识别、云的理解,到定制语音、语音合成等语音技术。包括微软云支撑、高并发能力。
甚至当时还提出,时间很短,任务很重,需要支撑做多少并发等的问题。这并不算一个最终的互联网产品,更像是一次联合推广。在某个时间节日节点,我们推出来给广大的用户、网民们一些比较好玩的东西。同时,对于微软而言也是检阅内部AI能力的机会,所以当时我们也有出于自己的目的去做这个项目。
提问:整个合作过程有哪些难点?
韦福如:从难点上来讲,用户对歌词的要求是什么,有一些不同的地方。因为歌词与诗相比,讲究接地气,接近生活,朗朗上口。输入部分,只能从图像里获得一些信息。微软技术能知晓图片中有没有人脸,有没有笑脸,有几个人,大概年龄等等。还有一些更细致的内容。比如,男女合照,笑得很开心……基于关键词,生成第一句,有了第一句才能有后续生成。
同时,还需要基于很多数据。数据方面大家很容易想到的是歌词,我们抓取了很多歌词。用户看到生成的歌词具有文化气息,这其中也应用到很多宋词。另外一个难点,大家熟悉的歌词或者宋词,整体上的感情基调可能比较低沉伤感。但因为是春节期间,我们希望大家开开心心,高兴一些。所以需要大概要识别一下用户的情感,传递更多正能量。细节方面,包括有一些多音字,在前期会做一些相应处理。所以从技术上来讲,一个是长期的积累,第二个是针对这样特殊的应用,做一些细节上的改进。
当然,人类的创造能力是很强的,目前还没有完全理解清楚。机器也有自己的优势,擅长记忆、擅长模仿。另外的角度来讲,技术研究上还有很多很长的路要走,人类的能力还是有限的。
提问:不管TTS也好,还是图象识别也好,遇到的最大困难是什么,怎样解决的?
韦福如:比较难的是,图像输出,要给出歌词来讲还是太抽象了。比如。它只知道里面有人脸,只知道里面有人,或者只知道里面有几个人。这种情况下,去写歌词非常难,所以我们需要把这些信息处理到更细致的关键词上去,然后从这些关键词再生成歌词。歌词有十来句,甚至一二十句,实际上要做更多的处理。
李冕:我们的场景有点像是小学语文考试里面的看图作文,给你一张图,当然我们这个是彩色图,它那是一张图或者是两张图,然后让你编一个东西出来。我们做的有点像看图做诗,整条链路下来,中间的坑点其实是挺多的。
提问:可以重点介绍一下微软在阅读理解方面的优势吗?
韦福如:我们SQuAD的数据集,在最近两年特别火。包括国内也做的很好,像讯飞和阿里等等。我们在这上面,第一个做到的就是,它有两个测试集,我们是最早达到人类水平的系统。包括现在文本理解上,我们系统也是最好的结果。
NLP领域的研发进展微软居于全球领先位置:阅读理解(英文简称 MRC):在SQuAD文本理解挑战赛的最新榜单上,在EM值上以82.650的最高分领先 (持续优化提升),并率先超越人类分数82.304。机器翻译系统:在通用新闻报道测试集newstest2017的中-英测试集上,达到了可与人工翻译媲美的水平。这是首个在新闻报道的翻译质量和准确率上可以比肩人工翻译的翻译系统。
提问:人工智能的“表达方式”,毕竟不同于人类。人类具有感情、思维,在说话的过程中兼具情感的表达,同时也是一个自然人性格、个性的重要体现方式。情感的表达体现在算法上,是怎样一个过程?微软TTS在机器情感输出方面有何看法?
团队总结:机器的情感主要由两方面决定:数据和算法。微软TTS在数据采集时,与以往不同,更注重情感和意思的表达。同时,基于深度神经网络TTS的算法具有更强的学习能力,可以更好的还原情感,具有更高的自然度。最后,我们加入了多情感和多风格的声学建模,并在合成中进行精确控制。
提问:中文表达与英文等存在语种差异。对于人类而言,换气、停顿、同音字、断句的判断,是很容易的过程,对于NLP就比较难。请问,微软在“仿人类”语言的细节处理方面有什么经验以及进展?
刘越颖:微软一直在做语音,很多年。包括从最开始的音速合成,到单元拼接,到这次的深度神经网络的合成,都是一步步积累下来的。此次的深度神经网络,跟原来不一样。原来可以理解为单元拼接,就是说一段话,每个音都拆成不同的单元,说多了之后,就可以把不同的单元拼接起来拼成一句话,那种合成是比较机械,容易出来一些不稳定的。
拼接过程中不圆顺的地方就会有机器感,或者是不太自然的地方。但是深度神经网络这种语音合成,它就是一个从端到端的,然后把这种韵律模型和声学模型,还有前端的这些处理,文字处理,都是统一到一个大的模型里面。然后整体的输出,所以它是一个端到端的模型。能够让合成结果更平滑,更自然。
具体来讲,可以分为两个部分。一个是关于断句,还有发音准确性,有点像NLP范围内的,我们统称为NLP。语音部分也是包含这两部分,一个是NLP,另外一个是语音模型,像刚刚提到的深度神经网络。这个既可以让它校正一部分发音问题,包括断句、喘气、情感问题,还有音频解码器,让他更加自然。
其实不管是从前面的语义分析、断句、断词,以及这种展开,到后面我们需要这种音频解码器把它再去合成。现在每一个小点,微软都有相应的论文不断地做。所以现在可以看到深度神经网络的语音,具有很自然的喘气声,这也是微软很不一样的特点,听起来会非常自然。
团队总结:中文表达主要涉及停连、重音、语气、节奏,以及对内容的理解。微软深度神经网络TTS可以逼真地还原人类的换气声音,使得语音合成更具有人类的特征。对于断句,停顿,多音字,微软针对不同语言要素,进行有针对性的建模,然后利用端到端的声学建模,从真实语音中学到最适当的表达方式。
提问:除了语音技术,还用到其它哪方面的能力?
韦福如:我们会用很多不同的图象识别的技术,有数十万个标签和一百多个类。有几张人脸时,能知道这个人是开心的还是处于怎样的状态。以及图像中人物的性别,我们需要拿这些信息去创作歌词。到拿到图象识别信息之后,首先要把这些信息,大概归类到一些歌词的关键词上。第二步是再把歌词一句一句生成出来,这个时候就用到序列对序列的生成的模型。
提问:此次合作中,存在的商业潜力是什么?
刘越颖:首先,我们有这种定制化的能力,最后可以满足不同企业或个人对声音的需求。其实现在都是多元化、个性化的时代,每个产品或者是公司都希望有一个自己的形象。这个形象不仅仅是基于图像层面的,同时也是基于一个专属于他们自己的声音,一个三维的形象。所以,在这种数据量变小的情况下,也使得给明星做定制,给知名人士做定制成为可能,这是一个很好的合作点。
提问:此次合作,微软在云计算方面有哪些部署?
韦福如:从云计算的角度来讲,应该说对用户来说是不可见的。像现在的电一样,大家都用电,但是实际上并不会真正接触到电。存在的意义更多是让大家感觉不到我们,让大家有最好的性能,最好的体验。目前,微软在中国有大量云计算的基础设施投入,我们更多是通过网络的服务。比如,现在微软有四个数据中心,北京、上海等不同的地方。通过一些技术,对不同地域的请求可以选一个正确的数据中心进行响应,即更近的数据中心进行响应。
另外,我们有覆盖全中国的内容分发网络,这样可以保证这些用户在使用或者是体验的时候,不会受到网络带宽的影响。所以,我们确实存在非常高的并发,上线两个小时就有300万的请求。实际上,这对于我们而言,并不是特别大的挑战。因为微软企业级服务,对于两个小时300万的并发,能够轻松应对。
但是这次的体验,因为是央视的推广,它的受众是全国范围的,甚至更宽。所以我们能够保证这些受众都能够有一个好的、快速、高效的体验。一定是因为我们在基础设施上做了大量的投入,才能做到这样的保障。
李冕:我们做了很多CDN的加速,我们的机房离主要的节点都很近,总体的速度还是很快的。内部测试下来,还是对这个效果挺满意的。没有需要工程团队太多的特别调用什么。只是把资源开起来,然后摆在那。从上传的速度,包括并发的响应上,在后台看CPU跳跃的数字,我们觉得还是非常安心的。

走过青铜、白银,迎来“黄金时代”
比尔·盖茨曾说过,“语言理解是人工智能皇冠上的明珠”。NLP的历史几乎与计算机和人工智能AI的历史一样长。换句话说,计算机诞生那一刻,人工智能AI也应运而生。人工智能AI研究最早的领域就是机器翻译以及自然语言理解。
微软亚洲研究院自1998年创建以来,就给予NLP足够的重视。微软亚洲研究院官方数据显示,截止2018年11月,共计发表100余篇ACL大会文章,出版《机器翻译》和《智能问答》两部著作,培养了500名实习生、20名博士和20名博士后。
微软开发的NLP技术,包括输入法、分词、句法/语义分析、文摘、情感分析、问答、跨语言检索、机器翻译、知识图谱、聊天机器人、用户画像和推荐等,已经广泛应用于Windows、Office、Bing、微软认知服务、小冰、小娜等微软产品中。与创新技术组合作研发的微软对联和必应词典,也已经为成千上万的用户提供服务。
21年的时间里,无论是微软亚洲研究院,还是AI行业。走过荒芜、贫瘠的土地,逐渐迎来辛苦耕种后的种种“收获”。那么,对于现在抑或将来,微软TTS正在做着哪些努力?
提问:微软近期在TTS领域有什么新论文或者新突破,可以介绍一下,突破点以及对行业的影响?
团队总结:2018年12月,微软语音在微软Azure云上发布了创新性技术突破——端到端的深度神经网络语音模型,将语音合成带入一个高保真的新阶段(参考英文版blog)。深度神经网络语音合成技术让语音合成的的质量以及语音模型的制作又上了一个新的台阶。我们可以感受到语音更自然;训练模型需要的数据量更少;支持语音模型也快速扩展到多种说话的风格。
微软语音合成技术已经在世界顶级期刊和会议发表了多篇论文。
LEARNING LATENT REPRESENTATIONS FOR STYLE CONTROL AND TRANSFER IN END-TO-END SPEECH SYNTHESIS, https://arxiv.org/pdf/1812.04342.pdf, accepted by ICASSP2019.
Neural Speech Synthesis with Transformer Network, https://arxiv.org/pdf/1809.08895.pdf, accepted by AAAI 2019.
A New Glottal Neural Vocoder for Speech Synthesis, https://www.isca-speech.org/archive/Interspeech_2018/abstracts/1757.html, published in INTERSPEECH2018.
提问:TTS是否存在技术、产品周期长、落地比较难的情况,从TTS实际的落地情况来看,微软在这方面有什么进展?
韦福如:语音和文本不一样,这个问题很大。我自己不觉得NLP落地有多么难,或者说落地的不好。我觉得是反过来的,大家每天都在用,比如说你现在用的输入法,是不是自然语音处理的技术,要用翻译,不管是哪家的翻译,这是自然语音处理最核心的几个问题。你每天会用搜索,你会用今日头条,这全是用了很多自然语音处理。
像图像那种,比如说就一个人脸识别,就能做下游的应用,比如说安防这些类的,自然语音处理这块好像难一点,我有一个单点的技术能够做很多这样特别好的,特别清楚的,因为市场有很多的应用,这个比较难。我觉得落地的话,NLP现在每天都使用。
另外,反过来看,现在机会在NLP,不管是从研究上还是外部的市场机会。包括很多VC,现在想投。CV的独角兽,NLP也开始做,包括资本市场也在关注。从研究上来讲,2018年大家说是NLP之年,就是自然语音处理之年。还是有很好的一些进展,包括像谷歌,很大一部分几乎就是类似于通用的自然语音理解的一个题目,把它从有可能变成可能了。所以在这个基础之上,有很多研究方面的机会。
落地的机会也很多,在通用的理解之后,能够比较快速地去适配到一些特定的领域。然后在一些比较少量的情况下,可以做到不错的结果,这都是在实际中遇到的问题。我认为接下来NLP不管是研究上,落地上,还是从市场上都应该是有非常多机会的。
团队总结:传统的TTS技术存在产品周期长的问题。因为声音采集的数量大,时间久,成本高。经过微软语音团队多年来的研究和技术更新,目前已经率先实现了平台化、产品化的语音合成服务。首先,深度神经网络模型可以大大降低声音采集的数量和成本,并且在自然度和保真度上很好的还原人声。同时,微软提供了平台化的定制语音服务,用户可以自定义语音合成数据和模型,让开发周期更短,适合更多的个性化应用场景。所以,未来TTS会有更多的落地场景,也为用户带来更丰富的体验。
目前,微软语音产品已经被应用于微软的各类人工智能产品和平台上,包括了微软小冰,微软小娜(Cortana),Windows,Skype,认知服务(Cognitive Service),微软翻译等。
此外,微软语音产品也积极与第三方企业在更多场景上合作,包括智能助理、智能客服、智能汽车、智能朗读等领域。除了这次CCTV的项目外,微软语音和小米手机合作,在最新的小米旗舰机Mi9的手机内,定制了王源的明星声音。通过语音的桥梁,拉近了粉丝与爱豆的距离。未来声音定制会是一个趋势。每个企业,设备,个人都会有一个独特的人工智能定制声音,让语音融入生活的更多角落。
提问:未来AI方向有哪些机会?
李冕:跳出央视产品的话题,我觉得AI的方向有三个机会。一个是,各位讲的注入AI,或者是像央视的这种应用。第二个点,我们觉得有很大机会的是知识挖掘,像百度或者是谷歌这种是全网的扒数据。刚才提到,现在内部有很多的数据孤岛没有打通。所以我们认为AI技术里面的NLP现在有能够落地的点。第三个,从微软的角度来看,我们跟机器学习的工具和平台相关的东西。比如,一些服务,可能模型本身。几个人攒个小团队,也能做出人脸识别的产品。但是只是一次性的,算出来的这个产品之后,需要一个7×24小时的跟踪。例如,高铁的闸机,需要7×24小时要响应闸机上的数据。响应的部分叫做推理部分,属于是服务的一部分。无论是训练还是拖拉拽等所谓的工具,也是我们觉得能够给市场带来价值,给企业用户能够落地,甚至能够商业化的点。