关于echo音箱等人工智能（语音交互）产品形态的思考

最新推荐文章于 2025-07-11 16:28:26 发布

原创最新推荐文章于 2025-07-11 16:28:26 发布 · 593 阅读

CC 4.0 BY-SA版权

本文探讨了内容提供商在语音交互浪潮中的转型策略。分析指出，内容提供商不必自行开发硬件，而应专注于内容传播渠道的扩展；同时，自主开发语义理解有助于更贴近用户意图，提升用户体验。此外，还讨论了通用语音语义平台的定位和发展方向。

在目前的语音交互作为人机（设备）交互主要交互方式的产品浪潮中（以echo为代表），很多之前的内容提供商，比如喜马拉雅，或者服务提供商，比如医疗咨询，都想自己做出一个带语音交互功能的硬件产品，并且，在后台接入自己的语义理解。这种情况是否是后续的一个潮流呢，此文是针对此情况的一个思考总结。

首先，我从内容提供商的发展看，认为“企业以自身优势为立足与壮大”为基本原则，不能违背的情况下。它们的护城河在于内容的多样性（丰富性+优质）来吸引更多的用户，后续提供付费获取内容的模式，是其它们发展的最佳途径。如果基于此前提，那么做硬件，加后台的语义理解，是否必要呢？

我觉得，关于第一点，自己做硬件，这点其实是不必要的，做硬件的好处可能是能中短期内获取营收（目前硬件生产相当成熟，所以做模具来生产硬件，应该是不会有太大成本的，尤其是以喜马拉雅等体量较大的内容提供商而言，更是成本相对较低）。相反，如果抛弃硬件，立足内容的传播渠道扩展，那么应该是可以壮大自己的内容读取客户群体的。如果抛弃硬件，自然也就不需要语音交互这个功能点的硬性需求了。

关于第二点，自己做语义理解，这个我觉得可能有必要，原因在于，作为一家内容提供商，或者服务提供商，以前的APP模式，有个极大的弊端，也就是说app的交互界面，直接制约了用户的意图表达。与其说用户推动了内容（app/服务）需求，还不如说是app/服务引领（限制）了用户的使用。如果app做得好，自然是引领，如果做得不好，用户就不会去用此app了。所以自己做语义理解的好处在于，跟用户的根本意图更接近，有利于提升契合度。

基于以上的思考，那么类似于科大讯飞，云知声等语音语义提供商，它们的立足点在哪里呢？

作为一个通用的语音语义（理解）平台，在垂直领域，应该是拼不过的，比如喜马拉雅有更多的内容数据，也有很多自己的运营人员，可以对内容（音乐）进行自有分析，结合客户的使用，会有大数据分析优势。而用户在音乐领域的表达，其实并不复杂（相对于医疗问答），所以做语义+内容结合，喜马拉雅更擅长。那么科大讯飞等如何来做呢？我觉得应该放在设备，人，服务连接上面，提供此框架平台，以此来做体系内的设备（做好人机交互）来保障更多的服务，内容能被方便接入，这个才是后续的立足点吧。