一、AI大模型与数字人的发展
传统意义上,数字人是指通过计算机图形学、图形渲染、语音合成、动作捕捉、深度学习、类脑科学等聚合科技创设的非物理世界的可交互虚拟形象。数字人是一个在20世纪80年代前后开始崭露头角的概念。
在这个时期,日本打造了全球首位虚拟歌姬林明美;英国的George Stone也创作出虚拟人物Max Headroom。这一阶段的虚拟人物大多以计算机生成图像技术为基础,结合一些创新的动画和音效设计,使它们在视觉和听觉上达到逼真的效果。
进入21世纪,随着建模、动作捕捉等技术的不断进步,数字人产业得到显著发展。这一时期,以演员动捕结合计算机图形学合成的虚拟人物开始在影视行业得到广泛应用。
这些技术进步使得虚拟人物的动作和表情更加自然和真实,为影视制作提供了更大的创意空间和更多的表现形式。随着时间的推移,Z世代群体对自动生成内容的需求不断增加,身份型数字人的认可度也逐渐提升。
这一时期,虚拟偶像开始走向大众,成为一种受到广泛关注的娱乐形式。“粉丝”可以通过社交媒体与自己喜爱的虚拟偶像进行互动。近年来,随着深度学习算法和硬件设备的不断进步,数字人的拟人化水平得到显著提升。
这些技术的发展使得数字人能够更好地理解和表达语言,具备更强的对话能力。这为数字人在各个领域的应用提供了更广阔的空间。例如,在客户服务领域,虚拟客服的智能化回答可以快速准确地解决用户的问题。
在教育领域,虚拟教师可以通过智能语音识别和语义理解技术为学生提供更具针对性的教学服务。在AI时代的推动下,数字人产业的发展前景十分广阔。
随着技术的不断进步和应用场景的拓展,虚拟人物将更加智能化、个性化和社会化。不仅可以将它们用于娱乐、影视等领域,还可以将其用于智能助手、社交机器人等领域,为社会带来更多的创新和变革。
二、政策助力AI大模型与数字人发展
1.“十四五”规划推动虚拟现实和增强现实发展
“十四五”规划明确将“虚拟现实和增强现实”定位为数字经济重要产业,强调数字化转型对生产方式、生活方式和治理方式的全面驱动,意在催生新产业、新业态和新模式,为经济发展注入新的活力。
在此背景下,2022年10月,工业和信息化部与多部门联合印发《虚拟现实与行业应用融合发展行动计划(2022—2026年)》。该计划的核心目标是推动虚拟现实技术在社会经济关键领域实现广泛应用。
2.北京市首发数字人产业创新发展行动计划
北京市经济和信息化局2022年8月发布《北京市促进数字人产业创新发展行动计划(2022—2025年)》(以下简称《计划》),这标志着国内首个专门针对数字人产业的支持政策正式出台。
《计划》不仅强调了数字人在互联网3.0时代的创新应用和产业机遇,还明确了依托国家文化专网,将数字人纳入文化数据服务平台的重要措施。根据《计划》,北京市将充分发挥其作为国际科技创新中心的建设优势,积极打造数字人产业创新高地。
为了实现这一目标,《计划》制定了一系列具体的发展目标。其中包括,在2025年之前,培育出1~2家营收超过50亿元的头部数字人企业,以及10家营收超过10亿元的重点数字人企业。
同时,《计划》还提出要建成10家校企共建实验室和企业技术创新中心,打造5家以上共性技术平台,培育20个数字人应用标杆项目,并建成2家以上特色数字人园区和基地。
三、数字人产业链主要构成
数字人产业链是一个多层次、多维度的生态系统,涵盖从基础技术到应用实践的各个方面。这个产业链主要包括基础层、平台层、价值层和交互层4个核心组成部分。
● 基础层是数字人产业链的基石,主要包括硬件设备、软件开发和数据支持等。这些基础元素为数字人提供必要的技术支持和运行环境。
● 平台层主要指提供数字人创建、管理和运营服务的平台,这些平台为数字人的开发和部署提供工具和框架。
● 价值层关注的是数字人如何为用户和企业创造价值,包括内容、服务和商业模式等。
● 交互层是数字人与用户直接互动的界面,涉及用户体验和交互设计。
AI赋能数字人行业,体现出巨大的商业价值,为市场带来了广阔的发展空间。艾媒咨询数据显示,2022年我国数字人核心市场规模达到120.8亿元,同比增长94.2%。预计到2025年,我国数字人行业核心市场规模将达到480.6亿元。
四、AI引领数字人多模态交互新纪元
随着人工智能技术的飞速发展,AI在推动数字人多模态交互能力提升方面发挥着越来越重要的作用。
目前,数字人接入大模型主要以文本交互为主,其本质是通过自动语音识别(Automatic Speech Recognition,ASR)、自然语言处理、文本-语音转换(Text to Speech,TTS)等AI技术进行转化,以实现数字人在感知、决策、表达等层面的交互。
虽然自然语言大模型与数字人的融合仍需进一步完善,但随着技术的不断发展,这种融合将会越来越成熟。这将为数字人产业带来更多的创新和更大的发展空间。在数字人动作合成的应用方面,AI技术也发挥着重要作用。
目前,计算机视觉数字人声唇同步技术相对完善,已经在游戏中大量应用。随着技术的不断发展,AI将能够更智能地合成数字人的动作和表情,从而实现更加真实、自然的交互体验。
AI大模型的多模态生成能力对数字人的发展具有巨大的推动潜力。这种能力可以使数字人的“思想”更加接近人类,从而实现更加自然、智能的交互。在未来发展中,AI大模型的多模态生成能力将为数字人产业带来前所未有的发展机遇。
通过在输入端实现多模态感知输入,AI技术将能够更全面地理解人类的情感和意图,从而更好地满足人类的需求。例如,通过分析人类的语音、面部表情和动作等信息,AI可以更加准确地判断人类的情绪和意图,从而为人类提供更加个性化的服务。
通过在输出端提升多模态交互能力,AI技术将能够实现更加自然、逼真的交互体验,让人们感受到更加真实的数字人形象。例如,通过语音合成技术、动作合成技术和面部表情合成技术等,AI可以创造出更加真实、自然的数字人形象,让人们感受到更加接近人类的交互体验。
五、AI虚拟直播引领电商降本增效
近年来,直播行业得到飞速发展,形成了稳健的商业模式,并吸引了庞大的用户群体。相关数据显示,截至2022年年底,我国的直播用户数量已经达到7.5亿。这使得直播成为企业营销和销售的重要通道。
然而,随着消费者注意力资源的日益分散,他们在单一内容上的停留时间持续缩短,现已减少至30~40s。在这种背景下,数字人直播应运而生,凭借其能够长时间、不间断进行内容输出,有效帮助商家吸引并保持流量。
数字人直播的优势在于它不受直播间场域的约束,也不受主播的语言、能力和精力限制。这些优势使得数字人直播能够灵活应用于国内外各种平台、地域和品类的直播活动中,从而助力品牌和产品实现更广泛的传播。
此外,数字人多直播间运营策略有助于品牌充分发挥其流量价值。品牌在经过宣传推广后,往往已经积累了一定的知名度和流量。通过多直播间运营,线下品牌可以增加用户触点,同时建立差异化的产品销售渠道。
案例:智能购物的革命性体验
AI与零售的结合正在推动数智化零售新时代的到来。在这个新时代,AI技术将更加深入地应用于零售业,为消费者提供更好的购物体验,为零售商提供更高效和智能的运营方式。
京东零售作为电商领域的领先者,其技术体系的中台化战略为AI技术的应用提供了更好的支撑。
京东零售AI体系的建设注重应用化、大模型化、算力需求指数化等趋势,聚焦零售算法的场景体验、效率、成本问题,构建体系化、中台化的算法中台,以支持业务数智化升级。
端智能技术是京东零售聚焦的核心技术方向之一。这种技术可以将AI算法应用于终端设备,实现智能化处理和交互,从而提升用户体验和效率。
通过端智能技术,电商平台可以为用户提供更加个性化的推荐服务,例如,根据用户的浏览历史、购买记录等信息,推荐适合用户的商品,提高用户购物的满意度和对企业的忠诚度。
CTR(Click Through Rate,点击率)大模型是一种重要的AI技术,用于预测广告点击率和转化率。通过深度学习和海量数据训练,CTR大模型可以优化广告投放和营销策略,提升转化率和变现效果。
例如,电商平台上通常会有大量的广告投放,CTR大模型可以帮助商家选择合适的广告位和投放时间,提高广告点击率和转化率,从而降低营销成本和提高收益。
异构的算法算力智能调度系统则可以根据不同算法和数据的特点,智能分配计算资源,提高计算效率和精度。
可以将这种技术用于各种不同的场景,如商品推荐、价格预测、库存管理等。通过智能调度算法算力资源,可以避免计算资源的浪费和提高算法效率,进一步优化零售业务的运营效率。
通过AI技术的应用,搜索推荐系统可以更好地理解用户意图和需求,提供更加精准和个性化的推荐结果。京东零售致力于用户意图识别、复杂意图推荐、意图引导交互等环节,打造面向用户意图的高效搜索推荐系统。
其中用户意图识别环节的跨模态理解、感知能力提升,复杂意图推荐环节的人性化推荐、推荐理由生成,意图引导交互环节的人格化导购、创意组合优化等应用的突破,都将有机会带来革命性创新。
在用户意图识别环节中,跨模态理解技术的应用可以使得搜索推荐系统更好地理解用户的意图和需求,例如,用户在搜索框中输入商品名称时,搜索推荐系统可以通过跨模态理解技术识别用户的搜索意图是购买商品。
同时,还可以根据用户的浏览历史、购买记录等,以及商品的特征信息等跨模态数据来提高推荐的精准度和个性化程度,进而提升用户体验和忠诚度。