Dentsu和亚马逊云:为发育障碍人士打造的“易读”图书
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, Easy Reading, ]
导读
电通创意推出了开创性的人工智能工具“Easy Reading”,旨在让数百万智力障碍人士更容易阅读。该工具使用亚马逊云科技开发,能够将任何文本翻译成国际认可的易读格式。电通与致力于文学的葡萄牙旅游局合作,让人们能够通过该国的文学经典“游览”葡萄牙。利用Easy Reading,葡萄牙旅游局在easyreadingportugal.com网站上免费提供三部著名的葡萄牙作品。该项目将于4月在里斯本庆祝,同时在葡萄牙旅游局的数字渠道上开展宣传活动,以推广这个无障碍阅读平台。
演讲精华
以下是小编为您整理的本次演讲的精华。
在迷人的广告世界中,与不同受众建立联系至关重要。一个特殊群体引起了演讲者的热情关注——全球约有2亿人面临学习障碍,尤其是在阅读文学作品方面。这一惊人的数据凸显了这一努力的紧迫性和重要性。
演讲者与日本广告巨头电通(Dentsu)合作,后者拥有123年的悠久历史和全球影响力。他介绍了电通创意巴西公司的创新主管Tiago Winkler。Tiago兴奋地讲述了他们共同开发的“Easy Reading”项目,利用人工智能(AI)的变革力量为更大利益服务。
作为创新的先锋,电通在各个地区拥有超过100名工程师,不断探索和评估新平台和技术。他们对创新的追求不仅体现在为客户服务,还包括原型设计和实验,在过去2年中评估了30多个不同平台,推动AI的极限。
Tiago分享了电通之前的一些AI驱动项目,如一个允许访客通过基于GPS的定位与街头艺术互动的AR博物馆,以及一个根据用户食谱生成艺术作品的应用程序,利用生成式AI。一个值得关注的项目是“Scrolling Therapy”,旨在帮助中风患者在浏览社交媒体时进行面部锻炼,使这个乏味的过程变得更有趣。
虽然人工智能已经讨论了一段时间,但它在各个行业的快速采用和整合令人瞩目。Tiago强调,电通的重点是利用AI的积极潜力来创造一个更美好的世界,这也是“Easy Reading”项目的核心理念。他提到,在AI问世的前4年,用户采用率飙升,甚至超过了智能手机和平板电脑,真正体现了AI的变革影响力。
“Easy Reading”项目旨在解决一个重大挑战——让文学作品对全球约2亿人口的智力障碍人群更加易于理解。Tiago提到2010年制定的“Easy to Read Standard”,为编写和呈现内容提供了更易理解的指导方针。然而,将书籍转换为这种格式的过程非常艰难、耗时且昂贵,通常需要10人团队工作4周才能改编一本书。
为了说明这一挑战的规模,Tiago指出,虽然亚马逊目前提供30,000本易读格式的书籍,但仅英国图书馆就收藏了惊人的1400万本书籍,凸显了巨大的差距和需求。他还提到,即使将巴西和波兰的人口相加再乘以10,也无法等同于受这些学习障碍影响的人数,进一步强调了挑战的规模。
“Easy Reading”项目源于与Visit Portugal的合作。这家客户希望将他们的经典文学作品转换为易于理解的格式,以便所有人都能欣赏。这导致了与电通伊比利亚公司(Dentsu Iberia)以及西班牙朋友的全球合作。
Tiago播放了由电通西班牙朋友制作的视频,介绍了“Easy Reading”项目。视频生动解释了这一AI驱动解决方案如何能够合成原始文本、替换复杂词汇、缩短句子并添加上下文插图,同时遵循欧洲易读内容标准。重要的是,专家将审查最终输出,以确保质量和准确性。
Tiago随后深入探讨了“Easy Reading”平台的内部运作。用户可以上传一本书,平台将评估内容、简化长句、识别关键词以生成图像,并生成易读格式的草稿书籍。然后,专家将进行审查并做出必要的调整,确保人工专业知识与AI驱动的效率完美融合。
虽然该项目历时3个月,从1月到4月,但Tiago强调,电通从去年9月开始就一直在评估亚马逊云科技服务并进行原型设计。这种准备工作使他们在西班牙朋友提出这个项目时能够全速运转,利用现有的知识和经验。
Jeremy Bartochevic是亚马逊云科技的解决方案架构师,他上台讨论了亚马逊云科技与电通在3个月内构建这一解决方案的合作。他强调了提升团队技能、举办黑客马拉松和实验室、以及以安全有效的方式证明使用生成式AI转换书籍的概念的重要性。
所使用的关键服务之一是Amazon Bedrock,这是一个强大的平台,通过单一API提供了各种生成式AI模型。Jeremy展示了Bedrock上可用的广泛模型,包括Amazon Titan的图像生成器、Stability的Stable Diffusion用于图像生成,以及Anthropic的Claude系列模型用于文本处理和重写,提供了许多模型供应商和模型可供选择。
Jeremy向观众展示了优化输出的过程,首先将一章内容传递给模型以生成易读等效内容。虽然初始输出并不理想,但他们通过将规则集分解为多个部分,并按顺序将章节传递给每个规则集,从而提高了质量,实现了更精细和准确的转换。
为了处理整本书,Jeremy解释说,他们首先使用模型将EPUB格式转换为明确定义的章节和段落。然后,他们使用Amazon Step Functions工作流程理顺每一章的处理过程,结合规则集并根据模型的能力和上下文大小使用不同的模型。例如,他们使用Claude的Haiku模型进行预处理和书籍拆分,因为它速度更快,而对于创意写作任务则使用更大的Sonnet模型,充分利用每个模型的长处。
Jeremy强调使用合适的模型来完成合适的工作的重要性,因为在这3个月的时间里,模型版本和能力都在快速发展。他们从Claude 2.1开始,最终使用了两种变体的Claude 3.5,从而在质量和时间效率之间进行了优化。
为确保符合易读规则,Jeremy解释说,他们将草稿再次传递给模型,要求它识别哪些规则得到了遵循,哪些需要进行修改。这个迭代过程使他们能够快速整合必要的变更并完善草稿。
在图像生成方面,Jeremy讨论了确定插图主题、插图位置、确保图像安全性以及适合目标受众等挑战。他们要求模型就每一章的关键主题、合适的图像和适当的风格提供意见。然后,他们生成图像描述并将其传递给Amazon Titan的图像生成器和Stability的XL 1.0模型等图像模型,利用每个模型的长处。
Jeremy分享了该项目的几个关键经验,强调生成式AI的快速发展,在短短3个月内就有3次重大模型更新。这需要频繁重新测试和快速切换模型的能力。此外,拥有不同大小的模型,能够处理不同数量的文本输入,从而提高了效率,因为模型在可处理的上下文大小方面存在限制。
Jeremy鼓励观众不要害怕要求模型执行一些意料之外的任务,例如根据规则集对章节进行评分,或使用不同的模型进行评分、排名、处理和重写。他还强调了使用最佳模型完成工作的重要性,对于简单任务利用较小的模型以优化大规模成本。例如,转换5000字的成本(包括图像生成)约为2.5美元,因此将一本60,000字的书转换的总成本约为30美元。
此外,Jeremy讨论了结合不同图像模型的好处,因为每个模型在不同领域都有所擅长,通过互补优势可以获得更好的结果。人工与AI的协作至关重要,涉及版权所有者、易读专家和最终编辑,以确保内容的安全性和适用性。
Jeremy还讨论了这一解决方案的影响。传统上,将一本书转换为易读格式需要4周时间,而他们的解决方案将这一时间缩短到大约1周,其中6天用于专家审查、调整和迭代。这使得易读专家能够处理更多内容,并更快地向更广泛的受众提供这些内容。
展望未来,Jeremy提到计划支持多种格式,如有声读物和播客,利用Amazon Polly等服务和Meta的Music Gen Large模型。他们还在探索使用Amazon Bedrock Flows服务,这是一种创建生成式AI特定工作流的服务,以进一步简化编排过程。Bedrock Flows最近进入了普及阶段,它允许使用用户友好的界面轻松创建生成式AI工作流,使即使是技术水平较低的用户也能实现类似的解决方案。
最后,Jeremy鼓励观众将他们的使用案例带给亚马逊云科技,因为今天的梦想可能成为明天的现实。他强调这种解决方案不仅可以应用于图书转换,还可以应用于各个行业,特别是英国政府要求以特定格式生成某些信息手册的需求。
这次演讲详细介绍了电通和亚马逊云科技合作开发“轻松阅读”解决方案的过程,利用生成式人工智能将书籍转换为无障碍格式,以便全球2亿患有学习障碍的人阅读。演讲重点阐述了技术挑战、关键经验教训,以及为数百万人提供更加包容的文学作品的潜在影响,凸显了技术为创造一个更加公平和无障碍的世界所发挥的力量。
下面是一些演讲现场的精彩瞬间:
亚马逊Bedrock是一项强大的服务,提供统一的API来访问各种生成式AI模型,在构建这一创新解决方案并将其推向世界发挥了关键作用。
演讲者解释了他们通过将规则集分解为多个部分并通过模型迭代应用的创新方法,从而生成了一个符合所有所需规则的候选草稿,以提高输出质量。
演讲者讨论了将草稿转化为完整电子书的过程,强调需要将其结构化为独立的章节,而不是遵循阅读设备传统的逐页格式。
演讲者鼓励观众探索AI模型的能力,要求它们执行意料之外的任务,如根据特定标准评估内容,并结合不同模型以获得更好的结果。
泰坦图像生成器展示了从同一描述生成多个高质量图像变体的能力,允许定制和选择最佳输出。
Jeff Bezos强调对于简单任务使用较小的AI模型具有成本效益,同时为复杂任务保留更强大的模型,并强调快速迭代以找到每种用例的合适模型的重要性。
总结
在电通(Dentsu)与亚马逊云科技的合作中,开发了一种名为“Easy Reading”的突破性解决方案,旨在让文学作品对于有学习障碍的人更加易于理解。这个创新项目的目标是将经典书籍转换为易读格式,遵循特定的指导方针和标准。
这一旅程始于电通利用人工智能为社会公益的热情,结合了亚马逊云科技在生成式人工智能模型和服务方面的专业知识。通过一系列黑客马拉松和技能提升培训,团队熟悉了亚马逊云科技服务,如Amazon Bedrock,它提供了来自各种供应商的广泛生成式人工智能模型。
该过程包括上传书籍、分析内容、简化句子、生成解释性图像,并根据Easy to Read标准进行布局格式化。利用多个人工智能模型,包括Amazon Titan的图像生成器、Stability的Stable Diffusion和Anthropic的Claude系列,团队编排了一个无缝工作流程,高效地将整本书转换。
关键经验之一是使用合适的模型来完成合适的任务,在质量和成本效益之间寻求优化。团队反复尝试多个模型版本,不断改进输出,并确保遵守Easy to Read规则。此外,他们还纳入了人工专家进行最终审查和验证,确保最终产品的高质量。
Easy Reading项目体现了技术与创造力合作的力量,发挥了生成式人工智能使文学作品更具包容性和可及性的潜力。通过这一解决方案,电通和亚马逊云科技旨在缩小差距,让有学习障碍的人也能享受经典文学作品,促进一个更加公平和包容的社会。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。