使用Bedrock和Neo4j的GraphRAG快速通道
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, 生成式AI, Neo4j AuraDB, Generative Ai, Knowledge Graphs, Graphrag Architecture, Data Sources, Extraction And Ingestion, Knowledge Graph Storage, Serving Knowledge Graph, Enterprise Applications]
导读
对于值得信赖的企业级生成式AI应用,仅仅使用LLM或纯向量搜索RAG架构是不够的。这两种方法都是黑盒解决方案,无法达到您真正需要的质量标准。通过转向使用知识图谱的GraphRAG,您可以获得更易解释的、可信的高质量答案。了解如何使用Amazon Bedrock从非结构化数据构建知识图谱,然后利用Neo4j AuraDB的GraphRAG检索器提供高质量且可解释的答案。本演示由亚马逊云科技合作伙伴Neo4j为您带来。
演讲精华
以下是小编为您整理的本次演讲的精华。
在数据和信息快速发展的环境中,组织正在努力从手头的大量数据中提取有意义的见解。演讲者承认了这一现实,强调世界正朝着越来越互联和复杂的信息生态系统过渡。随着生成式人工智能(AI)飞速发展,其潜在收入可能达到惊人的万亿美元,但大部分组织仍停留在试点或概念验证阶段,无法充分利用这项技术所承诺的巨大价值。
虽然生成式AI彻底改变了我们与信息的互动方式,但它并非商业信息系统的万能药。演讲者指出了其局限性,即无法执行简单网络应用程序轻松处理的基本任务。为了弥补这一差距,出现了检索增强生成(RAG)的概念。RAG利用检索器查询数据源,返回相关信息作为上下文提供给大型语言模型(LLM),从而生成更准确和更相关的响应。然而,演讲者承认在许多情况下,RAG产生的结果对于生产工作负载来说仍然太不可靠。
GraphRAG应运而生,它利用生成式AI和知识图谱之间的协同作用。演讲者阐述了GraphRAG背后简单的信息流程,该流程已在诸如LlamaIndex、Valium和LangChain等多个用户友好的框架中实现。在这种范式下,应用程序接收一个问题,从该查询生成向量嵌入,并利用这些嵌入来查询知识图谱。系统随后通过遵循返回节点之间的关系来扩展上下文,检索更丰富和更相关的信息。这种丰富的上下文随后被反馈到LLM,从而生成更准确和更有见地的响应。
演讲者赞扬了采用GraphRAG方法的三个具体好处。首先,越来越多的研究表明,与基线向量方法相比,准确性有了显著提高。其次,知识图谱的显式拓扑结构有利于更容易的开发和调试,而向量空间则是不透明的。演讲者举了一个照片应用程序错误地为“paintball photos”搜索返回无关结果的轶事,凸显了基于向量的方法固有的失去上下文的缺陷。
第三,知识图谱提供了无与伦比的透明度和治理能力。演讲者强调Neo4j一流的安全原语,可以根据用户角色分配读、写和遍历权限。这一功能使组织能够为垂直角色提供服务,同时利用知识图谱的水平角色,确保查询返回准确结果,而不会暴露用于建立图形内部连接的特权信息。
认识到不仅开发人员,而且也需要考虑到值班和支持团队的开发便利性,演讲者介绍了Neo4j的Copilot工具。这一创新解决方案使用户能够从自然语言提示生成Cypher查询,有助于探索知识图谱的模式并识别和解决潜在错误。
演讲者随后阐述了构建GraphRAG应用程序时需要考虑的五个关键领域。首先,了解现有的数据源(无论是结构化数据库、程序文档、现有本体论还是非结构化数据如PDF、图像和视频)对于构建初始知识图谱至关重要。其次,提取和摄取阶段涉及利用Amazon Bedrock运行LLM模型(如Anthropic的Claude),将非结构化数据转换为节点、关系和属性,以便摄取到知识图谱中。这一阶段包括复杂的过程,如生成向量嵌入、信息分块、提示工程以及处理数据重复和解析。
第三个关键领域涉及知识图谱存储。Neo4j AuraDB是一个完全托管的数据库,支持图形和向量搜索,能够存储嵌入和遍历知识图谱本身。配合这一存储解决方案的还有Bloom用于可视化、图形数据科学算法用于排名和社区检测,以及Copilot用于从自然语言提示生成Cypher查询。
第四个领域关注向应用程序提供知识图谱。Amazon Bedrock有助于这一过程,使得能够在私有数据上微调模型并实现GraphRAG模式,该模式包括查询知识图谱、扩展上下文并向LLM提供丰富的答案。
最后,演讲者强调了第五个也是最具吸引力的领域:实际利用GraphRAG模式的应用程序。无论是企业搜索、FAQ机器人还是发现应用程序,GraphRAG方法都有望通过剪枝无关信息来提供更丰富和更相关的结果,从而为企业创造巨大价值。
演讲者强调Neo4j在这一领域的专业知识,引用了他们在金融服务、汽车行业、生成式AI和机器学习以及数据和分析方面新获得的能力。凭借一支精通构建生产就绪GraphRAG应用程序细节的专业团队,Neo4j有能力指导组织掌握这项变革性技术的复杂性。
总之,这次演讲介绍了GraphRAG作为生成式AI和知识图谱强大融合的概念,利用了Amazon Bedrock和Neo4j AuraDB的能力。通过阐述GraphRAG的优势、构建GraphRAG应用程序时需要考虑的关键领域以及Neo4j的领域专业知识,演讲者描绘了一个令人信服的未来愿景,在这个未来中,组织能够释放数据的全部潜力,提取可操作的见解并推动创新。
下面是一些演讲现场的精彩瞬间:
Andy Jassy在其2024年reInvent主题演讲中强调了数据日益增长的复杂性以及从中提取有价值见解的需求。
演讲者举例说明了在AI模型中使用向量表示的挑战,强调了缺乏上下文和潜在的误解,例如将他妻子和孩子的照片误认为是彩弹图像。
Anthropic的Claude LLM模型通过Amazon Bedrock的提取和摄取阶段,将非结构化PDF文档转换为具有节点、关系和属性的知识图谱。
Neo4j AuraDB是一个完全托管的数据库,支持知识图谱和向量搜索,配备了Bloom等可视化工具和图数据科学算法。
Amazon展示了其前沿的知识图谱构建器和文本到密码的能力,实现了无缝的非结构化数据摄取和优化的企业搜索、FAQ机器人和上下文发现体验。
Neo4j通过获得4项新的亚马逊云科技能力证书,总计拥有5项能力证书,展示了其在各个领域的专业知识,并强调了帮助客户构建生产就绪图形解决方案的能力。
总结
当今世界日益紧密相连,组织机构正在努力从庞大的数据存储库中提取有价值的见解。生成式人工智能(Generative AI)蕴含着巨大潜力,但大多数公司仍停留在试点或概念验证阶段,无法充分利用其价值。这就是GraphRAG的用武之地,它将语言模型的强大功能与知识图谱的上下文准确性相结合。
GraphRAG提供三大关键优势:更高的准确性,正如研究所证明的那样;更易于开发,显式的图形拓扑结构比不透明的向量空间提供更清晰的上下文;以及可解释性和治理,允许透明推理和对特权信息进行控制访问。通过集成Amazon Bedrock和Neo4j AuraDB,组织可以简化构建、存储和服务知识图谱的过程,从而能够开发出符合其特定需求的强大GraphRAG应用程序。
这一过程包括理解数据源、提取和摄取信息、存储知识图谱、为应用程序提供服务,最终构建诸如企业搜索、FAQ机器人和发现引擎等有价值的用例。只要拥有正确的工具和专业知识,组织就能够释放生成式人工智能和知识图谱的全部潜力,将数据转化为可操作的见解,并推动业务价值的实现。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。