快速安全的AI上下文,采用开源混合向量搜索
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, AlloyDB Omni, Secure Ai Context, Hybrid Vector Search, Open Source Databases, Data Security Privacy, Data Availability Quality]
导读
向量相似度对于希望开发安全、经济高效且可扩展的AI解决方案的组织来说至关重要。然而,近似搜索的不精确和复杂性对于某些用例来说存在风险,特别是在处理受监管或敏感数据时,检索的精确性是绝对必要的。混合搜索是一种强大的方法,可以通过平衡先进的文本/字段和相似度技术来加速和优化标准向量搜索的结果,这种方法在几个开源数据库中都可以使用。如果您正在考虑将AI应用于您的业务,这个简短演讲将概述开源领域中可用于创建安全、准确和高性能应用的选项。本演讲由亚马逊云科技合作伙伴Aiven为您带来。
演讲精华
以下是小编为您整理的本次演讲的精华。
在人工智能(AI)采用的领域中,确保数据安全、隐私、可用性和质量是一个重大挑战。在亚马逊云科技 re:Invent 2024活动上,Ivan的现场首席技术官Francesco阐明了这一问题。通过对欧洲和美国200多位高管的采访,Ivan发现只有70%的公司在生产环境中使用任何AI用例。最主要的两个顾虑是数据安全、隐私以及数据可用性和质量。
Francesco强调,为AI模型提供不足的数据会导致幻觉,在业务环境中可能产生严重后果。他举了一个真实的例子,由于AI幻觉,Air Canada为一位客户全额退款了一张不可退款的机票,这种情况在公司层面是不可接受的,并凸显了向客户提供错误信息的风险。
为了为AI提供上下文,常见的解决方案是检索增强生成(RAG),它涉及将数据存储在数据存储中,并利用向量搜索来检索相关上下文。然而,向量搜索是一种纯粹的邻近搜索,而不是精确搜索,这可能导致遗漏关键要求或忽略必须满足的标准。Francesco用一个假设的场景来说明这一挑战,即在拉斯维加斯搜索酒店房间,需要满足特定要求,如可欣赏球体景观、紫色床单和三张单独的床。在纯向量搜索中,如果搜索空间中没有足够的房间满足所有要求,则可能会忽略必须满足的标准,如床的数量。
为了解决这一限制,Francesco介绍了混合向量搜索的概念,它将向量搜索与标准搜索相结合,允许包含额外的过滤器和逻辑。这种方法通过确保满足必须满足的标准来提高准确性,通过预先过滤来减少向量搜索的数据集从而提高性能,并通过对查询可检索的内容施加限制来增强数据安全性。
Francesco概述了混合搜索的三种主要技术:预过滤、后过滤和重新排序。预过滤是在执行向量搜索之前根据特定标准过滤数据集,从而减少数据基数,但可能会影响语义有效性。另一方面,后过滤是在整个数据集上执行向量搜索,然后根据指定的标准过滤结果,保留语义理解,但可能会返回不相关的结果。重新排序则结合了向量搜索和标准搜索的结果,对两者共有的结果进行更高的排序,但计算量可能较大。
值得注意的是,混合向量搜索现在可在各种工具中使用,包括开源解决方案和传统数据库,如PostgreSQL(Postgres)。Postgres提供了向量搜索、嵌入存储和专用索引的功能,用于性能优化。此外,它还支持传统的文本搜索和标准搜索操作,非常适合混合搜索。Francesco演示了一个在Postgres中结合向量搜索、全文搜索和重新排序的SQL查询,展示了如何使用简单的SQL语句来表达混合搜索。
使用Postgres进行混合搜索还可确保数据一致性,因为数据保留在操作数据库中,并且安全定义和数据可见性都集中在一个地方。这种方法消除了在不同技术之间移动数据的需求,降低了数据不一致的风险,并简化了安全管理。
接下来,Francesco讨论了Ivan与Google在AlloyDB方面的合作,AlloyDB是一种与Postgres兼容的工具,具有增强的性能和与AI资产的预建集成。AlloyDB Omni允许跨多个云在本地运行AlloyDB,简化了AI模型与数据库的集成,并提供了无缝的多云体验。
另一个提到的工具是OpenSearch,这是一个搜索引擎,具有专用的向量索引,并且能够在单个请求中组合向量查询和标准查询。OpenSearch支持预过滤、后过滤或基于查询自动决策,在实现混合搜索方面提供了灵活性。Francesco提供了一个OpenSearch查询的示例,该查询在单个请求中嵌入了向量查询和标准查询。
然而,Francesco强调,向量搜索和混合搜索只是解决方案的一部分。AI需要分散在各种工具中的数据,需要一个平台来收集、保护、转换和准备数据以供AI使用。Ivan提供了这样一个平台,将服务分为Stream、Store和Serve三个类别,在所有云中提供安全性、优化和治理。
在Stream类别中,Ivan提供Kafka、Kafka Connect、MirrorMaker和企业工具,用于安全性和管理。Kafka是一个分布式事件流平台,支持实时数据管道和流应用程序。Kafka Connect是一种可扩展且可靠地在Apache Kafka和其他系统之间流式传输数据的工具。MirrorMaker是一种在Apache Kafka集群之间镜像数据的工具,支持数据复制和故障转移场景。
在Store类别中,Ivan提供了开源数据库,如Postgres、MySQL、Volky、Dragonfly、ClickHouse,以及现在的Ivan for AlloyDB Omni。Postgres是一个功能强大、可靠、性能卓越的开源对象关系数据库系统。MySQL是另一个广泛使用的开源关系数据库管理系统。Volky是一个面向操作分析的云原生数据库,而Dragonfly是一个现代的云数据平台。ClickHouse是一个开源的面向列的数据库管理系统,旨在对海量数据进行快速高效的分析。
在Serve层中,Ivan提供了OpenSearch、ClickHouse、Metrics和Grafana。OpenSearch是一个分布式的开源搜索和分析套件,源自Elasticsearch。ClickHouse是一个面向分析的面向列的数据库。Metrics是一个监控和警报解决方案,而Grafana是一个开源的数据可视化和分析平台。
最后,Francesco建议有意将AI采用推向生产级别、提供安全快速的AI上下文的公司,应考虑Ivan的端到端解决方案,将数据从孤岛中解放出来,并使其为AI做好准备。Ivan的平台提供了一种全面的数据管理方法,涵盖数据摄取、存储和服务,并专注于跨多个云的安全性、优化和治理。
总之,这次演讲涵盖了数据质量和安全性对AI采用的重要性,介绍了混合向量搜索作为获取准确和安全上下文的解决方案,强调了Postgres和OpenSearch等开源工具在混合搜索方面的能力,并将Ivan的平台作为跨多个云的数据管理和AI准备的综合解决方案。通过解决数据可用性、质量和安全性的基础性挑战,Ivan旨在让组织能够在生产环境中充分发挥AI的潜力,而目前只有70%的受访公司在任何AI用例中处于生产状态,原因是担心数据安全、隐私、可用性和质量。
下面是一些演讲现场的精彩瞬间:
在reInvent2024大会上,Ivan公司的现场首席技术官Francesco根据对欧美200多位C级高管的采访,阐述了对更快、更安全的AI上下文的需求。

在向量搜索的背景下,如果没有足够的对象满足所有要求,则可能会放弃必须满足的要求(如三张床)以找到相关结果。

通过将向量搜索与额外的过滤逻辑相结合,我们可以实现更准确、更快速的结果,尤其是对于计算量大的大型数据集,向量搜索效率更高。

Postgres在向量搜索、嵌入式存储和混合搜索方面表现出色,通过将向量和传统文本搜索功能与优化索引相结合,可提高性能。

通过利用Postgres进行混合和向量搜索,数据保持一致,操作工作负载保持完整性,无需在数据库之间移动数据。

亚马逊云科技宣布推出AlloyDB Omni,这是一款多云兼容的数据库,具有增强的性能、AI集成和无缝Postgres兼容性,使开发人员能够直接从SQL查询中利用AI模型。

演讲者邀请观众扫描二维码,探索公司专门的页面,了解更多关于他们的端到端解决方案、向量搜索和混合搜索功能的信息。

总结
在快速发展的人工智能世界中,提供安全准确的上下文至关重要。Ivanti的现场首席技术官Francesco深入探讨了企业在人工智能之旅中所面临的挑战,重点关注了数据安全、隐私和质量方面的顾虑。他提出了一种引人注目的解决方案:混合向量搜索,这是一种结合向量搜索和传统搜索方法的技术。
首先,Francesco强调为人工智能模型提供足够数据的重要性,以防止出现可能给企业带来严重后果的幻觉。其次,他介绍了检索增强生成(RAG)的概念,即将数据存储在数据存储中,并采用向量搜索为人工智能模型提供上下文。然而,他发现纯向量搜索存在局限性,因为它是一种邻近搜索,可能会忽略关键要求。
第三,Francesco提出混合向量搜索作为解决方案,将向量搜索和标准搜索相结合,以提高准确性、性能和数据安全性。他概述了三种技术:预过滤、后过滤和重新排序,每种技术都有其优缺点。值得注意的是,他强调了像PostgreSQL和OpenSearch这样的开源工具在实现混合向量搜索方面的能力。
最后,Francesco强调需要一个综合平台,整合来自各种来源的数据,确保其安全性,并为人工智能应用程序做好准备。他介绍了Ivanti的端到端解决方案,包括流媒体、存储和服务层,旨在为企业的人工智能之旅提供支持,同时确保数据安全和质量。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。

被折叠的 条评论
为什么被折叠?



