在提到数据库时,关系数据库因其简单性和易用性,长期以来一直是数据存储的默认选择。然而,在当今以数据为驱动的互联网行业中,非结构化数据(如文本、图像和音频)的存储需求日益增多,使得向量数据库成为了一个可行的替代方案。
向量数据库与传统数据库有显著的功能差异。传统数据库的数据存储和管理仅限于整数和字符串等原始数据类型,而向量数据库以向量为单位进行数据存储和管理,能够高效处理非结构化数据,因而逐渐变得很受欢迎。目前市场上有大量公司提供向量数据库产品和向量搜索服务,而 MyScale 作为独特的 SQL 向量数据库在市场中脱颖而出。我们将通过一系列文章全面对比 MyScale 和其他一些热门向量数据库,第一个就是 Pinecone。Pinecone 是一个闭源的,专门用于高维向量数据高效处理的向量数据库。它在存储、索引和查询向量嵌入方面表现出色,是相似性搜索和需要实时和高维向量操作的机器学习应用的理想解决方案。
在开始对比 MyScale 和 Pinecone 之前,我们需要先对与向量数据库相关的重要概念进行简答说明。
为什么向量搜索很重要
向量可以表示多种数据:值数组、文本数据、空间数据、图像等等。执行基本的向量算术或进行点积运算以找到这些数据的对齐/相似性是比较简单的。
非结构化数据通过转化为 vector embedding 存储在向量数据库中。然后,我们可以使用余弦相似度或欧氏距离等原始相似度度量快速高效地执行向量的相似性搜索。与传统数据库的搜索模式相比,这种向量搜索更快速、更低成本,非常适合在短时间内处理大量非结构化数据。
什么是SQL向量数据库
除了专业向量数据库外,一些 SQL 数据库还通过扩展功能提供了向量搜索功能。这些集成解决方案被称为 SQL 向量数据库,旨在在结构化数据环境中提供基于向量的相似性搜索功能,并在统一的数据库框架内管理向量和结构化数据。
MyScale 是一个扩展了 ClickHouse 功能的开源 SQL 向量数据库。它是唯一一个在速度和性能方面能够超越专用向量数据库的集成数据库。
在 LLM 领域的重要性
随着LLM的出现,相关的应用在不同细分领域中快速扩展。这些基础模型可以通过多种方法适应应用程序的特定要求,这些方法可以广义地分为两类:微调和检索增强生成(RAG)。
就微调来说,我们使用现有模型并对其进行微调以适应新的/相关的数据。由于涉及机器学习,微调模型会消耗非常大的计算计算资源,因此成本过高。尽管市场上有 LoRA 等技术,但开发者仍然需要一些强大的 GPU 来进行 LLM 的微调。
而 RAG 和微调截然不同,RAG 不涉及传统的学习过程,而是基于向量数据库使用 vector embedding 进行向量搜索。这种方法利用原始相似度度量,使搜索过程显著加快。
到这里我们基本已经了解了所有基本概念。现在让我们开始比较 MyScale 和 Pinecone。
托管
在选择数据库解决方案时,托管是一个关键方面,它对性能、可扩展性和管理产生重大影响。强大的托管方式可以确保数据库能够处理不同的负载、保持可访问性并且易于维护。此外,了解托管方式有助于用户使用自己的资源在本地部署数据库和云托管服务之间做出选择。
MyScale 和 Pinecone 都可以通过在云上创建项目来以云为基础的模式进行使用。Pinecone 仅支持专有云服务; 而 MyScale 同时提供云版本 MyScale Cloud,和在 Github (https://github.com/myscale/myscaledb) 上提供的开源版本。用户可以使用以下Docker 命令启动开源版本:
docker run

最低0.47元/天 解锁文章
761

被折叠的 条评论
为什么被折叠?



