利用Intel的Visual Data Management System (VDMS)进行高效大规模“视觉”数据管理

最新推荐文章于 2025-12-24 11:57:52 发布

原创最新推荐文章于 2025-12-24 11:57:52 发布 · 415 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#python

技术背景介绍

现代数据驱动的应用程序需要快速高效地访问大量的视觉数据。例如，在机器学习和计算机视觉领域，经常需要对大量的图片、视频以及相关的元数据进行快速检索和处理。Intel的Visual Data Management System (VDMS) 正是为了解决这一需求而开发的。它是一种存储解决方案，通过将视觉元数据存储为图结构，支持通过视觉元数据进行大规模云搜索，并为视觉数据提供快速访问的机器友好增强功能。VDMS基于MIT许可证开源，支持K近邻搜索以及各种距离计算方法。

核心原理解析

VDMS结合了图数据库和向量数据库的强大功能，通过各种索引和距离计算策略（如Euclidean距离、内积等），实现了对文本、图像和视频的高效嵌入和检索。这使得VDMS非常适合用于需求高效检索和分析的场景。

其中，VDMS支持以下几种索引方式：

使用Faiss库的Flat和IVFFlat索引来进行快速向量搜索
使用TileDBDense和TileDBSparse来支持稠密和稀疏数据的索引
使用Flinng的近邻过滤器（FLINNG）进行高效的近邻查找

代码实现演示

以下是一个使用VDMS作为向量存储的简单示例。这里我们通过Docker容器启动VDMS服务，并使用Python客户端添加并搜索文档。

# 安装必要的包
%pip install --upgrade --quiet vdms sentence-transformers langchain-community > /dev/null

import time
from langchain_community.document_loaders.text import TextLoader
from langchain_community.vectorstores import VDMS
from langchain_community.vectorstores.vdms import VDMS_Client
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_text_splitters.character import CharacterTextSplitter

# 启动VDMS服务
!docker run --rm -d -p 55555:55555 --name vdms_vs_test intellabs/vdms:latest

# 连接到VDMS服务
vdms_client = VDMS_Client(host="localhost", port=55555)

# 加载文档并进行分片
document_path = "../../how_to/state_of_the_union.txt"
raw_documents = TextLoader(document_path).load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(raw_documents)

# 创建嵌入函数
embedding = HuggingFaceEmbeddings()

# 将文档添加到VDMS中
collection_name = "my_collection_faiss_L2"
db_VDMS = VDMS.from_documents(
    docs,
    client=vdms_client,
    collection_name=collection_name,
    embedding=embedding
)

# 进行相似性搜索
query = "What did the president say about Ketanji Brown Jackson"
returned_docs = db_VDMS.similarity_search(query, k=3)

# 打印结果
def print_document_details(doc):
    print(f"Content:\n\t{doc.page_content}\n")
    print("Metadata:")
    for key, value in doc.metadata.items():
        print(f"\t{key}:\t{value}")

print(f"查询结果:")
for doc in returned_docs:
    print_document_details(doc)

# 停止VDMS服务
!docker kill vdms_vs_test

应用场景分析

VDMS非常适合以下场景：

大规模媒体内容管理：支持快速检索和分析大规模视频和图像数据。
大数据分析：与其他分析工具结合，能够进行复杂的大数据分析任务。
AI增强应用：如智能搜索、推荐系统等需要处理大量视觉数据的应用。

实践建议

利用Docker镜像：建议使用预构建的Docker镜像来快速启动和管理VDMS服务。
优化查询：选择合适的索引和距离策略以达到最佳性能。
持续更新：随着VDMS的不断发展，保持工具和库的更新以利用最新的功能和优化。

如果遇到问题欢迎在评论区交流。

—END—