【数据科学赛】Meta AI Video Similarity Challenge #视频检索 #双赛道 #$100,000

本次竞赛由DrivenData主办,旨在开发准确高效的算法来应对大规模视频内容审核挑战,特别是针对如Instagram和Facebook等平台上每日上传的大量视频内容。竞赛分为两部分:DescriptorTrack和MatchingTrack,分别聚焦于视频特征向量生成及视频片段匹配。
部署运行你感兴趣的模型镜像

CompHub 实时聚合多平台的数据类(Kaggle、天池…)和OJ类(Leetcode、牛客…)比赛。本账号会推送最新的比赛消息,欢迎关注!

更多比赛信息见 CompHub主页


以下内容摘自比赛主页(点击文末阅读原文进入)

Part1赛题介绍

题目

Meta AI Video Similarity Challenge

  • Descriptor Track: generate useful vector representations of videos

  • Matching Track: detects which specific clips of a query video correspond to which specific clips in one or more videos in a large corpus of reference videos.

举办平台

DrivenData

主办方

背景

Manual content moderation has challenges scaling to meet the large volume of content on platforms like Instagram and Facebook, where tens of thousands of hours of video are uploaded each day. Accurate and performant algorithms are critical in flagging and removing inappropriate content. This competition allows you to test your skills in building a key part of that content tracing system, and in so doing contribute to making social media more trustworthy and safe for the people who use it.

Part2时间安排

Phase 1: Model Development (December 2, 2022 00:00 UTC - March 24, 2023 23:59 UTC): Participants have access to the research dataset to develop and refine their models. Submissions may be made to the public leaderboard and evaluated for the Phase 1 leaderboard. These scores will not determine final leaderboard and rankings for prizes.

Phase 2: Final Scoring (April 2, 2023 00:00 UTC to April 9, 2023 23:59 UTC): Participants will have the opportunity to make up to three submissions against a new, unseen test set. Performance against this new test set will be used to determine rankings for prizes.

Part3奖励机制

PlaceDescriptor TrackMatching Track
1st$25,000$25,000
2nd$15,000$15,000
3rd$10,000$10,000

Part4赛题描述

  • For the Descriptor Track, your goal is to generate useful vector representations of videos for this video similarity task. You will submit descriptors for both query and reference set videos. A standardized similarity search using pair-wise inner-product similarity will be used to generate ranked video match predictions.

  • For the Matching Track, your goal is to create a model that directly detects which specific clips of a query video correspond to which specific clips in one or more videos in a large corpus of reference videos. You will submit predictions indicating which portions of a query video are derived from a reference video.


您可能感兴趣的与本文相关的镜像

Qwen-Image-Edit-2509

Qwen-Image-Edit-2509

图片编辑
Qwen

Qwen-Image-Edit-2509 是阿里巴巴通义千问团队于2025年9月发布的最新图像编辑AI模型,主要支持多图编辑,包括“人物+人物”、“人物+商品”等组合玩法

<think>嗯,用户想了解如何通过LlamaIndex的VectorIndexRetriever来自定义参数,比如similarity_top_k和dimensions来创建向量索引检索器。首先,我需要回忆一下LlamaIndex的相关文档和示例代码。记得VectorIndexRetriever通常用于从向量数据库中检索最相似的节点,用户可能想调整返回结果的数量或者调整向量的维度。 首先,用户提到了similarity_top_k,这个参数应该控制返回的top k个结果。比如设置为5的话,就会返回前5个最相关的节点。然后是dimensions,这可能需要设置向量数据库的维度,比如使用的嵌入模型输出维度是512还是其他值。需要确认在创建向量索引时如何指定维度,可能是在初始化向量存储的时候设置的,比如Qdrant或者ChromaDB。 接下来,用户需要最佳实践和示例代码。最佳实践可能包括正确设置similarity_top_k以平衡召回率和性能,确保维度与嵌入模型匹配,以及使用持久化的向量数据库。示例代码应该展示如何初始化服务上下文,创建索引,然后配置检索器参数。 还要考虑用户可能遇到的常见问题,比如维度不匹配导致错误,或者similarity_top_k设置过大影响效率。需要提醒用户根据实际需求调整这些参数,并参考LlamaIndex的文档。 另外,用户提供的引用中提到了使用Qdrant和ChromaDB,所以在示例代码中可以展示这两种数据库的用法。可能需要展示如何设置向量存储参数,比如持久化路径和维度。同时,检索后的处理,比如重排序,可能也是用户需要的,但用户的问题主要集中在构建检索器的参数设置上。 最后,确保代码示例正确,包括导入必要的模块,初始化嵌入模型,设置向量存储参数,创建索引,然后获取检索器并设置参数。同时,提醒用户处理可能的异常,比如维度不匹配或者路径权限问题。</think>### 通过 VectorIndexRetriever 自定义参数构建检索#### 1. 核心参数解析 - **`similarity_top_k`**: 控制返回的相似结果数量,直接影响召回范围与性能。值越大召回率越高,但计算成本增加(推荐范围:5-20)[^1] - **`dimensions`**: 向量维度需与使用的嵌入模型输出维度一致(例如$d=384$对应`text-embedding-3-small`,$d=1536$对应`text-embedding-3-large`)[^2] #### 2. 最佳实践代码示例 ```python from llama_index import VectorStoreIndex, ServiceContext from llama_index.embeddings import HuggingFaceEmbedding from llama_index.vector_stores import QdrantVectorStore # 或 ChromaVectorStore # 初始化嵌入模型与向量存储 embed_model = HuggingFaceEmbedding(model_name="BAAI/bge-small-zh-v1.5") vector_store = QdrantVectorStore( path="./qdrant_db", collection_name="custom_retriever", dimension=384 # 必须与嵌入模型输出维度匹配 ) # 创建服务上下文 service_context = ServiceContext.from_defaults(embed_model=embed_model) # 构建向量索引 index = VectorStoreIndex.from_documents( documents, service_context=service_context, vector_store=vector_store ) # 自定义检索器配置 custom_retriever = index.as_retriever( similarity_top_k=10, # 返回top10结果 vector_store_query_mode="hybrid" # 混合检索模式 ) ``` #### 3. 关键注意事项 1. **维度验证**:通过`embed_model.get_dimension()`获取实际维度,避免手动输入错误 2. **持久化配置**:Qdrant/ChromaDB需指定本地存储路径(如`path="./vector_db"`) 3. **检索后处理**:可结合`NodePostprocessor`对结果重排序,提升精度[^1] #### 4. 参数优化建议 $$ \text{召回率} \propto \frac{\log(\text{similarity\_top\_k})}{\text{响应时间}} $$ 建议根据业务需求在精度与效率间平衡,可通过实验选择最佳阈值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值