在真实世界的视频和图像分析中,企业常面临检测模型原始训练集外物体的挑战。动态环境中频繁出现的新物体、未知物体或用户自定义物体使该问题尤为突出。例如:媒体出版商需追踪用户生成内容中的新兴品牌,广告商需分析 influencer 视频中存在视觉差异的产品,自动驾驶车辆需识别意外路障,制造系统需检测未标注的新缺陷。
传统闭集目标检测模型仅能识别预设类别列表,无法处理未知物体,导致误分类或忽略。开放集目标检测通过结合视觉识别与语义理解(通常借助视觉语言模型),支持检测已知和未见物体,允许使用从具体名称到开放描述的灵活文本提示,且无需重新训练即可实时适配用户定义目标。
某中心的云服务通过视频蓝图支持帧级开放集目标检测。用户输入视频及文本提示后,模型逐帧输出包含XYWH格式边界框、标签及置信度的字典。检测结果可基于置信度过滤,文本提示支持动态字段定义。
应用场景示例
- 多粒度视觉理解:从细粒度对象检测到开放问题检索
- 广告分析:通过提示“检测某设备位置”比较广告投放策略
- 智能监控:用“检测危险元素”实现场景自适应安防
- 自定义标签:支持“检测红轮白车”等灵活查询
- 视频编辑:精准定位物体以替代手工遮罩
技术实现示例
以下蓝图定义章节级显著物体检测:
{
"$schema": "http://json-schema.org/draft-07/schema#",
"class": "media_search_video_analysis",
"properties": {
"targeted-object-detection": {
"type": "array",
"instruction": "请检测视频中所有显著物体",
"granularity": ["chapter"]
}
}
}
输出包含每帧的物体标签、边界框坐标及置信度:
"frames": [
{
"inference_result": {
"targeted-object-detection": [
{
"label": "人物",
"bounding_box": {"left": 0.619, "top": 0.107, "width": 0.163, "height": 0.765},
"confidence": 0.917
}
]
}
}
]
该技术将文本驱动查询与帧级定位结合,显著降低对人工干预和预设规则的依赖,为跨行业视频分析工作流提供可扩展解决方案。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码


被折叠的 条评论
为什么被折叠?



