用词袋(bag of word)实现场景识别

本文介绍了词袋模型在场景识别中的应用,首先阐述了词袋模型的概念,它通过统计每个视觉单词的频率作为分类器特征。接着,以文本处理为例,解释了词袋模型如何将文档表示为向量,并在计算机视觉领域,特别是类别识别中的基本处理框架。此外,还提供了在Matlab中使用vlfeat库进行词袋模型操作的安装步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

        前段时间在standford university的计算机视觉:算法与应用这门课上做了一个小作业——利用词袋实现场景识别(Scene recognition with bag of words),下面整理如下:

一、袋模型

         最先是由Josef等基于自然语言处理模型而提出的这一模型在文档分类里广为应用,通过统计each word的frequency来作为分类器的特征。类比一文章由很多文字(textual words) 组合而,如果將張图片表示成由许多 视觉单词(visual words组合而成,就能将过去在文本检索(text retrieval)领域的技巧直接利用在图像检索(image retrieval)中,以文字检索系统现在的效率,图像表示的“文字化”也有助于大规模(large-scale)图像检索系统的效率。

          下面通过一个简单的例子来说明词袋在文本处理中的应用:

           如下两篇简单的文档;


        基于这两篇文档建立一个字典(Dictionary)如下:

       

        易见这个字典由10个distinct word构成,将其作为indexes,我们可将两篇文档表示为如下的10-entry vector:

通俗的讲:

Bag-of-words model实际就是把文档表示成向量,其中vector的维数就是字典所含词的个数,在上例中,vector中的第i个元素就是统计该文档中对应(字典)dictionry中的第i个单词出现的个数,因此可认为BoW model就是统计词频直方图的简单文档表示方法。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值