局部聚合描述子向量(Vector of Locally Aggregated Descriptors,VLAD)是一种编码方法,被广泛应用到计算机视觉的许多课题中,例如图像检索和场景识别。
假设是{xt∈Rd}mt=1{xt∈Rd}t=1m输入的一幅图像的局部描述子向量的集合,{di∈Rd}Ki=1{di∈Rd}i=1K是已经学习得到的码本,则该图像的VLAD编码为:
V=[vT1,vT2,...vTK]TV=[v1T,v2T,...vKT]T
其中vi=∑xt∈didi−xtvi=∑xt∈didi−xt,xt∈dixt∈di表示didi是距离xtxt最近的码字。
最终得到的VLAD编码是Kd×1Kd×1的向量。