目录
3. 借助关键词为索引构建的图像库查询文本在corpus中对应的图片
Topic-image Lookup Table Conversion是一种数据处理的方式, 借助现存的corpus(语料库)匹配与文本对应的图片.借助这种方法,我们无需为图像手动注释
1. 提取标签文本中的关键词
提取corpus中图片-文本对的关键词
2. 为每个关键词构建自身的图片库
只要图片中有出现某关键字,就把该图片纳入关键字组成的索引库中
3. 借助关键词为索引构建的图像库查询文本在corpus中对应的图片
查询文本: dog is playing in the snow
关键字 : dog, playing, snow
在图像库中查询对应关键字, 选取所有查询的库中出现次数(频率)最高的图片作为文本对应图片
参考论文 :
Universal Multimodal Representation for Language Understanding
(https://arxiv.org/pdf/2301.03344.pdf)
论文中的出现位置