去google搜了一下image search的文章,好像不是很多。看来一下wiki的文章 http://en.wikipedia.org/wiki/Image_search
google的做法是通过图片的文件名,我猜可能是<img src="xxx/yyy/zzz.jpg">里的zzz就是文件名;指向图片的链接的文字;以及图片附近的文字来作为图片的关键字。另外还看到有人把整个网页的文章都作为图片的特征的,这个做法没啥意义,可能做页面分析后把相关的一段文章来比较好。不过他们有一点想法有点意思。他们认为只有名词尤其是命名实体对于搜索图片比较有用,所以使用了wordnet来过滤没有的词。 出来文字,也有试图“理解”图片内容的。这个领域不熟,而且就目前来看性能不行,而且“理解”一个图片的时间也可能会久,对于海量的数据可能是无法处理的。