Weakly Supervised Deep Image Hashing through Tag Embeddings

Weakly Supervised Deep Image Hashing through Tag Embeddings 论文阅读笔记。

image-20190311112846816

CVPR 2019

本文提出了弱监督图像哈希的问题,由于图像的标签信息不容易获得,而从Web上得到的图像数据可能包含大量的 tag 信息,使用这些 tag 信息来学习图像的哈希码的问题即为弱监督图像哈希问题。本文提出了使用 word2vec 来编码 tag 信息并设计了三个损失函数的方法进行弱监督图像哈希的学习。

弱监督图像哈希和跨模态哈希的区别,前者使用 $(image, tags)$ 对进行学习,后者使用 $(image, tags, labels)$ 三元组进行学习,所以前者称为弱监督,而后者则是监督学习;而且,前者学习的目标是借助 tag 信息将图像映射到哈希空间,进行的还是图像之间的检索,后者则是 image 和 tags 相互影响,学习目标是将图像和文本一起映射到同一个哈希空间,进行的是图像到文本或者文本到图像的检索问题。

模型

image-20190311114108871

  • H1层为hash层,用来生成最后的hash码
  • H1层用来生成图片的 tag embedding,与图片真实的 tag embedding 进行比较,产生损失

Tag 的处理

使用图片中出现的 tag 的平均,tf值或者 itf 值作为每个 tag 的权重,进行加权求和。

其中 是第 $i$ 张图片的第 $j$ 个 tag, 是第 个图片的第 个 tag 的 word2vec 向量, 是第 个图片 tags 的 embedding。

损失函数

  • 基于对的相似度损失

    使用余弦相似度度量两个图片 tags embedding 的相似度,来表示图片的相似度,损失如下:

    其中 表示 H1 层的输出, 为 batch size, 为 hash 码长度。

  • 基于 mini-batch 的铰链损失(Hinge loss)

    其中 表示 H2 层的输出。该损失等于 0 时,必须满足第 张图片在 H2 层的输出与其真实的 tag embedding 的距离要小于它与其他图片的 tag embedding 的距离加上 margin。

  • 量化损失

  • 总的损失

二值 tag-vector 模型

不使用 word2vec,当两张图片至少有一个 tag 相同,就视为相似,因为没有 word2vec 的应用,H2层被删除,新的损失函数为:

其中 表示相似度矩阵, 表示 mini-batch 中相似对的比例。

此时总的损失为:

实验

详见论文

此时不赞何时赞!