Transitive Hashing Network for Heterogeneous Multimedia Retrieval

Transitive Hashing Network for Heterogeneous Multimedia Retrieval 论文阅读笔记。

AAAI 2017

本文针对的是在文本数据和图像数据不同源,不能直接获取相似关系的情况下的跨模态检索问题,文中提出了迁移哈希的思路,利用现有的同源跨模态数据集作为辅助数据集,进行迁移学习,通过拟合非同源数据与同源数据的分布,以同源跨模态数据集的相似度拟合非同源数据集的相似度,从而完成相似度的学习,生成各模态对应的哈希码。

研究动机

  1. 满足非同源跨模态数据间的检索需求,比如用YahooQA数据集中的文本检索ImageNet的图像等;
  2. 现有的跨模态方法针对的都是有同源有标签的跨模态数据集进行的,直接用于非同源的跨模态检索效果不佳

模型

模型包含两个部分:异构相似度学习和同构分布拟合。

异构相似度学习

由于本文中问题的特殊性,本文的训练集为图片模态 和 文本模态 ,其中 由整个辅助数据集图片模态的数据 个非同源查询集中的图片或文本组成,即 由整个辅助数据集文本模态的数据 个非同源数据库中的图片文本组成,集

异构相似度学习,目的是学习图片和文本之间的相似度。损失函数如下:

其中,

为基于对的交叉熵损失, 为量化损失,Tanh 激活函数之后的实值哈希码。

同构分布拟合

通过最小化再生核希尔伯特空间(RKHS)内两个分布 最大平均差异Maximum Mean Discrepancy, MMD)的方法来对齐两个分布。 的 MMD 为:

其中 是查询集 的分布, 是辅助数据集中 的分布,即:

其中 是高斯核函数。相似的,替换 ,就可得到辅助变量 分布的 MMD

总的损失函数为:

实验

详见论文

问题

文中提到在进行异构相似度学习时需要用到相似矩阵,但是非同源跨模态数据集中没有监督信息,相似度如何赋值。在实验阶段提到的为非同源跨模态文本和图像给予标签的方法,是只用于测试的时候评价还是训练的时候也用到,如果训练的时候非同源跨模态数据集有标签的话,就又和本文针对的问题不相符了。

此时不赞何时赞!