1000字范文,内容丰富有趣,学习的好帮手!
1000字范文 > image caption笔记(八):《From Captions to Visual Concepts and Back》

image caption笔记(八):《From Captions to Visual Concepts and Back》

时间:2023-11-14 22:25:50

相关推荐

image caption笔记(八):《From Captions to Visual Concepts and Back》

这篇文章是微软的工作,是和谷歌《show and tell》同时期的文章,它们都去参加了微软的Image Caption比赛(MS COCO caption challenge),总的结果是并列第一。

文章的框架不是我们常见的encoder-decoder类型,但是仍然有启发意义。

文章生成caption的思路是

(1)给出一幅图像,首先使用视觉检测器提取出图像中可能存在的单词。

(2)提取完单词后,采用传统的方法,而不是lstm来进行语言建模。得到若干预测的captions.

(3)使用DMSM模型(deep multimodal similarity model)计算captions和图像的相似度 ,取最相似的一个caption作为最终的预测结果。

实现细节如下:

(0)准备工作

作者首先在所有的captions中提取了1000个单词,它们占到了所有单词出现次数的92%以上。

按照我们的想法,首先我们要提取图像中可能存在的词汇,对于 cat dog 等这一类名词,使用BBs框出来是比较容易的,但是一些抽象的词,比如 beautiful 没办法限定在图像特定的区域上。 作者使用的方法是使用弱监督的多实例学习(MIL)。

下面简单的介绍一下多实例学习(Multiple Instance Learning,MIL)

首先来简单介绍下多示例学习。多示例学习实际是一种半监督算法。考虑这样一种训练数据:我们有很多个数据包(bag),每个数据包中有很多个示例(instance)。我们只有对bag的正负类标记,而没有对instance的正负例标记。当一个bag被标记为正时,这个包里一定有一个instance是正类,但也有可能其他instance是负类,当一个bag被标记为负类时,它里面的所有instance一定是负类。我们的目标是训练一个分类器,可以对instance的正负进行判别。

多示例学习在现实中其实很常见。如一篇文章违禁时通常是因为该文章具有某些违禁词,但我们可能无法知道具体是哪个词违禁。在这个例子中,bag就是文章,instance就是单词。又如在医学图像领域,CT图被标定为有无病症,而一个人有病症是因为在CT图的某个区域被检测为病灶区域。我们往往只有CT图的标注,但没有CT图中每个区域的标注。这时,bag就是CT图像,而instance就是CT图中的小区域。

在这篇论文中,就是使用多示例学习来处理从图片出提取单词这一问题。对每一个单词来说,标注中含有该单词的图片就是正例的bag,图中的区域就是instance。

由此,我们使用多示例学习方法进行两步迭代,第一步是利用当前算法,选出正例bag中最有可能是正例的instance、以及负例bag的instance。这样,我们就有了大量instance的标签(1000个单词)。

第二步是利用选出的正例instance进行训练,更新训练,这就是一个监督学习的过程了。这样迭代下去,就可以对图片的区域进行分类。

这样给出一个图片的区域,我们就可以提取所需要的单词。文章采用的是针对目标检测改进版的多示例学习方法Noisy-OR MIL,来自(《Multiple instance boosting for object detection》)。

可以看出,最核心的两个问题是

怎么找最有可能时正例的instance(图像区域)和用什么网络架构对选出的instance进行训练。

测试的时候,给出一幅图像i,对每个区域j,计算该区域包含单词w的概率,计算出图像 i包含单词w的概率。

将图像输入训练好的全连接网络,输出12*12的特征图,特征图每个位置代表了图像上的一个区域(可能有重叠),利用这个特征图进一步产生词的概率。

训练的时候,我们把不同区域的特征输进网络,然后做一个多标签的预测。比如某一个标签是‘dog’,如果所有的区域特征输进网络,得到的结果都不是'dog;,我们判定该图像在‘dog’这个标签上是一个负包。否则是一个正包。根据图像对应的caption,我们可以知道图像在‘dog’上的gt究竟是正包还是负包。这就可以计算损失函数。

如果损失函数不为0,更新梯度值。

利用传统 的方法生成若干captions,这一部分没看懂。

建立DMSM模型计算captions和image的相似度。DMSM是一对神经网络。

将前面那个全卷积网络的最后fc表示叠加三个tanh非线性层,作为图像特征的表示。图像特征提取完成。(Q)

引入DSSM,将文本映射到特征空间。文本特征提取完成。(D)

采用余弦相似度计算二者的相似程度。

r是平滑因子。D是多个caption的集合。

经过这三部分,模型的框架搭建起来。不过不能实现端到端的训练,需要分阶段训练。这也是bottom_up机制存在的问题。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。