19  字幕生成的神经网络模型

字幕生成是一个集计算机视觉和自然语言处理于一体的具有挑战性的人工智能问题,编码器 - 解码器递归神经网络架构已被证明在这个问题上是有效的,该体系结构的实现可以提炼为基于注入和合并的模型,并对递归神经网络在解决问题中的作用做出不同的假设。在本章中,您将发现针对字幕生成的编码器 - 解码器循环神经网络模型的注入和合并架构。阅读本章后,您将了解:

  • 字幕生成的挑战和编码器 - 解码器架构的使用。
  • 注入模型将编码图像与每个单词组合以生成字幕中的下一个单词。
  • 合并模型,单独编码被解码的图像和描述,以便生成标题中的下一个单词。

19.1 图像字幕生成

图像字幕生成解决的是如何把照片内容翻译成可读和简洁的文本描述的问题,这是一个具有挑战性的人工智能问题,因为它需要用计算机视觉的技术来解释照片内容和自然语言处理的技术来生成文本描述。最近,深度学习方法已经在这个具有挑战性的问题上取得了很好的成果,结果令人印象深刻,这个问题已经成为证明深度学习能力的标准示范问题。

19.1.1 编码器 - 解码器架构

标准编码器 - 解码器递归神经网络架构用于解决图像字幕生成问题。这涉及两个要素:

  • 码器:一种网络模型,它使用内部表示读取照片输入并将内容编码为固定长度的矢量。
  • 码器:读取编码照片并生成文本描述输出的网络模型。

 

 
 

19.1:字幕生成模型的递归框架。取自Where to put the Image in an Image Caption Generator

 

通常,使用卷积神经网络对图像进行编码,并且使用诸如长短期存储器网络的递归神经网络来来对中间码解码并编码到目前为止生成的文本序列,和/或生成序列中的下一个单词。对于字幕生成问题,有很多方法可以实现这种架构,通常使用在照片分类问题上训练的预训练卷积神经网络模型来对照片进行编码,可以加载预先训练的模型,删除模型的输出,并使用照片的内部表示作为输入图像的编码或内部表示(中间表示)

对于字幕生成问题进行框架操作化是很常见的,在给定照片和之前生成的文本描述作为输入的情况下,模型生成输出文本描述的后续单词,在此框架中,模型被递归调用,直到生成整个输出序列。

这种框架可以使用Marc Tanti等人称为注入模型和合并模型的两种体系结构之一来实现。

 

19.2 注入模型

 

注入模型将图像的编码形式与迄今为止生成的文本描述中的每个单词组合在一起,该方法使用递归神经网络作为文本生成模型,其使用图像和单词信息的序列作为输入,以便生成序列中的下一个单词。

在这些注入体系结构中,图像矢量(通常是卷积神经网络中隐藏层的激活值)被注入到RNN中,例如通过将图像矢量与单词相提并论并且包括它作为字幕前缀的一部分。

Where to put the Image in an Image Caption Generator, 2017.

 

 

 

19.2:编码器 - 解码器模型的注入体系结构。

摘自What is the Role ofRecurrent Neural Networks (RNNs) in an Image Caption Generator?

该模型将图像的关注点与每个输入词组合在一起,要求编码器开发一种将视觉和语言信息结合在一起的编码。

在注入模型中,RNN被训练以基于由语言和感知特征组成的历史来预测序列。因此,在该模型中,RNN主要负责图像条件语言的生成。

What is the Role of Recurrent Neural Networks (RNNs) in an Image Caption Generator?,2017.

19.3 合并模型

合并模型将图像输入的编码形式与到目前为止生成的文本描述的编码形式相结合。然后,这两个编码输入的组合由非常简单的解码器模型使用,以生成序列中的下一个字。该方法仅使用递归神经网络对目前生成的文本进行编码。

合并架构的情况下,图像被排除在RNN子网之外,使得RNN仅处理字幕前缀,即仅处理纯语言信息。在前缀被矢量化之后,图像矢量然后在单独的多模式层中与前缀矢量合并,该多模式层RNN子网之后。

  • Where to put the Image in an Image Caption Generator, 2017.

 

 
 

19.3:编码器 - 解码器模型的合并架构。

What is the Role of Recurrent Neural Networks (RNNs) in an Image Caption Generator?.

这分离了图像输入、文本输入和编码输入建模的各自的关注点及相关组合和解释。如上所述,通常使用预训练模型来编码图像,但是类似地,该架构还允许使用预训练语言模型来编码字幕文本输入。

...在合并架构中,RNN实际上编码语言表示,其本身构成了在多模式层之后的后来预测阶段的输入。只有在这个晚期阶段才能使用图像特征来预测

What is the Role of Recurrent Neural Networks (RNNs) in an Image Caption Generator?,2017

有多种方法可以组合这两个编码输入,如连接、乘法和加法,不过Marc Tanti等人的实验表明,加法的效果更好。更进一步的实验Marc Tanti等人发现合并架构比注入方法更有效。

总体而言,证据表明,将图像特征与语言编码的合并推迟到架构的后期阶段可能是有利的[...]结果表明合并架构比注入架构具有更高的性能,并且可以在较小模型层下生成更高质量的字幕。

What is the Role of Recurrent Neural Networks (RNNs) in an Image Caption Generator?,2017

19.4 更多关于合并模型

编码器 - 解码器架构的合并模型的成功表明:递归神经网络的作用是编码输入而不是生成输出,这与常规认为递归神经网络的作用在于生成模型的理解背道而驰。

如果RNN具有生成字幕的主要作用,那么它将需要访问图像以便知道要生成什么,这似乎不是这种情况,因为将图像包括在RNN中通常不利于其作为字幕生成器的性能。

What is the Role of Recurrent Neural Networks (RNNs) in an Image Caption Generator?,2017

注入和合并模型的明确比较,以及用于字幕生成的合并注入成功,提出了这种方法是否转换为相关的序列到序列生成问题的问题。与用于图像编码的预先训练的模型不同,预先训练的语言模型可以用于对文本摘要、问答系统和机器翻译等问题中源文本进行编码

我们想研究架构中的类似变化是否适用于序列到序列的任务,例如机器翻译,而不是在图像上调节语言模型,而是调整源语言中句子的目标语言模型。

What is the Role of Recurrent Neural Networks (RNNs) in an Image Caption Generator?,2017


0 条 查看最新 评论

没有评论
暂时无法发表评论