融入强依赖序列的图像字幕生成

  • 打印
  • 收藏
收藏成功


打开文本图片集

0引言

图像描述作为计算机视觉与自然语言处理的交叉学科,属于多模态任务的前沿研究方向[。它首先利用计算机视觉提取图像特征,然后通过自然语言处理技术生成描述文本。而生成图像的描述文本是一项充满挑战的任务,主要难点包括:

(1)输入输出的异构性以及编码和解码网络结构的差异,导致跨模态语义差异,使图像的视觉特征在表达时存在模糊性和不确定性。(剩余8044字)

目录
monitor
客服机器人