基于多模态预训练大模型和细粒度特征增强的图像中文描述

  • 打印
  • 收藏
收藏成功


打开文本图片集

图像描述是融合计算机视觉[和自然语言处理[2的交叉任务,其成果可应用于视障人士辅助、自动驾驶、图像检索、图像标注及人机交互等多个领域[3-5]。现有的图像描述方法大致可分为3类:基于检索的图像描述方法、基于模板的图像描述方法和基于深度学习的图像描述方法。

基于检索的图像描述方法通过搜索一个大型的已有图像及描述库,找到与待描述图像最相似的图片,并使用这些已有描述对其进行描述。(剩余9164字)

monitor
客服机器人