你好,游客 登录 注册 发布搜索
背景:
阅读新闻

斯坦福联合Facebook创建CLEVR:用于组合式语言和初级视觉推理的诊断数据集

[日期:2016-12-26] 来源:机器之心  作者: [字体: ]

  摘要:当开发能够推理和回答关于视觉数据的问题的人工智能系统时,我们需要诊断测试来分析我们的进展和发现缺陷。现有的一些视觉问答基准可以提供帮助,但它们有很强的偏置(bias)——模型可以利用这些偏置从而无需推理就能给出问题的正确答案。它们还混有多个误差源,这会让我们难以定位模型的弱点。我们提出了一个诊断数据集,其可以测试许多视觉推理能力。它包含了最小的偏置,并且有详细的标注描述了每个问题所需的推理的类型。我们使用这个数据集分析了各种现代的视觉推理系统,为它们的能力和局限性提供了全新的见解。

  导言

  人工智能研究的一个长期目标是开发能够推理和回答关于视觉信息的问题的系统。为了研究这个问题,研究者在近段时间已经提出了多个数据集 [4, 10, 21, 26, 32, 46, 49]。这些每一个视觉问答(VQA:Visual Question Answering)数据集都包含了关于图像的自然语言难题。正确回答这些问题既需要识别物体、属性和空间关系等感知能力,也需要计数、执行逻辑推理、做比较或利用世界知识常识等更高级的能力 [31]。研究者为解决这些问题提出了很多方法 [2, 3, 9, 24, 44],但其中许多都只是在强基线上的一点点改进 [4, 16, 48]。不幸的是,我们理解这些方法的局限性的能力受到了 VQA 任务的固有复杂性的阻碍。这些方法的问题到底是识别失败、推理能力差、缺乏常识知识还是其它什么呢?

  在这篇论文中,我们提出了一个用于研究 VQA 系统执行视觉推理的能力的诊断数据集(diagnostic dataset)。我们将这个数据集称为 Compositional Language and Elementary Visual Reasoning(组合式语言和初级视觉推理)诊断数据集,简称 CLEVR。CLEVR 包含 10 万张经过渲染的图像和大约 100 万个自动生成的问题,其中有 85.3 万个问题是互不相同的。其中包含了测试计数、比较、逻辑推理和在记忆中存储信息等视觉推理能力的图像和问题,如图 1 所示。

  图 1:一个来自 CLEVR 的图像与问题样本。这些问题测试的是视觉推理中的属性识别(棕色文本)、计数(红色)、比较(蓝色)、多注意(绿色)和逻辑运算(紫色)等方面。

  我们设计 CLEVR 的目标很明确——实现详细的视觉推理分析。我们的图像描绘了简单的 3D 形状;这简化了识别,让我们可以将重点放到推理能力上。我们确保每张图像中的信息都是完整的和独有的,这样使得常识知识等外部信息源无法增加正确回答问题的几率。我们通过在相关问题族内的拒绝采样(rejection sampling)而最小化了问题-条件偏差(question-conditional bias),我们还避免了退化问题(degenerate questions)——即那些看似复杂,实际上却有获得正确答案的简单捷径的问题。最后,我们为图像和问题都使用了结构化的 ground-truth 表征:图像使用 ground-truth 物体位置和属性进行了标注,问题则被表征为可以被执行来回答该问题的功能程序(functional programs)(详见第 3 节)。这些表征能够帮助实现使用传统的 VQA 数据集无法实现的深入分析。

  这些设计选择也意味着:尽管 CLEVR 中的图像可能看起来很简单,但它的问题却很复杂,需要一系列的推理能力。比如说,归纳未见过的物体和属性的组合可能需要分解表征(factorized representations);计数或比较这样的任务可能需要短期记忆 [15] 或关注特定的物体 [24, 44];以多种方式结合多个子任务的问题可能需要组合式系统来回答 [2,3]。

  我们使用 CLEVR 分析了一套 VQA 模型,并且发现了并不为人所知的缺陷。比如说,我们发现当前表现最佳的 VQA 模型在需要短期记忆(比如比较物体的属性)或组合式推理(比如识别全新的属性组合)的任务上表现并不好。这些观察为进一步的研究指出了全新的方向。

  最后,我们强调的在 CLEVR 上的准确度本身并不是一个最终目标:一个使用 CLEVR 宇宙的明确知识的人工设计的系统可能会表现很好,但却无法泛化到真实世界环境中。因此 CLEVR 应该与其它 VQA 数据集结合使用,以研究通用 VQA 系统的推理能力。

  本 CLEVR 数据集以及用于生成新图像和问题的代码将会公开开放。

  图 2:一个 CLEVR 宇宙的现场指导。左侧:形状、属性和空间关系;中部:问题样本与它们的相关功能程序;右侧:用于构建问题的基本函数的目录。

  图 3:上部:CLEVR 的统计数据;大多数问题是独一无二的,少数来自验证和测试集的问题会出现在训练集中。下左侧:对于不同 VQA 数据集的问题长度比较;CLEVR 的问题通常长得多。下右侧:CLEVR 中的问题类型分布。

 

  图 4:在 CLEVR 数据集上,6 种 VQA 方法按问题类型分类的准确度比较(更高的更好)。

收藏 推荐 打印 | 录入:admin | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款