你好,游客 登录
背景:
阅读新闻

谷歌研究院发布NIMA:能评价图像有多美,还能让图像变得更美

[日期:2017-12-25] 来源:云创大数据  作者: [字体: ]

美是否存在标准?在图像处理与计算机视觉领域,图像质量与美学的量化问题一直困扰着研究者们。从技术的角度来说,图片质量的评估主要与像素降级相关,比如噪声、模糊、压缩等等。而图像在美学层面的评估,则需要根据图片所传达的情感或美感所连接的语义级特征来评判。

近年来,在人类标记数据的训练下,CNN 能解决图像质量评估的部分问题,不过只限于特定种类的图片(如风景照)。但这类方法通常会把图片分为两类:质量好和逊色的,这也使得它所应用的领域非常局限。谷歌采用的方法能够预测评级的分布,提供更好的质量预测,与实际评分有着更高的相关性,并能够应用于一般图像。

在 NIMA: Neural Image Assessment 这篇论文中,谷歌研究团队提出了一种深度 CNN,能够从直接观感(技术角度)与吸引程度(美学角度)预测人类对图像评估意见的分布。

虽然图像万千各异,但这一神经网络不仅能对图像进行与人类审美相符的评分,而且能帮助以智能照片编辑、优化视觉质量等需要大量人力与主观任务的处理,并尽可能减少在图像可能引致的视觉错误。

论文地址:https://arxiv.org/abs/1709.05424

背景

一般来说,图像质量评估可以分为全参考(full-reference)和无参考(no-reference 或 Blind, BIQA)的方法。(AI 科技评论注:客观质量评价方法还有一种,名为半参考方法,Reduced-Reference, RR,在这不作讨论)如果可采用全参考方法,则有诸如 PSNR,SSIM 等的图像质量度量。如果要采用无参考方法,需要依赖统计模型来预测图像质量。

这两类方法主要是预测一个符合人类感知的质量分数。在利用 CNN 做图像质量评估时,通过相关数据集(ImageNet)进行训练以实现初始化权重,并针对感知质量评估任务对注释的数据进行微调。

NIMA

虽然在训练数据集中,每张图像都会与人类评分的直方图相连接(而非单个二进制分数)。但典型的美学预测方法依然会根据质量好坏将图像分为两类。通过直方图的评分,我们拥有了一个评价图像质量的指标,这也同样是评价者共同达成的协议。在谷歌所采用的方法中,NIMA 模型并不是简单地将图像划出高分或低分,也不是针对平均分做回归,而是对任意图像都做一个评分分布——在 1 到 10 的范围内,NIMA 会将这张图的得分可能性分配给这 10 个分数。这这方法更直接地揭示了训练数据是如何被捕获的,此外,当与其它方法进行对比时,它能呈现对于人类偏好的更好预测。

NIMA 的向量得分(如平均值)采用不同的函数将图像用美学的标准进行排序。一些在 AVA 数据集中的大范围数据库测试图经 NIMA 进行评估后,按得分高低排序的结果如下图所示(括号内的数字为实际得分)。每张 AVA 图片通过 DPChallenge(一个摄影师社区)的 200 名评分员进行打分,所得到的平均分即为这张图片的实际得分。经过训练的 NIMA,对这些给定图片的打分与人类所给定的分数非常相近,这也意味着相近的审美排序。谷歌研究者也发现,同样地,NIMA 在其它数据集上的表现也非常优异。

NIMA 将这些来自 AVA 数据集,且标有「风景」标签的图像进行打分并排序,预测的 NIMA 得分(括号内为实际得分)如图所示。

此外,NIMA 的得分也可以用于比较图像的失真程度。下图所展示的 TID 2013 数据集的例子呈现了,在不同程度的失真情况下,图片的得分反映了图片质量。

来自 TID 2013 数据集的样例。NIMA 所计算的分数如图所示。

在感知层面增强图像

在本月月初的一篇论文《Learned Perceptual Image Enhancement》中,谷歌研究者们了解到,质量与美感分数同样也能被用于辅助图像增强的操作中。也就是说,如果将 NIMA 得分最大化作为损失函数的一部分,能够提升图像增强的感知质量。下面的例子表明,NIMA 可以作为一种训练损失,对色调增强算法进行调节。研究者发现,图像增强前后的得分发生了提升。因此,模型能够作为 CNN 的过滤器更好地调整图像的观感,如亮度、高光与阴影等。

NIMA 能够当作训练损失函数的一部分以增强图像。以 MIT-Adobe FiveK 数据集的图片为例,经过带有 NIMA 的 CNN 训练后,图片原本的色调与对比度都有了更好的效果提升。

未来

这份工作揭示了,基于机器学习的质量评估模型有着广泛的应用前景。比如,谷歌研究员们能够让用户们轻松地在一大堆照片里进行精选好照片;或是为用户提供实时反馈,提升拍照质量。这些模型能够引导图像增强操作器,以产生观感更佳的图像处理结果。而从更直接地说,NIMA 的网络(或其它同类型网络)能够提供(虽然)不够完美的,但至少合理且符合人类审美的照片甚至是视频。谷歌研究团队很乐于分享这些研究结果,虽然他们也深知,在照片质量与美感的可解释性、可理解性上,仍然任重道远。

收藏 推荐 打印 | 录入:Cstor | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款