谷歌展示AI攝影作品 專業攝影師都點贊

AI科技评论按：Google的最新研究告诉我们，在摄影这种强主观判断的领域，机器也能像人一样审美，生成让摄影师都点赞的照片啦。具体是如何实现的，往下看吧！

机器学习（ML）在许多目标明确的领域有优秀的表现。具有明确正误答案区分的任务将有助于训练，而且能让算法实现预设的目标，比如准确地从图像中识别物体，或者合理的将语言进行翻译。然而，也有许多领域的任务是很难客观评价的，在诸如评价一张照片美丽与否这种太主观的问题上时——这与每个人的审美有关，就不太适合用机器学习来解决了。

谷歌展示AI摄影作品专业摄影师都点赞
图：贾斯珀国家公园的一张专业摄影照

为了研究机器学习是如何学习主观概念的，Google针对艺术性的创作引入了一种试验性的深度学习系统。这个系统会模仿专业摄影师来展开工作。它的工作流程如下：从谷歌街景中浏览景观图，分析出最佳的构图，然后进行各种后期处理，从而创造出一幅赏心悦目的图像。

这位虚拟摄影师通过浏览阿尔卑斯山、加拿大的班夫及贾斯珀国家公园、加州Big Sur和黄石国家公园等地的4万张全景照片，创作了许多令人印象深刻的作品，其中一些甚至达到了专业水准——专业摄影师如此评价到。

训练模型虽然照片中的美感可以用类似AVA系统中的数据集来模拟，但是就这么直接的用AVA系统来处理照片，可能会在美感上有部分方面的缺失，比如做出的照片过饱和。再者，如果想通过监督学习适当地从多个方面来学习美感，所需的标签数据集会很难收集，所以这也不是一个好方法。

他们的方法只需要一些高质量的照片，不需要后期前后图像的对比或额外的标签。这个系统能自动将照片中的美感解析成不同方面，每一方面都能通过相反的图像操作产生的负面例子来单独学习。

通过使图像处理半正交化，可以找到快速和独立的最优化步骤，从构图、饱和度/HDR水平和明暗的张力上对图像进行美化：

谷歌展示AI摄影作品专业摄影师都点赞
图：图（a）是全景图，图（b）将图（a）进行裁切，图（c）是对图（b）进行饱和度和HDR优化处理，图（d）是应用戏剧张力蒙版之后的效果。

他们用传统的图像滤波器生成了包括饱和度、HDR细节和构图的负面例子，还引入了一种名为戏剧张力蒙版（dramatic mask）的特殊操作，它是在学习明暗张力概念的过程中一同产生的。

这些负面例子是这样生成的：应用一组图像滤波器，随机地调整高质量照片的亮度，将图片的质量变差。在训练中，他们使用生成对抗网络(GAN)，在这种模式下，生成网络会创建一个蒙版来改善负面例子中的光线，判别网络则试图将光线改善后的照片与样本照片进行区分。

与vignette这样的固定形状滤波器（shape-fixed filter）不同，戏剧张力蒙版增加了内容感知亮度调节部分。GAN训练天然的竞争性极大地丰富了调节图像特性的能力，在论文中可以看到更多的训练细节。

结果

下面是这种系统基于Google街景的一些创作。如下图所示，经过训练后能够判断美感的滤波器创造出了一些让人惊叹的照片（包括文中最初出现的照片）：

谷歌展示AI摄影作品专业摄影师都点赞
图：加拿大，贾斯珀国家公园

谷歌展示AI摄影作品专业摄影师都点赞
图：瑞士，茵特拉肯

谷歌展示AI摄影作品专业摄影师都点赞
图：意大利，Parco delle Orobie Bergamasche公园

谷歌展示AI摄影作品专业摄影师都点赞
图：加拿大，贾斯珀国家公园

专业评估为了评价这个算法的效果如何，他们设计了一个类“图灵测试”实验：将这个系统创作出来的照片和其他不同质量的照片掺杂在一起，然后把它们展示给几个专业摄影师。他们要求这些摄影师为每张照片评分，分数是基于如下标准：

1分：傻瓜式拍照，照片没有考虑构图以及光线等因素。

2分：没有摄影基础的一般大众拍出来的照片，看起来还可以，但没有明显的艺术感。

3分：半专业。照片中展示出了明显的艺术感，摄影师正朝着专业摄影师迈进。

4分：专业。

在下面的图表中，曲线显示了专业摄影师为已经预估分数的图片打的分数。对于他们预估的高分图片，大约有40%收到了“半专业”或“专业”的评价。

谷歌展示AI摄影作品专业摄影师都点赞

未来的研究

街道全景图为这个项目提供了一个测试平台。有一天，这种技术甚至可以帮助我们现实世界中拍出更好看的照片。

谷歌展示AI摄影作品 专业摄影师都点赞

相关推荐

谷歌展示AI摄影作品专业摄影师都点赞