附录B 外文原文

AVA: A Large-Scale Database for Aesthetic Visual Analysis

Naila Murray, Computer Vision Center, Universitat Autonoma de Barcelona Spain , nmurray@cvc.uab.es

ABSTRACT

With the ever-expanding volume of visual content available, the ability to organize and navigate such content by aesthetic preference is becoming increasingly important. While still in its nascent stage, research into computational models of aesthetic preference already shows great potential. However, to advance research, realistic, diverse and challenging databases are needed. To this end, we introduce a new large-scale database for conducting Aesthetic Visual Analysis: AVA. It contains over 250,000 images along with a rich variety of meta-data including a large number of aesthetic scores for each image, semantic labels for over 60 categories as well as labels related to photographic style. We show the advantages of AVA with respect to existing databases in terms of scale, diversity, and heterogeneity of annotations. We then describe several key insights into aesthetic preference afforded by AVA. Finally, we demonstrate, through three applications, how the large scale of AVA can be leveraged to improve performance on existing preference tasks.

INTRODUCTION

Judging the aesthetic value of an image is a challenging task. It is becoming increasingly important in web-scale image search for retrieving high quality images, but also for recommending images in photofinishing and for on-line photo suggestion. This is a problem that is currently receiving increasing attention in the computer vision and multimedia retrieval communities. Most of the research on aesthetic analysis has focused on feature design. Typically, features capturing the “aesthetic” properties of an image are proposed with the aim of mimicking photographic rules and practices such as the golden ratio, the rule of thirds and color harmonies [3, 11, 16, 6, 15]. More recently, Marchesotti et al. [17] showed that generic image descriptors can outperform traditional aesthetic features. Despite all the work on designing image descriptors for aesthetics, little attention so far has been dedicated to the collection, annotation and distribution of ground truth data.

Figure 1. A sample challenge entitled “Skyscape” from the social network www.dpchallenge.com. Images are ranked according to average score and the top three are awarded ribbons.

We believe that novel datasets shared by the community will greatly advance the research around this problem. This has been the case for semantic categorization, where successful datasets such as Caltech 101 [13] and 256 [8], PASCAL VOC [7] and Imagenet[5] have contributed significantly to the advancement of research. Such databases are typically composed of images obtained by web-crawling and annotated by crowd-sourcing. In the specific case of aesthetic analysis, having rich and large-scale annotations is a key factor.

However, a major complication of aesthetic analysis in comparison to semantic categorization is the highly subjective nature of aesthetics. To our knowledge, all the image datasets used for aesthetic analysis were obtained from on-line communities of photography amateurs such as www.dpchallenge.com or www.photo.net. These datasets contain images as well as aesthetic judgments they received from members of the community. Collecting ground truth data in this manner is advantageous primarily because it is an inexpensive and expedient way to obtain aesthetic judgments from multiple individuals who are generally “prosumers” of data: they produce images and they also score them on dedicated social networks. The interpretation of these aesthetic judgments, expressed under the form of numeric scores, has always been taken for granted. Yet a deeper analysis of the context in which these judgments are given is essential. The result of this lack of context is that it is difficult to understand what the aesthetic classifiers really model when trained with such datasets. Additional limitations and biases of current datasets may be mitigated by performing analysis on a much larger scale than is presently done. To date, at most 20,000 images have been used to train aesthetic models used for classification and regression. In this work, we present a new database called AVA (Aesthetic Visual Analysis), which contains more than 250,000 images, along with a rich variety of annotations. We then investigate how this wealth of data can be used to tackle the problem of understanding and assessing visual aesthetics. The database is publicly available at www.lucamarchesotti.com/ava.

Below are the principal contributions of our work:

bull; We introduce a novel large-scale database for image aesthetics and we show how it can be used to advance research in the field using three sample applications.

bull; Through AVA we explore the factors that make aesthetic analysis such a challenging and intriguing research problem.

bull; We show in our experiments that not only does the scale of training data matter for increasing performances, but also the aesthetic quality of the images used for training.

The rest of the paper is organized as follows. In section 2 we present AVA and its components. We compare the database to existing image aesthetics databases in section 2.1. In section 3 we describe several important factors which should be addressed when modeling aesthetic preference but are currently ignored in the literature. In section 4 we provide three concrete examples of applications that can benefit from AVA. In section 5 we discuss possible future avenues of research that could be opened with the database.

Creating AVA

AVA is a collection of images and meta-data derived from www.dpchallenge.com. To our knowledge, it represe

剩余内容已隐藏，支付完成后下载完整资料

附录A 外文译文

AVA：美学视觉分析的大规模数据库

Naila Murray, 计算机视觉中心, 西班牙巴塞罗那自治大, Nmurray@cvc.uab.es

摘要

随着可用的视觉内容的数量不断增加，通过审美偏好组织和导航这些内容的能力变得越来越重要。虽然还处于初级阶段，但对审美偏好计算模型的研究已经显示出巨大的潜力。然而，为了推进研究，需要现实的、多样的和具有挑战性的数据库。为此，我们介绍了一个新的大规模数据库进行 ae-可视化分析: AVA。它包含超过250,000张图片，以及丰富的元数据，包括每张图片的大量美学评分，超过60个类别的语义标签，以及与摄影风格有关的标签。我们展示了 AVA 在现有数据库的规模，多样性和注释异质性方面的优势。然后，我们描述了 AVA 提供的审美偏好的几个关键见解。最后，通过三个应用程序，我们展示了如何利用大规模的 AVA 来提高现有偏好任务的性能。

1.引言

判断图像的美学价值是一项具有挑战性的任务。在网络图像搜索中，为了检索高质量的图像，它正变得越来越重要，同时也为了在照片处理中推荐图像和在线照片建议。这个问题目前在计算机视觉和多媒体检索社区正受到越来越多的关注。大多数关于美学分析的研究都集中在特征设计上。一般来说，特征捕捉的“美学”性质的图像是为了模仿摄影规则和做法，如黄金比例，三分之一规则和色彩协调[3,11,16,6,15]。最近，Marchesotti [17]等表明，通用图像描述符可以超越传统的审美特征。尽管所有的工作都在设计图像描述符合美学，迄今为止很少有人关注地面真相数据的收集、注释和分发。

图1. 一个名为“ Skyscape”的挑战样本来自社交网络 www.dpchallenge. com。图片根据平均分进行排名，前三名获得丝带

我们相信，社区共享的新数据集将极大地推进围绕这个问题的研究。语义分类就是这种情况，加州理工学院101[13]和256[8]、 PASCAL VOC [7]和 Imagenet [5]等成功的数据集对研究进展作出了重大贡献。这样的数据库通常由网络爬行获得的图像组成，并通过众包进行注释。在审美分析的具体案例中，拥有丰富和大规模的注释是一个关键因素。

然而，与语义范畴化相比，美学分析的一个主要问题是美学的高度主观性。据我们所知，所有用于美学分析的图像数据集都来自于摄影爱好者的在线社区，如 www.dpchallenge.com 或 www.photo. net。这些数据集包含图片以及他们从社区成员那里得到的审美判断。以这种方式收集地面真相数据是有利的，主要是因为这是一种廉价和方便的方式，可以从通常是数据”提供者”的多个个人那里获得审美判断: 他们产生图像，他们也会在专门的社交网络上给他们打分。以数字分数的形式表达的这些审美判断的解释，一直被认为是理所当然的。然而，更深入地分析这些判断所处的环境是必不可少的。这种缺乏上下文的结果是，很难理解当使用这些数据集训练美学分类器时，它们真正的模型是什么。当前数据集的其他限制和偏见可以通过在比目前大得多的规模上进行分析来减轻。迄今为止，最多有20,000幅图像被用于训练用于分类和回归的美学模型。在这项工作中，我们提出了一个新的数据库，称为 AVA (审美视觉分析) ，其中包含超过250,000图像，以及各种各样的一个-符号。然后我们研究如何利用这些丰富的数据来解决理解和评估视觉美学的问题。这个数据库可以在 www.lucamarchesotti. com/ava 上公开获取。

以下是我们工作的主要贡献：

bull; 我们介绍了一个新颖的大规模图像美学数据库，我们展示了如何使用三个样本应用程序来推进该领域的研究。

bull; 通过 AVA，我们探讨了使美学分析成为一个具有挑战性和吸引力的研究问题的因素。

bull; 我们在实验中表明，训练数据的规模不仅对提高表现有重要意义，而且对用于训练的图像的美学质量也有重要意义。

论文的其余部分组织如下。在第二部分，我们介绍 AVA 及其组件。在第2.1节中，我们将该数据库与现有的图像美学数据库进行比较。在第3节中，我们描述了在建模审美偏好时应该解决的几个重要因素，但目前在文献中被忽略了。在第4节中，我们提供了三个应用程序的具体例子，可以从 AVA 中受益。在第5节中，我们讨论了未来可能的研究途径，可以用数据库打开。

2. 创建 AVA

AVA 是一个图片和元数据的集合，来自 www.dpchallenge. com。据我们所知，它代表了第一次尝试创建一个包含异构注释的独特组合的大型数据库。这个数据库的独特之处在于，它来源于一个社区，在这个社区中，图像被上传并被评分以应对摄影挑战。每个挑战由一个标题和一个简短的描述定义(参见图1的样本挑战)。使用这个有趣的特性, 我们将 AVA 中的每个图像与其相应挑战的信息联系起来。这些信息可以与审美评分或语义标签结合使用，以获得对提供这些注释的上下文的理解。我们通过收集大约255,000张图片创建了 AVA，这些图片涵盖了1,447个挑战中的各种主题。我们将挑战与相同的标题和描述相结合，并将其减少到963个。每个图像都与一个挑战相关联。

在 AVA 中，我们提供了三种类型的注释：

美学注释: 每张图片都与分数分布相关，分数分布与个人投票相对应。每张图片的投票数从78到549不等，平均为210票。这样的分数分布代表了数以百计的业余和专业摄影师用熟练的眼光所产生的审美判断的金矿。我们相信这样的注解具有很高的内在价值，因为它们抓住了业余爱好者和专业人士理解视觉美学的方式。

语义注释: 我们提供66个描述图像语义的文本标记。大约200,000张图片包含至少一个标签，150,000张图片包含两个标签。数据库中最常见的标签的频率可以在图2中观察到。

摄影风格注释: 尽管没有一个正式的定义，我们理解摄影风格作为一种一致的拍摄方式，通过操纵相机配置(如快门速度，曝光，或 ISO 水平)。我们手工选择了72个与摄影风格相对应的铝片镜头，根据一本流行的摄影手册[12] ，我们确定了三大类: 光线，颜色，构图。然后我们合并了类似的挑战(例如“ Duotones”和“ Black amp; White”) 我们将每种风格与一个种类联系在一起。由此产生的14种摄影风格以及相关图像的数量分别是: 互补色(949) ，多色调(1,301) ，高动态范围(396) ，即时成像颗粒(840) ，白光(1,199) ，长曝光(845) ，微距(1,698) ，运动模糊(609) ，负像(959) ，三分法(1,031) ，浅自由度(710) ，四后倾斜(1,389) ，软焦点(1,479) ，消失点(674)。

2.1 AVA及相关数据库

在表1中，我们将 AVA 与当前使用的包含美学注释的公共数据库进行比较。下面我们还将讨论区分 AVA 和这些数据集的特性。

图2. AVA 中30个最常见的语义标签的频率

Photo. net (PN)[3] : PN 包含从社交网络 photo. net 收集的3581张图片。在这个在线社区，会员被要求为一张图片打2分，从1分到7分。一个分数代表图片的美学，另一个分数代表图片的原创性。数据集包括每幅图像的平均审美得分和平均原创得分。PN 中的每个图像收到两个或更多分数。AVA 提供的分数评估更丰富的分布和大约70倍的图像数量。PN 也受到[17]中发现的重要偏见的影响。获得高分的图像有由所有者手动创建的帧，以增强视觉外观。

表1. 当前包含美学注释的数据库属性的比较。AVA 是大规模的，包含分数分布，丰富的注释，语义和样式标签

香港中文大学[11] : 香港中文大学收录了12,000张图片，其中一半被认为是高质量的，其余则被认为是低质量的。这些图像来自我们衍生 AVA 的同一个社交网络。不幸的是，这些图片是通过保留从 www.dpchallenge. com 随机获取的60,000张图片中的顶部和底部10% (以平均得分计算)得到的。我们的数据集在几个方面与中大不同。香港中文大学只包含对其分数有非常清晰共识的图片，而 AVA 也认为香港中文大学的图片比较模糊。其结果是，中大不再提供如此困难的挑战: 最近的方法在这个数据集上的分类准确率超过90% [17]。最后，中大只提供二元标签(1 = 高质素图像，0 = 低质素图像) ，而 AVA 则提供每张图像的整体分数分布。

CUHKPQ [15] : CUHKPQ 由来自各种在线社区的17,613个图像组成，分为7个语义类别。每个图像被10个独立观众中的至少8个标记为高质量或低质量。因此，这个数据集由非常高共识图像的二进制标签组成。像中大一样，它没有提出了一个非常困难的挑战: [15]的分类方法获得了所有语义类别的 AROC 值在0.89到0.95之间。此外，尽管 AVA 共享相似的语义注释，但在规模和一致性方面存在差异。事实上，CUHKPQ 是通过混合来自摄影社区的高质量图像和大学生提供的低质量图像而创建的。由于这个原因，数据集不符合实际情况。

MIRFLICKR/Image CLEF: Visual Concept Detection and Annotation Task 2011[9] : MIRFLICKR 是一个引入多媒体检索社区的大型数据集。它包含了100万张由 Flickr 抓取的图片，以及文本标签、美学注释(Flickr 的趣味性标志)和 EXIF 元数据。交叉语言评估论坛(CLEF)利用 MIR-FLICKR 的一个子部分组织了关于“视觉概念检测”的两个挑战。对于这些挑战，基本的注释丰富了情感注释和一些与摄影风格相关的标签。它可能是最接近 AVA 的数据集，但它缺乏丰富的审美偏好注释。事实上，只有“趣味性”标志可用来描述审美偏好。44个可用的视觉概念中的一些可能与 AVA 摄影风格有关，但它们关注两个非常具体的方面: 曝光和模糊。只有以下类别是可用的: 中性照明，过度曝光，曝光不足，运动模糊，无模糊，失焦，部分模糊。此外，带有这种风格注释的图片数量也是有限的。

3. AVA 的分析

通过对美学注释及其与语义注释的关系这两个特殊方面的描述，我们认为美学注释是这种数据库的重要组成部分。

3.1虚拟现实中的审美偏好

视觉审美偏好可以被描述为一个单一的(实际的或二进制的)分数或分数的分布。在第一种情况下，通过对所有可用分数进行平均并最终将平均值与适当的阈值进行二值化来获得单个值。这种表示的主要局限性在于它没有提供注释者之间的共识程度或意见多样性的指示。Wu 等[21]最近的工作通过学习能够通过 structuredSVMs 预测分数分布的模型，提出了解决这一缺点的方案。然而，他们使用由1,224个图像组成的数据集，其中注释了有限的投票数量(平均每个图像28票)。我们相信这样的方法可以大大受益于 AVA，其中更丰富的分数分布(平

均约200票)2410可用。AVA 还使我们能够更深入地理解这种分布，以及从中可以推断出什么样的信息。

得分分布很大程度上是高斯分布。表2显示了用 RMSE 测量的最佳拟合优度(GoF)与我们用来模拟 AVA 得分分布的最佳分布之间的比较。人们发现，高斯函数对于平均得分在2到8之间的图像表现良好，这些图像占数据集中所有图像的99.77% 。事实上，高斯模型的 RMSEs 很少高于0.06。这如图3所示。每个图显示通过聚类平均得分在指定范围内的图像的得分分布而获得的8个密度函数。使用 k 均值进行聚类。分数分布的簇通常由高斯函数很好地近似(参见图3(b)和3(c))。我们还用三个高斯分布拟合了高斯混合模型，但是我们只发现了一个高斯的微小改进。Beta，Weibull 和广义极值分布也适合于得分分布，但给出了较差的 RMSE 结果。非高斯分布倾向于高度偏斜。这种倾斜可以归因于地板和天

花板效应[2] ，发生在评级规模的低端和高端。这可以在图3(a)和3(d)中观察到。具有正偏态分布的图像更好地模拟伽玛分布 gamma; (s) ，这也可以模拟负偏态分布使用变换 gamma; (s) = gamma; ((smin smax)-s) ，其中 smin 和 smax 是最小和最大分数的评分尺度。

表2. 每个分布的平均分数的拟合优度: 最后一行显示了数据集中所有图像的平均 RMSE。高斯正态分布是 AVA 中62% 图像的最佳表现模型

标准差是平均分的函数。图4显示了具有指定范围内平均分数的图像的分数方差的 boxplot。可以看出，“平均”分数(分数在4、5和6左右)的图像往往比分数大于6.6或小于4.5的图像具有较低的方差。事实上，平均得分越接近1或10的极端得分，得分方差越大的概率就越高。这可能是由于分数分布的非高斯性质在评分尺度的极端。

图3. 具有不同平均分数的图像的分布聚类。每个图的图例显示与每个集群相关的这些图像的百分比。平均分数接近评分标准中点的分布趋向于高斯分布，在标准的终点出现高度倾斜的分布

图4. 对于具有不同平均分数的图像，分数分布的方差分布。方差倾向于随着平均得分与评分量表中点之间的距离而增加

具有高方差的图像通常是非常规的。为了理解分数分布可能提供的额外信息，我们对具有低和高方差的图像进行了定性评估。表3显示了我们的发现。用于图像的样式和技术的执行质量似乎与它得到的平均分数相关。然而，对于给定的平均值，方差大的图像似乎更可能是前卫的或受到解释的影响，而方差小的图像往往使用传统的风格或描绘传统的主题。这符合我们的直觉，即创新应用摄影技术和/

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[405984]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

以上是毕业论文外文翻译，课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

AVA：美学视觉分析的大规模数据库外文翻译资料

附录B 外文原文

您可能感兴趣的文章

登录

附录B 外文原文

您可能感兴趣的文章