英语原文共 18 页,剩余内容已隐藏,支付完成后下载完整资料
附录A 外文译文
艾娃: 一个用于审美视觉分析的大型数据库
奈拉·默里,卢卡·马切索蒂,弗洛伦特·佩罗宁
摘 要
随着可利用的视觉内容量的不断扩大,根据审美偏好来组织和导航这些内容的能力变得越来越重要。虽然尚处于起步阶段,但对审美偏好计算模型的研究已经显示出巨大的潜力。然而,为了推进研究,需要现实,多样和富有挑战性的数据库。为此,我们介绍了一个新的用于化学视觉分析的大型数据库: 艾娃。它包含超过250,000张图片,以及丰富多样的元数据,包括每个图片的大量美学评分,60多个类别的语义标签以及与摄影风格相关的标签。我们展示了AVA与现有数据库在规模,多样性和注释异构性方面的优势。然后,我们描述了几个关键的见解,审美偏好提供的AVA。最后,我们通过三个应用程序演示了如何利用AVA的大规模来提高现有偏好任务的性能。
导言
判断图像的审美价值是一项具有挑战性的任务。它在网络规模的图像搜索中变得越来越重要,不仅可以检索高质量的图像,还可以在照片制作中推荐图像,并提供在线照片建议。这是目前计算机视觉和多媒体检索界日益关注的一个问题。
关于美学分析的研究大多集中在特征设计上。典型地,提出了捕捉图像的“AES”特性的特征,其目的是模仿照相规则和实践,例如黄金分割率,三分法和颜色协调[3, 11, 16, 6, 15]。最近,Marchesotti等人。[17]的结果表明,通用图像描述符比传统的美学特征具有更好的性能。
尽管在设计图像描述符方面做了很多工作图1所示。来自社交网站www.dpchallenge.com的一个名为“Skyscape”的挑战示例。图片以平均分进行排名,前三名颁发丝带。
美学,到目前为止,很少注意致力于地面真相数据的收集,注释和分发。
我们相信 新的共享数据集将极大地推动这一问题的研究。语义分类就是这样,成功的数据集如加州理工学院101[13]和256[8],PASCAL VOC[7]和ImageNet[5]对研究的进步做出了重大贡献。这类数据库通常由通过网络爬行获得的图像组成,并通过众包进行注释。在美学分析的特殊情况下,拥有丰富且大规模的注释是一个关键因素。
然而,与语义范畴化相比,美学分析的一个主要复杂之处是美学的高度亚主观性质。据我们所知,所有用于美学分析的图像数据集都是从在线摄影爱好者社区获得的,例如 www.dpchallenge.com或 www.photo.net。这些数据集包含图像以及他们从社区成员那里收到的审美判断。以这种方式收集地面真相数据是有利的,这首先是因为它是从通常是数据“提供者”的多个人那里获得审美判断的一种廉价而方便的方式:他们产生图像,他们还要在专门的社交网络上给他们打分。这些审美判断的互释,以数字分数的形式表现出来,一直被认为是理所当然的。然而,对做出这些判断的背景进行更深入的分析是必要的。这种缺乏内涵的结果是,很难理解美学分类者所做的是什么 真的吗 用这样的数据集训练时的模型。
当前数据集的附加限制和偏差可以通过在比目前所做的更大的规模上执行分析来减轻。迄今为止,最多有20,000张图像被用于训练用于分类和回归的美学模型。在这项工作中,我们提出了一个新的数据库AVA(美学视觉分析),它包含了超过25万张图像,以及丰富的各种符号。然后,我们研究如何利用这些丰富的数据来解决理解和评估视觉美学的问题。该数据库可在 www.lucamarchesotti.com/ava。
以下是我们工作的主要贡献:
我们介绍了一种新颖的用于图像美学的大型数据库,并通过三个示例应用展示了如何将其用于推进该领域的研究。
通过AVA,我们探讨了使审美分析成为一个具有挑战性和耐人寻味的研究问题的因素。
我们在实验中表明,不仅 刻度 训练数据是提高性能的重要因素,但也是提高性能的关键 审美品质 用于训练的图像。
论文的其余部分组织如下。在节中 2 介绍了AVA及其组成。在第节中,我们将该数据库与现有的图像美学数据库进行了比较 2.1。分次 3 我们描述了几个重要的因素,这些因素在建模审美偏好时应该被处理,但目前在文献中被忽略了。在节中 4 我们提供了三个可以从AVA获益的具体应用实例。在节中 5 我们讨论了未来可能的研究途径,可以打开的数据库。
创建AVA
AVA是从以下文件派生的图像和元数据的集合 www.dpchallenge.com。 据我们所知,这是首次尝试创建一个包含异构注释的独特组合的大型数据库。这个数据库的独特之处在于,它是从一个社区衍生而来的,在这个社区上传图片并对摄影挑战进行评分。每个挑战都有一个标题和简短的描述(见图 1 作为示例挑战)。利用这个有趣的特性,我们将AVA中的每个图像与其对应挑战的信息关联起来。可以结合美学分数或语义标记来利用该信息,以获得对提供此类注释的上下文的理解。我们通过收集大约255,000张图片创建了AVA,这些图片涵盖了1,447个挑战的各种主题。我们将挑战与相同的标题和描述结合在一起,我们将它们减少到963个。每个图像都与单个挑战相关联。
在AVA中,我们提供了三种类型的注释:
美学诠释: 每个图像与对应于单个投票的分数分布相关联。每张图片的票数从78票到549票不等,平均为210票。这样的分数分布代表了成百上千的业馀和专业摄影师的审美判断的金矿。我们相信,这些注释具有很高的内在价值,因为它们抓住了爱好者和专业人士理解视觉美学的方式。
语义注释: 我们提供了66个描述图像语义的文本标记。大约200,000张图像包含至少一个标签,150,000张IM包含两个标签。数据库中最常见标签的频率可以在图中观察到 2。
摄影风格注释: 尽管缺乏正式的定义,但我们将摄影风格理解为通过操纵相机配置(如快门速度,曝光或ISO级别)实现的拍摄照片的一致方式。我们手动选择了72个与摄影风格相对应的镜头,并根据一本流行的摄影手册确定了三大类[12]: 光, 颜色, 组成。然后我们合并了类似的挑战(例如“双色调”和“黑白调”),并将每种风格与一种cate-gory相关联。得到的14种摄影风格以及相关图像的数量如下: 互补色(949),双色(1,301),高动态范围(396),即时纹理(840),白光(1,199),长曝光(845),微距(1,698),运动模糊(609),负像
(959),三分法(1,031),浅自由度(710),Silhou-ettes(1,389),软焦点(1,479),消失点(674)。
2.1.AVA及相关数据库
在表中 1 我们将AVA与当前使用的包含美学注释的公共数据库进行比较。 下面,我们还讨论AVA与此类数据集的区别特征。
Photo.NET(PN)[3]: PN包含从社交网络photo.net收集的3581张图片。在这个在线社区里,会员们被要求给一张图片打两个分数,从1到7。一个分数对应于图像的AES理论,另一个分数对应于图像的原创性。数据集
图2。AVA中30个最常见的语义标记的频率。
包括每个图像的平均美学评分和平均原创性评分。 PN中的每幅图像得到两个或两个以上的评分。AVA提供的分数评估更丰富的分布和大约70图像的数量。PN还受到[17]。获得高分的图像具有由所有者人工创建的帧,以增强视觉外观。
times;
艾娃 |
Photo.NET |
香港中文大学 |
中大PQ |
ImageClef |
|
大规模 |
Y |
n |
n |
n |
n |
分数Distr。 |
Y |
Y |
n |
n |
n |
丰富的注释 |
Y |
n |
Y |
Y |
Y |
语义标签 |
Y |
n |
n |
Y |
Y |
样式标签 |
Y |
n |
n |
n |
Y |
表1。当前包含美学注释的数据库性质的比较。AVA是大规模的,包含分数分布,丰富的注释以及语义和风格标签。
中大[11]: 中大收录了一万二千幅图像,其中一半被认为是高质量的,其余的则被标记为低质量的。这些图像来自于我们衍生AVA的同一个社会网络。不幸的是,这些图像是通过保留从随机爬取的60,000张图像的顶部和底部的10%(以平均分数计)来获得的 www.dpchallenge.com。我们的数据集与中大有几个不同之处。中大只收录对分数有明确共识的图片,而AVA也收录较模糊的图片。结果是中大不再提供这样一个棘手的挑战: 在此数据集上,Re-cent方法的分类精度超过90%[17]。最后,中大只提供二进制标签(1=高质量图像,0=低质量图像),而AVA则为每个图像提供完整的分数分布。
中大PQ[15]: 中文图片库收录了17,613幅图片,这些图片来自不同的网上社区,分为7个语义类别。每幅图像被10个独立观看者中至少8个标记为高质量或低质量。因此,该数据集由非常高一致性图像的二进制标签组成。和中大一样,它不是一个非常困难的挑战:的分类方法
[15]获得了所有语义类别在0.89和0.95之间的AROC值。此外,尽管AVA共享相似的语义注解,但它在规模方面有所不同,在一致性方面也有所不同。事实上,中大摄影馆是将来自摄影团体的高品质图片与大学生提供的低品质图片混合而成的。由于这个原因,数据集并不对应于真实的案例场景。
MirFlickr/图像谱号: 视觉概念侦测及注释任务2011[9]: MIRFLICKR是一个大型数据集,引入了多媒体资源社区。它包含了100万张由Flickr抓取的图片,以及文本标签,美学注释(Flickr的Inter-Estingness Flag)和EXIF元数据。MIR-Flickr的一个子部分被CLEF(跨语言评估论坛)组织了两个关于“视觉概念检测”的挑战。针对这些挑战,在基本注释中添加了情感注释和一些与摄影风格相关的标签。它可能是最接近AVA的数据集,但缺乏丰富的审美偏好分析。事实上,只有“趣味性”一词可以用来描述审美偏好。44种视觉概念中的一些可能与AVA摄影风格有关,但它们集中在两个非常特殊的方面:曝光和模糊。只有以下几类可用:中性光照,曝光过度,曝光不足,运动模糊,无模糊,失焦,部分模糊。此外,带有此类样式注释的图像数量有限。
3.AVA分析
我们描述了AVA的主要特征,重点讨论了我们认为对这类数据库非常重要的两个方面:美学注释和它们与语义注释的关系。
3.1AVA中的审美偏好
视觉审美偏好既可以描述为单个(实数或二进制)分数,也可以描述为分数的分布。在第一种情况下,单个值是通过对所有可用得分求平均值,并最终用适当的阈值对平均值进行二值化来获得的。这种表示法的主要缺点是它不能说明注释者之间意见的一致性或多样性的程度。吴的近作 等人。[21]提出了一种通过结构化支持向量机学习一个能够预测分数分布的模型来解决这一问题。然而,他们使用的数据集由1,224张图像组成,并附上了有限的票数(平均每张图像28票)。我们相信,这样的方法可以大大受益于AVA,因为AVA的得分分布更丰富(平均约为200票)都是可用的。AVA还能使我们对这种分布有更深的了解,并能从中推断出什么样的信息。
分数分布很大程度上是高斯分布。表 2 显示了拟合优度(GoF)的比较,通过RMSE测量,在我们用来建模AVA得分分布的顶级性能分布之间。我们可以看到,高斯函数对于平均得分在2到8之间的图像(占数据集中所有图像的99.77%)表现得很好。事实上,高斯模型的RMSE很少高于0.06。这在图中作了说明 3。每张图显示了8个密度函数,这些函数是通过对平均分数位于特定范围内的图像的分数分布进行分类而获得的。采用K-均值聚类方法进行聚类。分数分布的簇通常由高斯函数很好地近似(见图 3(b) 和 3(c))。我们还将三个高斯混合模型应用到分布中,但我们只发现相对于一个高斯混合模型有微小的改进。Beta分布,Weibull分布和广义极值分布也适用于得分分布,但给出了
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[605038],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。