英语原文共 15 页,剩余内容已隐藏,支付完成后下载完整资料
乘积量化最近邻搜索
Herve Jegou, Matthijs Douze, Cordelia Schmid
摘要:
本文介绍了一种基于近似最近邻搜索的乘积量化方法。这个想法是把空间分成低维子空间的笛卡尔乘积,来分别量化每个子空间。矢量由子空间量化索引对应的短码代表。两个矢量之间的欧几里得距离可以从他们的码被有效地估算。因为它计算一个矢量与代码之间的大致距离,所以非对称的版块可以增加精度。
实验结果表明,我们的方法可以有效的应用于最近邻搜索,尤其是在一个倒排的文件系统中。采用SIFT和GIST的描述子搜索结果表明其具有比三种最先进的算法有更好的搜索精度。我们的方法可以扩展到二十亿个矢量数据集上进行验证。
关键词:高维索引,图像检索,超大型数据库,近似搜索
一:前言
在许多应用中计算高维向量间的欧式距离是最基本的要求,尤其是在最近邻搜索中的使用。由于高维度的原因,最近邻搜索付出的代价是很大的[1][2]。
二:背景:量化、乘积量化
通过研究发现,对向量的量化存在与大量的文献中。在本节中,我们约定在接下来的文章中陈述用到的符号和概念。
三:量化搜索
最近邻搜索基于查询向量和数据库向量之间的距离,或者等效平方距离。本节介绍的方法比较指标量化后的载体向量。我们首先介绍用于计算距离的乘积量化器的属性。然后我们给出了一个估计误差的统计界限,同时给出了一个平方欧式距离的精确估计值。
- 使用量化编码计算距离
让我们来考虑一个查询向量和一个数据库中的向量y。我们提出了两种方法来计算这些向量之间对称和非对称的近似欧式距离。参见图2。
对称的距离计算(SDC): 两个矢量x和y是由各自的质心表示。q(x)和q(y)的距离d(X,Y)是由近似的有效乘积量化获得的:
四:非详尽的搜索
与产品量化近似最邻近搜索是快速(只有m条增补用每距离计算所需的),并减少显著用于存储描述符的存储器要求。尽管如此,搜索无遗。该方法仍然是一个全球性的图象描述[15]的范围内可伸缩的,[17]。然而,如果每个图像由一组局部描述符的描述,穷举搜索是望而却步,因为我们需要索引十亿描述符,并执行多个查询[18]。
为了避免穷举搜索我们结合一个倒置的文件系统[24]与非对称距离计算(IVFADC)。一个倒置的文件量化在相应的列表中的描述符,并存储图像索引,参见图5中的步骤“粗略量化”这允许图像索引的一小部分的快速访问,并且显示出成功为非常大规模的搜索[24]。相反,只存储图像索引,我们为每个描述符添加了一个小码,并且作为第一个完成的[18]。在这里,我们编码矢量和与产品量化其相应的粗质心之间的差,参见图5。这种方法显著加速以每描述几个附加比特/字节的成本搜索。此外,它略微提高搜索精度,编码载体本身作为编码的残余比更精确。
- 粗量化器,本地定义乘积量化器
类似于“视频谷歌”的方法[24],一个码本使用k均值训练,产生量化,称为在下面
的粗量化。 对于SIFT描述符,与相关联的质心的数量典型地从= 1000范围为= 1000 000相比,在第三部分中使用的产品量化因此小。
除了粗量化,我们采用类似于在[18],即矢量的描述是通过与产物量化而获得的代码精制提出的策略。然而,为了考虑到由与矢量y相关联的粗量化,即质心的所提供的信息,该产品量化用于编码残差矢量
对应于泰森多边形单元的偏移。相比,该载体本身的残差矢量的能量较小。向量为接近于
它是由元组表示。通过用一个值的二进制表示的比喻,该粗量化器提供了最显著位,而乘积量化码对应于至少显著位。
在的估计量中是查询和y数据库矢量,被计算为和之间的距离:
通过第j个子量化表示,我们使用下面分解有效地计算这个估计:
类似于ADC的策略,对于每个子量化器局部残差矢量之间的距离和所有的质心,进行了初步计算并存储。
该乘积量化在一组数据集进行收集残差矢量训练。虽然向量量化由粗量化不同的索引,将所得残余矢量用来训练独特的乘积量化。我们假定,当剩余的分布边缘在所有泰森多边形单元的相同乘积量化是准确的。这可能使劣质的结果,包括学习和使用每个泰森多边形单元一个鲜明的乘积量化的方法。然而,这将是计算昂贵的,并且需要存储产物量化码本,即,times;dtimes;k*浮点值,这将是存储器难治为的共同值。
- 索引结构
我们使用粗量化器实现一个倒排文件结构数组列表。如果是指数的矢量数据集,列表与存储集的质心。
在倒列表中,一个条目对应于y中一个向量编码标识符和剩余:
标识符字段是的开销由于倒文件结构。取决于载体的性质,要被存储,标识符不一定是唯一的。例如,为了描述通过局部描述符的图像,图像识别符可以取代向量标识符,即,相同的图像的所有矢量具有相同的标识符。因此,一个20位字段足以从一百万的数据集识别图像。此存储器成本可以进一步使用索引压缩[25],[26],这可以减少该标识符存储到约8位的平均成本,这取决于参数。注意,某些几何信息也可以在该条目被插入被减少,如在[18]和[25]中提出。
C.搜索算法
倒排文件结构是我们非详尽搜索的方法的关键。当对一个矢量进行最近邻搜索时,反向文件提供的Y的估计后距离的子集:对应到的唯一的倒排列表,被检索。
然而,x和其近邻往往不经量化到相同的质心,但是会量化到附近的质心。为了解决这个问题,我们使用[27]的多重分配策略。查询x被分配为w索引,而不是只有一个,其对应于在的代码簿x的在w最接近的邻居。所有相应的倒排列表进行扫描。多个分配不应用于数据库的载体,因为这将增加内存使用情况。
图5给出了一个数据库是如何的概述索引和搜索。
图5.概述不对称的距离倒排文件的计算(IV FADC)索引系统。上图:向量的插入。下图:搜索。
索引一个向量y过程如下:
- 把y量化到
- 计算剩余量
- 把量化到,其中,对于乘积量化,把量化分为,其中j=1hellip;m。
- 添加新条目对应于倒排列表。它包含的载体(或图像)标识符和二进制代码(产品量化索引)。
搜索一个包含查询向量x的最近邻图像过程:
- 根据码本量化x到它的w类最近邻;为演示起见,在这两个接下来的步骤,我们简单地通过与这些w分配相关联的残差表示。两个步骤被施加到均为w分配。
- 计算每个子量化j和其质心的平方距离;
- 计算过和倒排列表的所有的索引向量之间的平方距离。使用子向量到质心在先前步骤中计算的距离,这是由m个搜索结果的值总结的,参见公式31;
- 选择基于所述估计距离x的k个最近邻。这是通过保持固定容量的Maxheap结构,其存储迄今为止看到在K最小的值有效地实现。每个距离计算之后,仅当它的距离是在最大距离以下时,该点的标识符被添加到Maxheap结构。
只有第三步依赖于数据库的大小。具有ADC相比,量化x的附加步骤由在计算D空间矢量之间距离。假设倒排列表是平衡的,大约基于ntimes;W / 条目都被解析。因此,搜索比ADC的显著更快,如图下一节。
五:评估神经网络搜索
在本节中,我们首先提出用于evaluation3的数据集。然后,我们分析SDC,ADC和IVFADC参数的影响。我们的做法是比较三种国际上的最先进的方法:频谱哈希[17],海明嵌入[18]和FLANN[7]。最后,我们评估我们的方法的复杂性和速度。
六:结论
我们已经提出了乘积量化的近似最邻近搜索。我们的紧凑的编码方案提供的欧几里得距离的精确近似。此外,它与一个倒置的文件系统结合,以避免穷举搜索,导致高效率。我们的做法显著优于在搜索质量和内存使用情况之间的权衡方面的技术状态。对于SIFT和GIST图像描述的实验结果是优秀的,并表明分组基于我们之前的描述设计进一步的知识成分提高的结果。我们的方法的可扩展性验证的两个十亿矢量数据集。
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[28805],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。