BilVideo:视频数据库管理系统的设计与实施∗外文翻译资料

 2022-08-02 16:31:19

英语原文共 26 页,剩余内容已隐藏,支付完成后下载完整资料


BilVideo:视频数据库管理系统的设计与实施lowast;

概要

随着信息技术的进步,多媒体数据的捕获、生成 和存储量正在迅速增加。因此,多媒体内容在当今世界的许多应用中被广泛使用,因此,需要组织这些数据,并从存储库访问这些数据,并获取大量信息,这在商业上和学术上都是一个推动因素。顺应这一必然趋势,第一图像,特别是后来的视频数据库管理系统引起了极大的关注,因为传统的数据库系统只设计用于处理字母数字信息,因此不适合多媒体数据。

本文引入了一个原型视频数据库管理系统,我们称之为BilVideo。 BilVideo的系统架构是原创的,因为它为包含任何空间组合的空间时空查询提供了充分支持, 基于规则的基于知识库的系统,通过时间、对象外观、外部预测、轨迹投影和基于相似性的对象轨迹条件,同时利用对象关系数据库来响应语义(关键字、事件/活动和基于类别)、颜色、形状和纹理查询。 BilVideo(事实提取器视频注释器、基于 Web 的视觉查询界面和类似 SQL 的文本查询语言)的部分也已呈现。此外,我们的查询处理策略也作了简要解释。

关键词: 视频数据库、多媒体数据库、信息系统、基于内容的检索、时空关系、时空查询处理、视频查询语言

1. 介绍

近年来,对多媒体技术的需求不断增加。由于多媒体内容(如图像、视频和音频)在当今世界的许多应用中被广泛使用,因此需要组织这些数据,并从存储库获取大量信息,这在商业和学术上都是一个推动因素。顺应这一必然趋势,由于传统的数据库系统不适合用于多媒体数据,第一图像特别是后来的视频数据库管理系统引起了极大的关注。

bull;

本文介绍了BilVideo,一个原型视频数据库管理系统。 BilVideo的架构是原创的,因为它为包含任何空间组合的空间-时空查询提供了充分的支持, 基于规则的基于知识库的系统,通过时间、对象外观、外部预测、轨迹投影和基于相似性的对象轨迹条件,同时利用对象关系数据库来响应语义(关键字、事件/活动和基于类别)、颜色、形状和纹理查询。 BilVideo的知识库包含一个事实基础和在 Prolog 中实施的一套全面规则。知识库中的规则显著减少了需要存储以进行视频数据时空查询的事实数量 [11]。此外,系统对不同类型的时空查询的响应时间是交互式的。查询处理器与知识库和对象关系数据库交互,以响应包含空间-时间、语义、颜色、形状和纹理视频查询组合的用户查询。这两个系统组件返回的中间查询结果由查询处理器无缝集成,最终结果发送给 Web 客户端。 BilVideo 具有一种简单但功能强大的 SQL 式文本查询语言,用于视频数据 [10] 的空间时空查询。为新手用户提供可视查询界面。查询语言和可视查询界面目前正在扩展,以支持语义、颜色、形状和纹理查询。

据我们所知,BilVideo 是迄今为止功能最完整的视频 DBMS,因为它以集成的方式支持时空、语义、颜色、形状和纹理查询。此外,它在支持检索视频剪辑的任何部分方面也是独一无二的,无论视频数据在语义上如何划分,都满足了给定的查询条件。据我们所知,今天可用的所有视频查询系统都不能将场景的子交互作为查询结果的一部分返回,只是因为视频功能与定义为视频数据最小的语义单位的场景相关联。在我们的方法中,视频主题之间的对象轨迹、对象-外观关系和空间-时间关系在知识库中作为 Prolog 事实表示,它们与视频的语义单位没有明确关系。因此,BilVideo 可以在请求时根据帧间隔返回用户查询的准确答案。此外,我们对两个视频对象之间的方向关系的评估也很新颖,因为两个重叠的对象可能具有相互定义的方向关系,前提是对象的最小边界矩形 (MBR) 的中心点是不同的。这是因为 Allen 的时间间隔代数 [2]未用作我们方法中方向关系定义的基础:为了确定两个对象之间的方向关系,使用对象的 MBR 中心点 [11] 。此外,BilVideo 查询语言提供平均、总和计数三个聚合功能,对于某些应用(如运动分析系统和移动对象跟踪系统)收集时空事件统计数据可能非常有吸引力。

论文的其余部分组织如下:与我们的工作相比,在第2节对与我们工作密切相关的文献研究进行了回顾。BilVideo的整体架构及其知识库结构在第 3 节中作了简要解释。第 4 节介绍了为填充系统知识库而开发的事实提取工具,以及视频数据的空间时空查询事实。该工具还提取对象的颜色和形状直方图,并将它们存储在功能数据库中,用于

颜色和形状查询。用于为视频剪辑注释语义内容和填充系统功能数据库的视频注释工具引入第 5 节。第 6 节提供了基于 Web 的视觉查询界面。第7节简要解释了系统用于空间-时间查询的视频数据的SQL类文本查询语言。在第 8 节中,我们就我们的查询处理策略进行了简短的讨论,重点讨论了时空查询处理。第9节讨论了该系统支持广泛应用的灵活性。新闻档案搜索系统BilVideo的一个例子应用在第9节中也提出了一些时空查询。我们在第10节中总结了我们未来的工作。

  1. 相关工作

近年来开发了许多基于内容的检索 (CBR) 系统,包括商业和学术系统。但是,大多数这些系统仅支持图像检索。在本节中,我们将讨论限制在主要与视频建模、索引和查询相关的文献研究上。一般可在 [45, 49] 中找到对 CBR 系统的全面审查。

2.1. 时空视频建模

如 [41] 中所述,文献中以集成方式考虑视频突出对象的空间和时间属性的建议数量非常有限。一些建议的索引结构是MR 树RT 树[48], 3D R[42] 和HR[31] 。这些结构是一些适应著名的R树家族。也有基于四树的索引结构,如重叠的线性四树[43],建议空间-时间索引。所有这些方法均在公司内部将 MBR 表示指数结构中的空间信息。因此,要回答时空查询,应计算和检查空间关系,以获得查询满意度,这是在查询处理过程中执行的代价高昂的操作。我们在视频数据中模拟时空关系的基于规则的方法消除了在查询处理时计算关系的需要,从而大大缩短了查询响应时间。在我们的方法中,关键帧表示视频中的某些奉献帧,在帧中视频对象之间的空间关系集没有变化。每个关键帧的计算空间关系都存储到模型中,并查询空间-时空关系的视频数据。

Li等人描述的努力与我们的方法有些相似,其中有些空间关系是由相关的物体方法计算的,而另一些则可能使用一套推理规则[23]得出。尽管如此,在[21、23、25]中引入的系统并没有明确存储一组时空关系,从中可以根据规则推导出所有对对象之间的一整套关系,因此,在查询处理过程中计算了规则无法推导的关系。

Sistla等人提出了一种基于图形和自传的方法,以找到图片中物体之间最小的一组空间关系,给出了一组关系,这是最小集[38,39]的超级集合。作者提供算法来查找最小集

一个超级集, 以及推断所有可能的关系, 从最小的设置本身的图片。但是,方向关系仅限于不连体对象,而不是我们的方法,即重叠对象也可能具有方向关系。此外,与我们的规则相比,所考虑的一套推理规则相当小。作者也没有提及任何3D关系。此外,我们的事实提取算法更简单,它从视频中提取对象的空间-时间、外观和轨迹属性,尽管我们不声称它像为图片那样在视频帧中产生最小空间关系集。

在 [7] 中,提出了多媒体数据库系统的空间-时间语义模型。为了模拟多媒体演示、浏览和数据库搜索的语义方面,使用伍兹 [47] 开发的增强过渡网络 (ATN)。语义对象的时空、空间和时空关系通过多媒体输入流进行建模,这些流与 ATN 中的子网络相关联。在建议的模型中,每个视频帧都有一个子网络,它有自己的多媒体字符串。子网络及其字符串均由设计人员提前为一类应用程序创建,并且可以使用 SQL 等高级查询语言发出时空查询。该模型支持视频数据的空间时空查询:然而,它为对象之间的拓扑关系提供了非常粗糙的表示,因为仅支持三种类型的拓扑关系,即非重叠对象、部分重叠对象和组合重叠对象。此外,对象MBR的中心点用于空间推理,将对象映射到一个点,从而限制模型可以表示的空间关系的数量。此外,通过选择目标对象来确定其他对象的相对空间位置,为每个帧构建多媒体输入字符串。因此,对于框架中的每个目标对象,将有一个覆盖时间输入字符串。这可能会大大增加查询处理的复杂性。相比之下,BilVideo 使用基于规则的方法对对象之间的时空关系进行建模。我们的方法不仅节省了大量空间,因为每个视频密钥帧只存储了整个关系集的子集,而且还为 BilVideo提供了简单而强大的查询功能。BilVideo 支持 2D 中所有可能的空间关系,并为第三维度定义了一套 3D 关系。它还支持艾伦 [2] 定义的所有关系。因此,BilVideo 允许用户指定具有更精细粒度的空间时空查询,并且返回的查询结果更精确。

2.2. 语义视频建模

建议在 [26] 中采用视频数据库系统设计,用于自动语义内容提取,以及基于语义的视频注释和文本标记检索。视频语义内容使用为视频和场景构建的低级图像功能(颜色、形状、纹理和运动)和时间图表自动提取。拍摄/场景标有文本描述,用于语义查询。但是,自动提取语义内容和标记拍摄/场景,并附有有关提取信息的一些文本描述,仅限于简单的事件/活动。

Hacid 等人提出了一个基于逻辑视频段分层、视频注释和它们之间的关联的视频数据模型 [15]。该模型支持检索

基于其语义内容的视频数据。作者还给出了基于规则的约束查询语言,用于查询语义和视频图像功能,如颜色、形状和纹理。颜色、形状和纹理查询条件将发送到 IBM 的 QBIC 系统,而语义查询条件则由 FLORID(一个以演绎对象为导向的数据库管理系统)处理。其模型中的数据库基本上可以被视为图形,其查询语言中的查询可被视为在图形中指定受约束路径。BilVideo 不使用基于规则的方法对视频数据进行语义查询。在这方面,我们的语义视频模型偏离了哈西德等人的语义视频模型。

文献中还有一些研究,其中考虑到音频和封闭字幕文本与视频数据一起存储,用于从视频中提取语义内容,并基于此提取的语义信息对视频剪辑进行索引。在 [5]中,提出了一种通过模式间协作进行基于事件的视频索引的方法,即考虑到同步多式联运因子流(如听觉流和文本流)之间的语义依赖性而采用协作处理策略。拟议的方法旨在从广播的体育视频中自动检测有趣的事件,并给出将赛事与射击相关的文本索引。在 [14] 中,展示了一个名为 VISION 的数字视频库原型。在 VISION 中,视频会使用音频和封闭字幕信息自动分割成短场景。由此产生的场景根据标题进行索引,并存储在多媒体系统中。在 [16] 中描述的 Newsia 新闻点播系统还使用相同的信息(音频和封闭字幕)进行自动分割和索引,以高效访问新闻视频。Satoh等人通过分析闭合字幕和视觉流 [34] 提出了一种人脸检测和索引方法。但是,所有这些系统和其他考虑到音频和封闭字幕信息的系统和用于自动细分和索引的视频存储的系统和其他系统都依赖于应用程序,而BilVideo 则不相关。

2.3. 系统和语言

QBIC。 QBIC 是一个主要用于查询大型在线图像数据库 [12] 的系统。 除了基于文本的搜索外,QBIC 还允许用户使用草图、布局或结构描述、颜色、形状、纹理、样本图像(按示例查询)和其他标志性和图形信息提出查询。作为基于内容的搜索的基础,它支持颜色、纹理、形状和布局。QBIC 为视频数据以及 [13] 提供了一些支持;但是,此支持仅限于用于图像查询的功能。因此,视频数据的突出对象和语义内容之间的时空关系不考虑视频查询。

奥维德。 Oomoto 和田中 [32] 的一篇论文描述了 名为 OVID 的原型视频对象数据库系统的设计和实施。OVID 系统的主要组件是视频图表、视频SQL 和视频对象定义工具。每个视频对象包括一个唯一的标识符、一对对象的开始和结束视频帧数、与对象关联的注释作为一组属性/值对,以及一些方法,如 播放检查分解合并重叠。用户可以为相同的帧序列定义不同的视频对象,并且每个视频对象表示为

OVID用户界面视频图表上的条形图。VideoChart 是一个可视界面,可浏览视频数据库,并操作/检查数据库中的视频对象。系统的查询语言 VideoSQL 是一种类似 SQL 的查询语言,用于检索视频对象。VideoSQL 查询的结果是一组符合特定条件的视频对象。在检查每个视频对象的查询条件之前,根据间隔包含继承机制对目标视频对象进行评估。但是,该语言不包含任何表达方式来指定视频对象的空间和时间条件。因此,VideoSQL 不支持时空查询,这是语言的一个主要弱点。

阿维斯 在[28]中,提出了一个统一的多媒体信息系统特征框架,该框架 建立在单个媒体的实施之上。使用这些数据结构可能无法有效

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[266762],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。