Computer Vision and Implementation Method
Abstract
We believe that computer vision, or 'vision', is a cause that is different from the study of human or animal vision. It uses geometry, physics, and learning techniques to build models that can be used to process data in a statistical manner. So from our perspective, in order to understand the basis of camera performance and physical imaging process, visual simple reasoning on the value of each pixel, will probably get in more comprehensive information in the image into a harmonious whole, determine the relationship between pixels so that it will be separated each other, or infer some shapes the use of information, geometric information or probabilistic statistical techniques to identify objects. Computer vision has a wide range of applications, there are many applications of early research, but also a new application.
Key words:computer vision、geometry、physics、 application.
1. Perspective Projection
Imagine taking a box, using a pin to prick a small hole in the center of one of its sides, and then replacing the opposite side with a translucent plate. If you hold that box in front of you in a dimly lit room, with the pinhole facing some light source, say a candle, you will see an inverted image of the candle appearing on the translucent plate . This image is formed by light rays issued from the scene facing the box. If the pinhole were really reduced to a point (which is of course physically impossible), exactly one light ray would pass through each point in the plane of the plate (or image plane), the pinhole, and some scene point.
Figure 1.1. The pinhole imaging model
In reality, the pinhole will have a finite (albeit small) size, and each point in the image plane will collect light from a cone of rays subtending a finite solid angle, so this idealized and extremely simple model of the imaging geometry will not strictly apply. In addition, real cameras are normally equipped with lenses, which further complicates things. Still, the pinhole perspective (also called central perspective) projection model, first proposed by Brunelleschi at the beginning of the fifteenth century, is mathematically convenient and, despite its simplicity, it often provides an acceptable approximation of the imaging process. Perspective projection creates inverted images, and it is sometimes convenient to consider instead a virtual image associated with a plane lying in front of the pinhole, at the same distance from it as the actual image plane. This virtual image is not inverted but is otherwise strictly equivalent to the actual one. Depending on the context, it may be more convenient to think about one or the other. This Figure illustrates an obvious effect of perspective projection: the apparent size of objects depends on their distance: for example, the images B and C of the posts B and C have the same height, but A and C are really half the size of B. This Figure illustrates another well known effect: the projections of two parallel lines lying in some plane Pi; appear to converge on a horizon line H formed by the intersection of the image plane with the plane parallel to Pi; and passing through the pinhole. Note that the line L in Pi; that is parallel to the image plane has no image at all.
Figure 1.2.
These properties are of course easy to prove in a purely geometric fashion. As usual however, it is often convenient (if not quite as elegant) to reason in terms of reference frames, coordinates and equations. Consider for example a coordinate system (O, i, j, k) attached to a pinhole camera, whose origin O coincides with the pinhole, and vectors i and j form a basis for a vector plane parallel to the image plane Pi; , itself located at a positive distance f from the pinhole along the vector k . The line perpendicular to Pi; and passing through the pinhole is called the optical axis, and the point C where it pierces Pi; is called the image center. This point can be used as the origin of an image plane coordinate frame, and it plays an important role in camera calibration procedures.
Figure 1.3. The colinearity of the point P, its image P and the pinhole O.
2. Spherical Projection
The imaging surface, or retina, used in both perspective and affine projection models is a plane. One can of course imagine retinas with other simple shapes, such as cylinders or spheres for example. Here we consider spherical cameras where light rays passing through a pinhole form images on a spherical surface centered at the pinhole.
This model is particularly interesting because of its symmetry: consider for example a sphere observed by conventional perspective and orthographic cameras, as well as a spherical perspective camera . The outline of the sphere in the two perspective images is the intersection of the retina and a double cone tangent to the sphere with its apex located at the pinhole. Because of the symmetry of the problem, this viewing cone is circular, and it grazes the sphere along a circle. In the planar perspective case however, the shape of the outline will depend on the orientation of the image plane : if this plane is perpendicular to the line joining the center of the sphere to the pinhole, the outline will be a circle, but in all other cases it will be a non-circular conic section,1 usually an ellipse. In the spherical projection case, there is no plane orientation to account for, and the outline is always, by symmetry, a circle. Spheres also have circular outlines under orthographic projection. In this case, the tangent cone degenerates into a cylinder that intersects the image plane along a circle since its axis is always orthogonal to that plane.
In a sense, spherical perspective cameras are “better” than their planar counterparts since the pictures they record only depend on the position of the pinhole.
剩余内容已隐藏,支付完成后下载完整资料
计算机视觉与实现方法
摘要:
我们认为计算机视觉,或简称为“视觉”,是一项事业,它与研究人类或动物的视觉是不同的。它借助于几何、物理和学习技术来构筑模型,从而用统计的方法来处理数据。因此从我们 的角度看,在透彻理解摄像机性能与物理成像过程的基础上,视觉对每个像素值进行简单的推理,将在多幅图像中可能得到的信息综合成和谐的整体,确定像素集之间的联系以便将它们彼此分割开,或推断一些形状信息,使用几何信息或概率统计技术来识别物体。计算机视觉具有很广泛的应用,有早期研究较多的应用,也有较新的应用。
关键词:计算机视觉、几何、物理、应用。
1. 透视投影
可以想象一下,将一个盒子的一侧扎一个小孔,然后将另一侧改成一块半透明板。如果在 一个较暗的圈子里将这个盒子放在你面前,将针孔对准某种光源(臂如说蜡烛),你可以在半透 明板上看到颠倒的蜡烛图像,这个图像是从景物投射到盒子的光线形成的。如果假设针孔可以缩小成一个点的话(当然在物理上是不可能的),那么就只有惟一的一条光线穿 过三个点:成像板的平面(或称为成像面)上的一个点、针孔以及景物中的某个点。
图1.针孔成像模型
在现实中,针孔(不管多小)总不是无限小的,成像平面上的每个点收集的是具有一定角度 的锥形光束的光线,因此严格说来理想化的、极其简单的成像几何模型是不成立的。再加上实 际的照相机一般都配备有镜头,因此使得事情更加复杂。然而,15世纪初由Brunelleschi首先 提出的针孔透视投影模型(或称中心透视投影)在数学上是很方便的。这个模型尽管简单,但 是它对成像过程的近似程度往往是可以接受的。透视投影产生的是一幅颠倒的图像,因此有 时设想一个虚拟图像会方便一些,这幅图像落在一个处于针孔前面的平面上,它到针孔的距离 等于实际成像面到针孔的距离。这幅虚拟图像除了图像是倒立的以外,与实际图像是完全等价的。根据所考虑的情况选择其中任一种会显得更加方便。图表明了透 视投影的明显效果:所观察到的物体的大小取决于它们的距离。例如,杆B和杆C的图像,义 和具有相同的高度,但实际上杆4与杆C的尺寸只是杆S的一半。图表现了另一个 众所周知的现象.同一平面n上的两条平行线的投影在成像面上将会聚到(在成像面上)一条 水平线汉上,好这条线是穿过针孔与n平行的平面与成像面相交的交线。还需指出的一点 是,平面n上与成像面平行的线l在成像面上没有图像。
图2. 透视效果
这些性质很容易用纯几何方式证明,然而使用参考框架、坐标和方程式来推理也很方便 (尽管并不十分优雅)。例如,将一个坐标系(0,f,y,k)附加到一个针孔摄像机上去,它的原点 o与针孔重合,而向量Z与j组成一个与图像平面Pi; 平行的向量平面的基,Pi; 平面位于沿k向量正方向距离针孔尸处。通过针孔又垂直于Pi; 的线称为光轴,其穿过Pi; 的点c称 为图像中心。这个点可以作为图像平面坐标系统的原点,这在摄像机定标过程中起重要作用。
图3.从点P它的图像点P与针孔0三点共线
2.球面投影
成像表面,或视网膜,用在视角和仿射投影模型飞机。你当然可以想象的视网膜和其他简单的形状,例如圆柱体或球体。在这里,我们考虑球形摄像机的光线通过针孔形成的图像上的球形表面的中心针孔。
该模型是特别有趣,因为它的对称性:例如一个球体通过常规的透视和正交相机观察,以及球面透视相机。在两个透视图像的球体的轮廓是视网膜和一个双锥相切的球体,其顶点位于针孔的交点。由于问题的对称性,这视锥是圆形的,和上沿圆球体。在平面透视的情况下然而,轮廓的形状取决于图像平面的方向:如果这个平面垂直于连接球体的中心孔线,轮廓是一个圆,但在所有其他情况下,这将是一个非圆曲线部分,通常一个椭圆。在球面投影的情况下,没有平面方向来解释,轮廓总是由对称,一个圆。球也有圆形轮廓投影。在这种情况下,切锥沦为气缸沿圆周相交的图像平面自轴始终是平面正交。
从某种意义上说,球形透视相机比它们的平面相机要好得多,因为它们所记录的图像只取决于针孔的位置。
图4. 不同的球体模型
让我们注意到关闭这一部分,虽然眼睛有一个(大致)球形视网膜,它不遵守上述投影模型,因为它的“针孔”(瞳孔)不 位于相应的球中心的中心(更多关于这很快)。
透视在一个表面上的每一个点是一个半球的方向,沿光可以到达或离开。产生这个输入半球相同的模式必须在这一点上有相同的Eff等表面上的两个来源(因为在表面的观察者无法区分)。这同样适用于源程序,在源输出半球上产生相同图案的两个表面必须从源接收相同的能量。
这意味着,相对于光照方向的表面贴片的方向是重要的。当光源相对于光照方向倾斜时,它的表面看起来变小了。同样,作为一个补丁是倾斜的方向,在照明的旅行,它“看起来较小”的来源。
这些称为透视。透视是很重要的,因为从源头的一小片来看似乎是一个巨大的补丁,严重缩短了一样,所以必须接受相同的能量。
辐射光在空间中的分布是位置和方向的函数。例如,考虑在夜晚的空房间里用窄光束照射火炬,我们需要知道火炬是从哪里照射的,在哪个方向发光。的照度Eff等可以从电源表面极小的补丁将要插入的空间在一个特定的点和方向接收代表。我们将使用这种方法获得测量单位。
3.到达表面的光
当光线到达一个表面时,它可能会被吸收、传输出去或散射,通常是这三种方式的组合。 例如,到达皮肤的光可以在不同深度散射到细胞组织中去,或从血液中或其中的黑色素反射, 也可被吸收,或者沿皮肤的油膜层切向散射,随后又在某处逸出。
这种情况会因为某些表面会吸收某种波长的光,再发射出另一波长的光而变得更复杂。 这种现象称之为荧光,是很常见的:蝎子在x射线照射下会发出可见光荧光;人类牙齿在紫外 线照射下会发出暗蓝色荧光(尼龙内衣也有荧光作用;而假牙则没有,这会带来不必要的尴尬, 因而在跳舞的夜总会上不用紫外线);洗衣业通过带荧光的洗衣粉使衣服在紫外光线中更明 亮;一个表面加温到一定程度也会发出可见光。
3.1镜面反射表面
第二种重要的表面类型是玻璃或像镜子一样的表面,通常称为镜面反射表面(源自拉丁语 speculum,镜子)。理想的镜面反射器的性能像一面理想的镜子,某特定方向的人射光只能向一个镜面反射方向反射,从与人射光方向相反的方向射出。通常一部分入射的辐射被吸收了,对 一个理想镜面反射表面来说,任何方向吸收入射光的比例都是相同的,而未被吸收部分沿镜面 反射方向射出。理想的镜面反射表面的BRDF具有奇特的形式(练习),因为某一方向的人射 光只能从一个方向射出。
镜面反射带能够近似为理想镜面反射器的表面是很少的。看一个平坦表面能否近似为 理想镜面反射器,可用它能否确实起到镜子的作用来检验。在过去,要制造出好的镜子是相当 困难的,一般通过用抛光金属来造镜子。除非金属被高度拋光并很好地维护,否则某个方向射 入的入射光通常会沿着反射方向周围的一小束方向反射出去,这会导致典型的模糊效果。平 坦的馅饼金属锅底就是一个很好的例子。如果锅底比较新,你可以看到在表面有你自己变形 的脸,但当镜子用就很勉强,而磨损后的锅底只能反射部分扭曲了的模糊图像。
有较大的镜面反射瓣,就意味着反射图像变形更加严重,反射的光线也不很明亮(因为人 射光强被分散到一组反射方向上),往往只能看到相对较亮的物体,如光源等的镜面反射。因 此在亮光涂料或塑料表面,人们看到的是沿光源镜面反射方向的明亮光团,经常称它为光斑 (specularity),而几乎没有其他镜面反射效应。通常不一定要为光瓣的形状建模。如果要对光 瓣建模,常用的模型是Phong模型。它假定镜面反射的是点光源。在这个模型中, 从镜面反射表面反射出的光强正比于cosn(delta;theta;) = cosn(theta;ominus;theta;s),其中theta;o 是射出角度, theta;s 是镜面 反射方向,而en是一个参数。大的《值对应狭窄光瓣与锐利的小光斑;而小的值 导致宽广的光瓣及边界略显模糊的大光斑。
图5. 反射光的强度
我们已经研究了光的物理学,这是因为我们想知道物体会有怎样的亮度及其原因,以期待 从这些模型中抽取物体的信息。到目前为止,我们了解了光源照射表面块的光通量,但是这不 是影调模型。辐射可以通过别的方式到达物体表面块(例如可以从别的表面块反射得到),我 们需要知道要考虑哪些成分。
最方便运作的模型是局部影调模型,它只考虑将光源所发射的光通量求和计算表面块的 光通量。这意味着使用这样一个假设:光并不是从表面反射到另一表面而来的,它来自于光 源,到达某个表面,并进而直达摄像机。这个模型显而易见是违反物理学的,但是它容易分析。 这个模型支持一系列的算法与理论。遗憾的是,它常常产生相当不准确的推测。 更糟的是几乎没有可靠的信息说明在什么情况下使用这个模型是安全的。
一个替代它的模型是考虑所有的辐射量,既考虑从光源来的辐射度,也考虑从辐 射表面来的辐射度。这个模型在物理上是准确的,但通常难于操作。
3.2互反射
全局影调的效果在有关影调的文献中常常被忽略,这引起本书作者之一的强烈不满。忽 略互反射的理由在于对它进行分析十分困难,尤其是使用全局影调模型的输出来推断物体属 性时。如果相互反射现象的效果对模型的输出改变不多,那么忽略它们问题可能不大。遗憾 的是,很少有人沿这种思路去推理,其原因在于很难证明互反射条件下所使用的方法是稳定 的。对空间频率问题的讨论是遵循Haddon和Forsyth( 1998a)的思路的,它们是受Koenderink与 van Doorn(1983)工作而启发的。除此之外,关于相互反射影调的全面性质的知识很少,据我们 所知这是一个重要的空档。另一种不同的策略是使用一个绘制模型以迭代方法重复估计形状 0
Horn是指出全局影调效果重要性的第一人。Koenderink和van Doom(1983)提 出全局模型下的光通量可在通过局部模型得到的光通量的基础上,再用一个线性运算得到。 人们于是研究这种运算,在某种情况下它的特征函数(经常称为几何众数)是有益的。此后 Forsyth与Zisserman( 1989,1990,1991)展示了由相互反射引起的各种定性的效果
3.3互反射的定性效果
我们希望从光通量抽取出形状信息。使用局部模型来做这件事是相对简单的,但这种模型描述世界的效果不好,它对推导出的形状信息所造成影响的严重程度也 几乎一无所知。使用全局影调模型提取形状信息是困难的,这有两个原因。第一,形状与光通量 之间的关系是复杂的,因为它由相互反射的核函数控制。其次,几乎经常会有一些看不见的表面 对视野内的物体辐射光。这些所谓“隐含的表面”的存在就意味着难以使用互反射核来考虑景物 中的全部辐射情况,因为某些辐射源是看不见的,我们很可能对它们一无所知。
以上所述表明定性地了解互反射的局部效应是重要的。从这种考虑出发,我们既可以降 低互反射产生的效果,但也可以充分地利用它们。尽管这个话题很大程度上还是个开放的研 究话题,但是有些事情可以说一说。
平滑与区域效应首先要指出的是,互反射自然会起到平滑的作用。如果我们打算通过彩 色玻璃投射到地面上的花式来解释彩色玻璃,就会很明显地看到这种现象:地面上的花式常常是 一群模糊的彩色团状物。在使用图的粗糙的模型时,这种现象很容易看到。图中的几何关 系是一个表面块面朝一个无限平面,该平面距离该表面一个单位距离远,它的光通量呈现sin omega;x规律。研究改变表面块到平面的距离是没有必要的,因为相互反射问题具有比例不变的解,也就 是说,对一个有两个距离单位远的表面块的解,可以通过读图上处的数就可。这个表面块面 积很小,以至于它对平面光通量的影响可以忽略不计。如果这表面块相对平面的倾斜角为~它 所载有的光通量也接近周期性的,空间频率为cos sigma;。我们称该频率分量的幅值为表面块的增 益,画 在 图 上 。这个图的重要属性是,空域高频很难跨过平面到表面块之间的间隔。这意 味着具有髙频与髙幅度的影调效应一般不可能来自于远处的表面(除非它们超乎寻常的亮)。
由于远处表面造成空域频率项的幅值快速衰减,因此如果看到髙频段有髙幅度项,那么它 几乎不可能是远处被动辐射源产生的效果(因为这些效果迅速淡化)。有一种区分影调的通用惯。这种惯例是说:如果影调快速变化(“边”)以及动态范围相对低,则 影调是反射产生的,否则就是照明所引起的。我们可以解释这个惯例:空间频率有一半基本上 不受远处表面的互相照明的影响,因为增益小。这种范围内的空域频率不可能从远处被动辐 射源来,除非这些辐射源有超乎寻常的高光通量。因此,这些频率范围的空间频率可以看成具 有区域效应,它们只能从一定距离范围的互反射产生。
最引人注意的区域效应可能就是反光——主要在凹陷的区域出现小亮斑。另一个重要的现象是色彩掺和,彩色表面将光反射到别的彩色表面上。一般情况下人们并不太注意这种现象,除非特意地要观察。色彩掺和经常由画家再现出来
4.局部影调模型
局部影调模型最大的好处是分析方法简单。局部影调模型的主要特征是在具有常数反射 率的表面,表面块的光通量只是法线向量的函数。这意味着人们可以避免对反射与光源进行 分辨,取而代之的是以表面及光源属性简单编码成反射映射来表示。这种反射是一种函数,它 获取法线向量的表达式,对具有该种法线向量的点返回期望的光通量值。
Horn开创了在计算机视觉中对影调进行系统性研究,他的重要文章是使用点光源从局部 影调模型恢复形状(Hom,1970,1975),—个时间更近的说明见Hom(1990)。这种方法基本上已 废而不用了 (至少部分不用了,因
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[484681],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。