使用任务依赖关系图等几何有限元法求解快速的GPU集成算法外文翻译资料

 2022-10-08 11:47:08

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


使用任务依赖关系图等几何有限元法求解快速的GPU集成算法

对于等几何有限元快速GPU整合算法

使用任务依赖关系图的方法求解

关键词:等几何有限元法

数值积分

Lsup2;- 投影

大脑建模

抽象

本文分析了等几何有限元法求解器的集成。特别是,它表明,当CPU的顺序执行与较高阶B样条等几何求解花费的时间显著量用于产生元件额叶矩阵。积分算法被表示为基本不可分的计算任务的序列以及它们之间的依存关系被识别。其基本任务是为积分算法的特定步骤,对于给定的集成点定义。在这篇文章中我们将展示如何准备独立设置可自动安排,并在GPU卡同时执行任务。这是用表达任务之间的依赖关系,用于积分算法构成的图形的帮助下完成。该算法在GPU实现和测试上的数值例子有关的二维的序列等几何 Lsup2;- 投影问题,为人体头部的核磁共振扫描。并发GPU整合的执行时间与CPU的执行的顺序整合比较。

1.简介

与高阶基函数的有限元计算涉及两个阶段:

(1)代线性方程系统的,分布在多个元件额叶矩阵和(2)的全球系统的外部求解算法的执行线性方程组。有可以被用于有限元解的近似几个高阶基函数,

例如通过在等几何有限元法[1,2]使用HP-自适应有限元方法[3,4],或B样条所用的分层基础功能。具有层次基函数古典高阶有限元方法的接口提供了C0连续性元素[3,4]和连续性的Cp元素的内部之间[3,4]。(事实上,我们具备的要素里面Cinfin;连续性,因为0是无限连续函数)。与B样条基函数的等几何有限元方法提供全球CP-1的连续性[5,6]。(同样,我们实际上有元素中Cinfin;全球连续性,因为高阶导数等于0,这是一个无限连续函数)。

椭圆问题线性方程组产生的系统通常有两种多正面直接求解求解[11,12],如流行性腮腺炎[13-16],SuperLU [20,21]或PaStiX [22],或迭代求解器,例如如可通过PETSc的库[23-25]的那些。

也有利用H-矩阵的概念,一些现代线性计算成本算器,提供近似解[29,30]。另外,也可以以得到线性的计算成本与点或边缘的奇点二维H-精制网格[27,26,28]。在当我们解决B样条基函数的Lsup2;投影问题的特殊情况下,也有快速交替方向求解器提供线性的计算成本[17]。

对于在CPU上顺序执行的高阶基函数的积分常常是昂贵的。在一般情况下,对于高阶的基函数,有每单元素O(p)的功能中的一维的问题(1D),和积分需要O(Psup3;)操作。在二维(2D)的整合需要O(P)操作,在三维(3D),它需要O(P)操作在一个单一的元件。

有加快的集成,就像在提议的一些款项分解技术[18] 1D 问题,其他的方法适用于2D和3D分层基础功能,他们可能会减少O(P)的计算成本降到O( P)在2D和从O(P)下降到O(p)。

然而,引进的总和分解技术,使我们的分析更加困难,因为任务之间的依赖关系是复杂的。此外,对于有效的GPU计算,有必要确保任务集调度过的GPU节点也可以同时执行针对不同的输入数据的工作相同的任务。此外,总和分解技术是依赖于所使用的基函数的张量积结构,我们不知道的总和分解算法。

对于B样条。因此,我们限制我们的研究的情况,而不总和分解和我们可能推迟总和因式分解技术未来工作.

然而为多正面直接求解它已被证明,并发的GPU执行与基于图形语法的方法可显著降低复杂图案[7],快并发积分算法。这是通过定位基本不可分的任务并发现可以并发[8]被执行的任务的完成。

用于GPU或多核CPU快速正交算法已基于OMP循环并行和用于分层地功能[9,10]的处理器体系结构的仔细分析被已经提出。在这篇文章中,我们专注于任务的选择为展示他们之间的依赖关系图任务的积分算法和建设。特别是,我们展示如何准备套占一体化进程的特定步骤独立的任务。这些任务,然后自动由GPU控制器调度和并发执行,一步一步地。

我们专注于在2D 等几何有限元方法.我们限制我们自己考虑到2D 等几何Lsup2;投影问题B样条基函数。这仅仅是一个示例性的简单的模型问题,并提出可应用于任何椭圆问题在2D与类似的结果进行分析。该算法关于在MRI进行等几何 Lsup2;-投影测试扫描人体头部的数据。 CPU上执行的集成的执行时间与在GPU上执行的积分进行比较。

有许多不同的正交的规则递送数值积分的不同的精度。具体地,对于B样条基函数,已经出现了最近在[19]中提出了一些新的更快正交的规则。然而,在本文中我们专注于古典高斯求积,但我们的结果也可以适用于其他更先进的正交的规则,因为表达任务之间的依赖关系的任务图的选择和构造不依赖于所选择的正交的规则。

2.积分算法

2.1。概观

本节介绍了经典 Lsup2;投影问题的弱势形态,作为模型的问题来测试我们的并行积分算法的效率。在弱形式的 Lsup2;投影的问题是:我们正在寻找的Uisin;Vsub;Lsup2;,作为正交分段恒定函数F从 Lsup2;(Omega;)(表示逐点MRI扫描数据)上B样条Ⅴ的空间,这导致在条件Lsup2;投影(F - U,V - U)​​= 0,forall;v isin;V,其中(Lsup2;(Omega;))sup2; (U,V)→isin;R在Lsup2;表示标产品(Omega;)。观察使V - U = V,我们可以在更方便的形式获得Lsup2;投影的问题:(U,V)=(F,V)forall;visin;V,V =span {B} (1)

其中B为一个给定的阶数p的B样条基函数[1]。 B样条阶数p是均匀的,并恒定所有基函数。

如果我们选择的基础{B}

在V,那么任意

visin;V可以用V表示=

和Lsup2;投影问题可以在表单中改写= 0forall;{b}(2)

图1.计算的网格划分成单元

因为{b}是任意的,然后(2)被满足,当且仅当RNxNy 属于(U - F,B)= 0作为RNxNy正交于所有其他人的独特载体。然后我们得到方程系统(U,B)=(F,B)的K = 1 ,. ..,N,L = 1 ,. ..,N(3)

最后用的表示

U = (4)

我们得到

(B,B)=(F,B),K = 1 ,...,N,L = 1 ,. ..,N(5)

使用高斯求积和B(X1,X2)=N(X1)N(x2),在域的整合可通过加权求和来呈现的标量积的定义在高斯点。

N(X1)N(x2)N(X1)N(x2)dx1dx2 =forall;i,

K = 1 ,. ..,N,J,L = 1 ,. ..,N(6)

(=forall;k= 1 ,...,NX,L = 1 ,...,NY(7)对于给定的p,其中(X,x)和W表示高斯求积积分点和权重。对于任一个直接或迭代求解器接口,网格被划分成的“元素”,如图1所示。接着,元件正面矩阵所产生的执行超过特定元件的集成。

2.2。线性基函数

为线性的基函数,我们采取2 * 2 = 4的二维B样条,其每一个是两个一维的B-样条的张量。这被示于图2。

额叶矩阵线性基函数和对应的任务的名称。

表2负责以上元件EK,j在高斯正交的二维线性基础函数标量积值的评价计算任务点。

对的线性基函数的情况下的正面矩阵在表1中示出的正面基质由积分获得在单个有限元EK,升,将4个基函数具有非零的支持,即B,B,B,B。从而,

在正面矩阵的行和列对应于四个基础功能,其条目包含所有的组合国税发基础功能,在其他字索引k的标量积中,k - 1,l,l- - 1被用于元件E这里介绍的基础功能,考虑相对编号是所有元素E相同。额叶矩阵的各条目是通过在高斯积分点的标量积的值总结获得。评估在高斯积分点的标量积的值的计算任务列于表2和表示

由T。在这种情况下,有必要计算2 * 2 = 4线性基础函数在高斯积分点,如表3中。同样,在此表中我们命名为t特定任务。

评估线性基函数的计算任务涉及的2 2 = 4的一维线性B样条张量产品。这在表4中,在那里,我们通过T我命名特定任务代表。

图2.计算的网格划分成单元。

表3负责在高斯积分点的二维线性基函数在元素E值的计算评估任务。

表4负责一维的值的评价计算任务在元素E在高斯积分点线性基函数。

表5前腰矩阵二次基函数。

2.3。二次基函数为二次基函数,我们有两个一维B样条的3 * 3 = 9张量的产品。这被示于图3.二次基函数的情况下的正面矩阵在表5中示出由集成在一个单一的有限元E,其中基函数具有非零的支持,即B,...,B。因此,在正面矩阵的行和列对应于九个基函数,并且它的条目包含的基函数所有组合标量积。换句话说指数K,K - 1,K - 2和l,l - 1,l- 2用于元件E相对编号。这里介绍的考虑是所有元素E相同。近似p为2的多项式阶数是额叶矩阵混合.每条目是通过在高斯积分点的标量积的值总结获得。计算标量积图1的值的计算任务。

图3.二次B样条在一个单一的元素.

表6负责以上元件E在高斯正交的二维二次基函数标量积值的评价计算任务点。

表7

负责二维的值的评价计算任务在元素E在高斯积分点的二次基函数。

在高斯积分点列于表6和记由T。

在这种情况下,有必要计算3 * 3 = 9二次基础在高斯积分点的功能,如表7中,与任务T2 I,J。

计算二次基函数的计算任务涉及3 3 = 6一维二次的张量积B样条仅有一名点,如表8给出的任务被命名为T 。

2.4。高阶基函数

该计划在2.2节提出和2.3的线性和二次基函数,分别可以概括为任意高阶基函数。

特别是,在一个单一的元件E= [sect;,sect;]times;[Ƞ,Ƞ]有定义为张量的产品(P 1)(P 1)的基函数p阶一维B样条

所以,有必要在高斯求积计算它们的值集成点。

3.任务和任务图的结构的选择积分算法

3.1。线性基函数

让我们首先关注的线性基函数情况。我们确定对于积分算法和结构的基本计算任务

作为计算执行既定任务字母表 这些任务的实际数据,在我们的情况下,在集成点。

在本节中提出的分析如下理论情节通过跟踪理论[8]提出的。

表8

负责一维的值的评价计算任务在元素E在高斯积分点的二次基函数。

定义1.线性B样条基于基函数的任务的字母组成的期间线性B样条基函数的积分处理中执行,对于给定的数据,即对于一个给定的结合点的特定的计算任务:

bull;额叶矩阵,例如条目计算中T =(B,B),如表2表示,

bull;在高斯积分点,例如线性基础函数值的计算中T = B(X1,X2),如表3表示,

bull;在高斯积分点,例如一维B样条基函数的值的值的计算中如表4中表示(x1); T=N(x1)

额叶矩阵的生成涉及的标量积的值的计算(B,B)对于k,m = 1时,...,N; L,N = 1,...N它涉及在高斯积分点的两个基函数相乘的值的评估。

这个操作由T= B(X1,X2)B(X1,X2)。这个操作,反过来,可以表示为两个操作的乘法,即计算B(X1,X2; 1)和B(X1,X2)。我们已经表示为T和T这些基本操作。最后,在高斯的二维B样条价值评估正交点可以表示为N(x1)和N(x2)。我们已经表示这些任务T,T我们可以绘制呈递这些任务之间的依赖关系的曲线图。

图中展示。 4可以被理解为在跟踪理论感一个的Dickert图表,比较[8]。该图可以通过考虑一丝表示,在规定的高斯积分点的值计算的动作感得到。

通过符号“...“我们表示,我们目前只有图中的一小部分数据。这是因为图形是巨大的,因为它涉及到所有的高斯求积点,所有的基础功能.最后,通过执行的Dickert图的着色(比较[8]),我们获得能够并行执行的任务集。特别是,所有16个任务可以同时执行。

3.2。高阶基函数

高阶基函数,分析是类似的线性的情况下执行的之一。但是,我们现在需要递归cox-de-boor式,图5中展示的,表达更高阶B样条作为低阶B样条的产物。通过使用这个公式,我们可以表达高阶B样条作为乘法和低阶B样条的补充和延伸我们的分析到高阶的情况。

让我们专注于二次基函数的情况下,再次执行任务的识别,利用cox-de-boor。换句话说,我们确定的任务字母表,了解给定积分点作为执行计算任务。

定义2.二次B样条基于基函数任务的字母组成:

bull;额叶矩阵,例如条目计算中t =(B,B)如表6中表示,

bull;二次基函数在高斯值的计算中

集成点,例如t = B(X1,X2),为表示于表7中,

bull;一维二阶B样条的值的计算中

在高斯积分点,例如基函数T =N(x1)在表8中表示。

bull;一维一阶B样条的值的计算中在高斯积分点,例如基函数T =N(x1)在表4中表示。

图4.表达与线性基础功能的整合任务之间的Dickert图。

图5.cox-de-boor公式。

再次,我们介绍任务之间的依赖关系,并显示的Dickert图(比较[8]),参见图6.在最后一个级别有9 * 9 = 81的任务,我们只显示其中9个为演示的简单性。所述的Dickert图可以被着色,以获得任务集的可并行执行的,包括来自在最后一个组的最后级的所有81的任务。

4.数值结果

4.1。GPU和CPU集成时间比较

本节介绍线性的实验结果,二次和三次B样条,二维等几何 Lsup2;投影问题.测量关心的执行时间超过CPU和集成并发执行顺序的积分算法通过共享内存执行的算法

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[151757],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。