利用关联规则挖掘医学图像数据集外文翻译资料

 2023-01-01 19:21:21

本科毕业设计(论文)

外文翻译

利用关联规则挖掘医学图像数据集

作者:乔蒂·德什穆克(Jyoti Deshmukh),乌达夫·博瑟尔(Udhav Bhosle)

国籍:印度

出处:国际计算建模与安全会议(CMS 2016)

摘要:该研究提出了使用关联规则发现乳腺X光照片中频繁出现的图像形态的数据挖掘概念。第一阶段是分割数字化的乳腺X光照片,以找到感兴趣的区域(ROI)。它包括用于去除噪声的中值滤波,用于去除背景和抑制伪影的形态学处理,用于提高图像质量的图像增强技术,以及用于完全去除胸肌的区域增长算法。第二阶段是图像挖掘,利用关联规则发现乳腺X光照片中出现的频繁图像形态。它包括特征提取、选择其中最具鉴别性的特征进行优化、对选定特征进行离散化以及生成输入图像的处理结果。该处理结果作为Apriori算法的输入来生成关联规则。再使用一种新的ESAR(强关联规则算法)从上一步Apriori算法得到的规则中获得强有力且高度相关的关联规则。结果表明,图像挖掘是可行的,并给出了较强的关联规则。这些关联规则可进一步用于乳腺X光照片的有效诊断。

关键词:图像挖掘,关联规则,支持度,置信度,感兴趣区域,相关测度;

1. 引言

世界上每天都会产生大量的卫星图像、医学图像和数码照片。通过分析这些图像,可以向人们揭示有用的信息。因此,能够从大量的图像数据中自动检索出有意义的信息是对图像挖掘系统的需求。医院和医疗中心每天都会生成大量的乳腺X光照片,分析和诊断乳腺X光照片的过程已经变得至关重要,因此,需要一种计算机辅助诊断(CAD)系统来帮助医生完成任务。在已有的方法中,我们发现关联规则可以进一步用于乳腺X光照片的有效诊断,这些关联规则代表了在类似类型的图像(即乳腺X光照片的良恶性图像)中共同出现的频繁项集。这些规则可进一步用于乳腺X光照片的有效诊断。在该方法中,我们利用挖掘过程中最具鉴别性的特征来获得强关联规则,这使图像挖掘算法更快,因为它使用了特征优化,通过选择最具鉴别性的特征并将特征离散化。该方法分为两个阶段,首先对数字化乳腺图像进行感兴趣区域(ROI)分割,然后利用关联规则挖掘的Apriori算法在乳腺图像中发现频繁项集。最后,我们提出了一种新的ESAR算法来优化这些生成的关联规则,以获得强有力且高度相关的关联规则。

Agrawal等[1]第一次讨论了关联规则挖掘的问题。Beyer等[2]提出增加代表图像的特征数量会产生问题。因此,为了提高判别准确性,我们必须将特征数量保持在尽可能低的水平。图像的颜色分布由直方图表示,但对于乳腺病变,其识别性较差。为了区分乳腺肿块的良恶性,可以使用形状特征,但会增加该过程的计算复杂性。乳腺X光照片的纹理变化代表了乳腺组织密度的差异,因此粗糙度,光滑度和规则性的特性由纹理特征来描述。

可以使用纹理作为视觉特征在数据库中检索相似的图案,像素强度的空间排列表征纹理信息[3][4]。乳腺X光照片描述了组织密度差异,这些差异对于乳腺X光照片的分析非常重要,乳腺组织密度的差异可以在乳腺X光照片中以纹理变化的形式捕获[5]。C.Ordonez等[6]介绍了用于图像数据库中的数据挖掘。他们专注于在二维彩色图像中找到关联规则的问题。Carson等[7] 提出了图像表示方法,它提供了从原始像素数据到颜色和纹理空间中的一小组局部相干区域的转换。Ji Zhang等[8]提出了各种图像挖掘研究问题,用于图像挖掘的框架,图像挖掘的最新发展,最新技术和系统。Monika Sahu等人提出了一种用于图像纹理信息并实现比图像形状特征更高的检索效率的框架[9]。Marcela Y.Ribeiro等 [13]讨论了一种基于关联规则挖掘的乳腺X光照片分类方法,以改善乳腺X光照片的诊断,此方法会生成非敏感和敏感关联规则,但对于诊断过程,这些非敏感关联规则没有帮助,他们还手动找到乳腺X光照片的感兴趣区域(ROI),然后将这些特征提取技术应用于这些ROI。

Maria-Luiza Antonie等[14,15,16]提出了一种使用关联规则的乳腺X光照片分类方法。作者使用神经网络作为分类器,并使用关联规则挖掘作为数据挖掘算法。Jiang Yun等人将粗糙集理论与关联规则结合起来用于乳腺X线照片的澄清[17]。Sumeet Dua等[18]提出了基于加权关联规则的分类方法,它使用每个关联规则的类间和类内权重进行分类。Jawad Nagi等[19]提出了一种使用形态学处理和种子区域增长算法的方法,用于乳腺轮廓自动分割。

尽管许多研究人员已开发出多种不同的技术来挖掘乳腺X光照片,以找到强大而有效的关联规则,但这仍然是一项艰巨的任务。因此,我们提出了一种基于纹理的图像挖掘方法。本文其余部分组织如下:第2节描述了提出的图像挖掘方法;第3节为实验结果;第4部分是结论和未来工作的总结。

2. 提出的图像挖掘方法

图1显示了所提出方法的框图。它分为两个阶段。首先是对数字化的乳腺X光照片进行分割,用于寻找感兴趣区域(ROI),其次是使用关联规则挖掘在乳腺X光照片中发现频繁项集。每个输入的乳腺X光照片都与一个关键字相关联,即良性或恶性。

图2显示了提出方法的算法。

图 1 提出的图像挖掘方法的框图

图 2 提出方法的算法

2.1 数字乳腺X光照片的分割

在乳腺X光照片图像分割的预处理步骤中,我们使用中值滤波来去除数字化噪声(例如直线)。输入图像中相应像素周围的3times;3邻域的中值给出了相应的输出像素值。但是,我们将图像的边缘替换为零。然后,我们在预处理的乳房X射线照片上应用阈值化和形态学运算,以去除可重印不透明的伪影,例如标签和楔形。通过实验,我们设置了一个全局阈值T = 100,该阈值被选择用于将灰度图像转换为二进制[0,1]格式。为了抑制伪影,标签和楔形,对阈值二值图像进行形态学操作,例如膨胀,腐蚀,打开和关闭。我们对处理过的乳腺X光照片进行对比度增强。使用区域增长技术,分割胸肌。为了实施区域生长技术,我们在输入的乳房X射线照片图像的胸肌内部放置了一个种子[19]。

2.2 使用GLCM进行特征提取和特征向量生成

从分割后的乳腺图像(ROI)中提取纹理特征,并将其组织成特征向量。利用灰度共生矩阵(GLCM)方法提取特征。对于每个输入的乳腺X光照片,都会生成一个GLCM矩阵。同现矩阵是由两个灰度级出现的相对频率像素和由再方向的像素隔开。对于、、和的方向以及1、2、3、4和5个距离计算共现矩阵。每个输入图像都用其唯一的特征向量表示。每幅图像生成20个16times;16个整数元素的矩阵。对于每个矩阵,计算表1中给出的7个特征,生成140个元素的特征向量来表示每个图像[4]、[12]。

2.3 关联规则挖掘的预处理步骤

将输入的乳腺图像的特征向量和关键字(良性或恶性)提交到预处理步骤,用于关联规则生成。在预处理步骤中,我们对特征的连续值进行特征选择和离散。基于不一致性,我们确定了准确的间隔数和特征选择。随着特征值不一致性的减小,特征值区间的数量也变小。关联规则挖掘的预处理步骤是在特征值不一致的情况下,使特征值区间的个数最少。因此,从所有输入的乳腺X光照片的特征向量中,剔除不一致和不相关的特征,选择最具鉴别性的特征形成特征向量。这些选择的最具鉴别性的特征出现最小的类变异,然后对这些选择的特征进行离散化。生成每个图像的优化特征向量,并将其作为事务数据库的输入。

2.4 事务数据库的形成和关联规则的挖掘

利用输入的乳腺图像关键字,即良恶性特征向量和优化后的特征向量构建事务数据库。事务数据库对每个输入图像都有一个事务记录,并将其提交给Apriori算法。关联规则挖掘问题首先在[1]中讨论,假设称为项,D是一组数据。一个关联规则的表达形式是。其中A和B是项目集。A称为规则的前项,B称为规则的后项,项集是项的集合。为了确定挖掘过程返回的规则,使用了支持度和置信度。支持值解释了关联规则应用于给定事务数据集的频率。置信度解释了B中的项在包含A的事务中出现的频率。它们定义为:

如果D中的数据案例的S%包含A和B,则规则在D中具有支持S。如果D中持有A的数据案例的C%也包含B,则规则在D中具有置信度C。挖掘关联规则的问题是找到所有支持和置信度值大于用户指定的最小支持和最小置信度阈值的规则。将所有输入图像的交易记录作为Apriori算法的输入,以生成关联规则。通过应用最小支持和置信度阈值,Apriori算法生成关联规则。通过实验设置最小支持和置信度阈值。

2.5 强有效关联规则的提取(ESAR算法)

利用Apriori算法进行关联规则挖掘,给出数据中满足最小支持度和置信阈值的所有规则。对信息的解释因规则而异,很多时候,具有高支持度和置信度的规则会给出相互冲突或冗余的信息,使规则变得无趣。支持度和置信度措施在过滤无趣关联规则方面是不够的。为了克服这一局限性,可以使用兴趣度相关测度来增强关联规则[10]的支持度-置信度框架。这就引出了以下的相关规则:

文献中列出了很多相关测度,我们选取了提升度、确定性因子、完备性等相关测度,因为它们显示出可行的结果,从而发现在图像挖掘中产生的强而有效的规则。

我们将图3所示的ESAR(提取强关联规则)算法应用于Apriori算法在前面步骤中生成的所有关联规则,以确定强、有效和高度相关的关联规则。对于每条规则,我们都计算支持度、置信度和相关性度量,如完整性和确定性因子。通过实验,确定了合成相关测度的最小阈值。满足RCM最小阈值的规则称为强规则。

图 3 ESAR算法

3. 实验结果

我们使用来自乳腺X光图像分析学会(MIAS)的乳腺X光图像数据集,利用关联规则测试提出的图像挖掘方法。我们总共选择了92张乳腺X光照片,其中51张是良性的,41张是恶性的。在第1步中,我们对乳腺X光照片进行自动分割,以获得感兴趣区域(ROI)。图4(a-e)显示了分割步骤的结果。在第2步中,我们使用灰度共生矩阵(GLCM)方法从ROI中自动提取特征,并将这些特征组织成特征向量。生成140个元素的特征向量来表示每个输入图像。表1给出了所使用的灰度纹理特征及其在特征向量空间中的位置。图5显示了生成的特征向量的快照,其中每行的第一个值为图像编号,第二个值为其特征值。步骤3将输入的乳腺图像的特征向量和关键字(即良恶性),提交到预处理步骤,用于关联规则生成。在这一步中,我们执行特征选择和选定特征的离散化。选择最具鉴别性的特征,形成优化的特征向量。从特征提取步骤为每个输入图像获得总共140个特征。从这140个特征中,我们通过应用特征优化过程得到了17个最具鉴别性的特征。

在第4步中,我们使用Apriori算法生成事务数据库并执行关联规则挖掘。我们使用1001作为良图像的关键字,使用1002作为良图像的关键字。因此,每个输入的乳房x线照片都有一个关键字,即良性或恶性,以及17个优化特征值的间隔的唯一标签。事务数据库有每个输入图像的记录。所有输入图像的记录作为Apriori算法的输入,用于生成关联规则。最小支持度设置为5%,最小置信度设置为90%。这个数据集总共有591条规则。

图 4 乳腺X光照片分割过程结果:(a)原始乳腺X光照片;(b)去除噪声后的滤波乳腺X光照片;(c)阈值化乳腺X光照片;(d)造影后的乳腺X光照片;(e)最终分割的乳腺X光照片

表 1 纹理特征及其在特征向量中的位置

功能

方程

意义

位置

Step

Distribution

1-20

Variance

Contrast

21-40

Entropy

Suavity

41-60

Energy

Uniformity

61-80

Homogeneity

剩余内容已隐藏,支付完成后下载完整资料


英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[268524],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。