英语原文共 52 页,剩余内容已隐藏,支付完成后下载完整资料
从十年前的信息中追溯:一个系统的信息检索方法映射到软件的可追溯性
摘要:工程师在大规模软件开发需要管理大量的信息,遍布许多工件。一些研究者提出表达构件检索跟踪链接,即。跟踪复苏,作为信息检索(IR)的问题。本研究的目的是产生一个地图的工作想法跟踪复苏,尤其关注以前的评价砂强度的证据。我们进行了一项系统的映射的想法跟踪复苏。79年的出版物分类,大多数应用代数IR模型。在一系列的研究表明,学生的想法跟踪恢复工具支持特定的工作任务,大多数以前的研究并不超越报告精度和召回从评估候选人的跟踪链接使用数据集包含少于500工件。我们的审查确定了需要的工业案例研究。此外,我们认为应该改进的总体质量报告关于环境和工具的细节,措施报告,并使用红外术语。最后,根据实证研究结果,我们提出的建议就如何推进研究的想法跟踪复苏。
- 简介
软件系统的成功发展涉及简明和快速的信息访问。然而,信息过载困扰软件工程师,因为大量的正式和非正式信息被不断地产生和修改。不可避免地,特别是在大型项目中,这导致了挑战性的信息景观,除了源代码本身,包括各种抽象层的需求规范,测试用例描述,缺陷报告,手册等。结构化这种信息的实践方法是在数据库中组织工件,例如,文档管理系统,需求数据库和代码存储库,并手动维护跟踪链接。通过访问跟踪信息,工程师可以更有效地执行工作任务,如影响分析,可重用伪像的识别和需求验证。此外,研究发现缺乏可追溯性是项目超支和失败的主要因素。此外,由于可追溯性在软件验证中发挥作用,安全标准例如用于汽车工业的ISO 26262(国际标准化组织2011)和用于过程工业的IEC 61511(国际电工委员会2003),可追溯性信息的任务维护,以及CMMI过程改进模型。然而,手动维护跟踪链接是一种不扩展的方法。另外,软件开发的动态性使其冗长乏味并且容易出错。
作为有效的方法,工程师将受益于处理信息搜索和检索的其他方法,有效地调查软件开发项目的异构信息环境。几个研究人员声称可追溯性作为信息检索(IR)问题是可行的。此外,其他研究报道,使用半自动化追踪在执行需求追踪时减少了人的努力。 IR方法建立在如下假设:如果工程师参考系统的相同方面,则在不同的软件工件上使用类似的语言。因此,工具建议基于自然语言(NL)内容的跟踪链接。在千年的第一个十年期间,大量的研究工作被花费在对软件工程的IR技术进行定制,应用和评估,但是我们发现缺少该领域的全面概述。这样的二次分析将为未来研究提供基于证据的基础,并为行业实践提供建议。因此,收集的经验证据可用于验证并可能加强由可追溯性研究团体最近对由软件可追溯性卓越中心(CoEST)组织的未来研究的呼吁。此外,它可以评估最近的声称,应用更先进的IR模型不会改善结果。
我们进行了一个系统映射(SM)研究,将基于IR的追踪恢复的出版物集群化。SM和系统文献综述(SLR)主要是由其驱动的研究问题(RQ)区分,即一个SM识别研究差距和聚集证据以指导未来研究,而SLR合成一个具体的经验证据RQ。方法的严格性是确保全面收集已发表证据的关键资产。我们用三个RQ中定义了这个SM的总体目标:
RQ1:哪些IR模型和增强策略最常用于执行痕迹恢复NL软件工件?
RQ2:在基于IR的追踪恢复研究中,哪些类型的NL软件工件最常被链接?
RQ3:基于IR的痕量回收率的现实性程度的证据有多强?
本文组织如下:第2节包含了IR工具如何在跟踪恢复过程中使用的描述;第3节介绍相关工作,以及相关的次要和方法研究;第4节描述了SM是如何进行的;第5节显示了研究的结果。
2.背景
本节介绍IR的基本原理,以及如何在跟踪恢复过程中使用实现IR模型的工具。
2.1 IR背景和术语
由于研究确定了术语使用的变化,本节定义了本研究中使用的术语,其与最近重新定义的术语一致。我们使用以下IR定义:“信息检索寻找材料(通常是文献)的非结构化性质(通常是文本)满足来自大集合(通常存储在计算机上)的信息需求“。如果检索的文档满足这种需要,我们认为它是相关的。我们只考虑文本检索在研究中,但我们遵循约定,并将其称为IR。在我们的解释中,起点是检索与查询相关的文档的任何方法都符合IR。在本研究的映射出版物的子集中使用自然语言处理(NLP)和语言工程(LE),即使它们涉及相同的IR技术。我们认为NLP和LE是等效的,借用了李迪的两个定义:“NL文本是用人类使用的语言编写的文本,用于相互通信”,“NLP是一系列用于分析和表示的计算技术NL文本”。结果,IR(指解决问题的过程)和NLP(指一组技术)重叠。与Falessi等人的决定相反。为了一致地应用术语NLP,我们选择在这项研究中使用IR,因为我们更倾向于关注的过程而不是技术。虽然跟踪恢复实际上涉及针对NL文本的解决方案,但是我们倾向于主要将其视为满足信息需求的问题。
2.2基于IR的跟踪恢复过程中的支持
由于通过现有技术的基于IR的轨迹恢复产生的候选轨迹链路通常太不准确,所以当前的工具被提出用于半自动过程中。卢西亚将该过程描述为四个关键步骤的序列,其中第四步需要人的判断。虽然步骤2和3主要适用于代数IR模型,但是其它IR模型也可以通过类似的顺序过程流程来描述。四个步骤是:
1.文档解析,提取和预处理;
2.用IR方法进行语料库索引;
3.排名列表生成;
4.候选链接的分析。
在第一步中,目标信息空间中的工件被处理并被表示为在给定粒度级别(例如节,类文件或个别要求)下的一组文档。在第二步中,对于代数IR模型,来自集合的特征的文档被提取和加权以创建索引。当查询已经以相同的方式被索引时,来自步骤2的输出用于计算工件之间的相似性,以相应地对候选轨迹链路进行排序。在最后一步中,将这些候选轨迹链接提供给工程师进行检查。通常,工程师然后检查每个候选轨迹链路的候选源和目标伪像,并且确定是否应该确认链路。因此,基于IR的痕量恢复过程的最终结果是基于人类的判断。许多出版物向使用候选轨迹链接的工程师提出建议,建议工程师应当迭代地降低相似性阈值,并且当不正确链接的分数太高时停止考虑候选轨迹链接。基于对分析的实验,他们得出结论,增量方法一般都提高了准确性,在基于IR的跟踪恢复支持的跟踪任务中所涉及的努力。此外,他们报告说,受试者优选以增量方式工作。使用候选轨迹链接递增地工作可以对一些受试者也是一种直观的方法。在Borg和Pfahl的前一个实验中,几个主题描述了这样一种处理工具输出的方法,即使没有明确的指令.覆盖分析是由卢西亚等人提出的另一个策略,旨在跟踪迭代降低相似性阈值的步骤。通过分析确认的候选轨迹链路,即进行覆盖分析,卢西亚等人建议工程师应该关注跟踪链接少的轨迹。此外,在与学生的实验中,他们表明,根据此策略工作的工程师恢复更正确的跟踪链接。
3.相关工作
本节介绍关于推进基于IR的跟踪恢复的实证研究的相关工作。
许多以前的出版物旨在构建或推进基于IR的痕量回收的研究,因此与我们的研究密切相关。实验框架描述了四个阶段:定义,规划,实现和解释。此外,他们使用他们的框架来描述以前的出版物。不幸的是,框架并没有经常应用,经验评价的报告质量差异很大.Huffman Hayesetal还介绍了方法研究(能够快速提供准确结果的工具)和人类分析师研究(人类如何使用工具输出?此外,他们提出根据Huffman Hayes的工作经验,根据不同质量的可追溯性矩阵,根据名为“可接受”,“好”和“优秀”的质量间隔评估工具输出的准确性.Huffman Hayeset等人的定义以表示工程师审查整个候选可追溯性矩阵所需的努力。
考虑到实证评估,我们将Huffman Hayes提出的分类扩展到Ingwersen和Jauml;rvelin的综合认知研究框架的适应版本。旨在扩展IR评估的事实标准,IR评估的实验室模型,在在60年代的克兰菲尔德测试,挑战其不切实际缺乏用户参与。 Ingwersen和Jauml;rvelin认为,IR总是在一个上下文中进行评估,将最内层的上下文称为“IR评估的洞穴”,并提出了一个由四个综合上下文组成的框架。我们已将其框架调整为四级上下文分类,为基于IR的追踪恢复定制,以便对之前进行的评估进行分类。此外,我们添加了一个研究环境(大学,专有和开源环境)的维度。
我们在文献中经常讨论在基于IR的跟踪法中评估中用作输入的数据集的有效性,另外,最近的两个出版物主要解决这个问题。Ali对文献报道的影响痕迹恢复评价的特征进行了文献综述描述,提出了模糊的要求,以及源代码标识符的质量。Ali从八个以前的跟踪恢复评估中提取PR值,不限于基于IR的跟踪恢复,并且显示相同的技术生成在数据集之间具有非常不同的准确度的候选跟踪链接。因此,结论是不旨在仅针对孤立的恢复方法导致任何重大突破,而是他们建议,影响输入工件的因素应该更好地控制。博格最近强调,大多数以前的基于IR的追踪恢复的评估是使用学生开发的工具进行的。作者在可追踪性社区的调查中探讨了这种潜在的有效性威胁。他们的结果表明,尽管大多数作者认为来自学生项目的文物只能部分代表工业用品,但很少有受访者在使用它们作为实验输入之前明确验证。
- 方法
本研究的总体目标是对现有的基于IR的痕量回收研究形成一个全面的概述。 为了实现这一目标,我们系统地收集经验证据来回答SM的研究问题特征。研究以下列不同的步骤进行:(i)开发审查方案,(ii)选择出版物,(iii)数据提取和出版物绘图,部分迭代,每一个都得到验证。
4.1协议开发
根据既定的软件工程二级研究指南,我们在作者之间的共识会议中迭代地制定了一个审查方案。该协议定义了研究问题,搜索策略,包含/排除标准和用于数据提取的分类方案。提取的数据以表格格式组织以支持研究间的比较。按类别归纳证据,并研究研究之间的共性和差异。此外,审查协议规定使用Zotero作为参考管理系统,以简化一般任务,如排序,搜索和删除重复。与指南中使用的术语的一个重要偏差是,我们区分主要出版物(即包括出版物单元)和初级研究(即包括多篇经验证据),因为许多出版物报道了多项研究。
4.2出版物的选择
系统地确定出版物包括两个主要阶段:(i)制定初级出版物的黄金标准,以及(ii)检索它们的检索字符串,以及系统地搜索出版物(如图1)。在第一阶段,一组出版物 通过探索性搜索,主要是通过非正式文献综述的一个子集的雪球抽样来识别。最常见的经常性出版物论文然后被扫描额外的出版物。该活动产生了59种出版物,这被认为是我们的金标准。第一阶段导致了对该领域中使用的术语的理解,并使得开发有效的搜索器成为可能。
第一阶段的第二步是迭代开发搜索字符串,与部门的图书管理员一起,我们使用Inspec / Compendex数据库中的组合搜索重复地评估了我们的搜索字符串。 这些数据库中有五十份黄金标准的论文。 我们认为搜索字符串足够好,当它导致224个独特的命中80%回收和20%的精度,当搜索黄金标准,即55个主要出版物中的44个加上176个额外的出版物检索。
最终的搜索字符串由与AND连接的四个部分组成,分别指定活动,对象,域和方法。
图1
下一步,我们将搜索字符串应用于两个没有BibTeX导出支持的数据库。其中一个,ACM数字图书馆,自动阻止搜索术语,导致超过1,000个搜索结果。然后将包括/排除标准应用于总共1,241种出版物。这一步扩展了我们的初步研究13个出版物,重复删除后,应用包含/排除标准,在ACM数字图书馆和SciVerse确定。
我们出版物选择阶段的最后一步,再次进行了探索性搜索。基于我们对领域的新理解,我们扫描了顶级出版论坛和最多出版的学者遗漏出版物。作为最后一个补充,我们使用Google学术搜索搜索出版物。总的来说,最后一个阶段确定了8个其他出版物。因此,系统数据库搜索生成了主要出版物总数的89%,这符合来自检索字符串的验证的期望。
最后的验证步骤,我们使用REVIS(一种用于支持基于视觉文本挖掘的SLR的工具)来可视化地选择了70个主要出版物。REVIS采用扩展BibTeX格式的一组主要出版物,如图2所示,将集合可视化为文档集(a),边集(b)和文档集(c)的引用网络。当开发REVIS以支持整个映射过程时,我们仅使用该工具作为视觉验证选择出版物。
图2
4.3数据的提取与映射
在研究阶段,根据审查方案的预定义提取形式从主要出版物中提取数据。我们提取了一般信息(标题,作者,附属,出版论坛,引文),关于应用IR方法的细节(应用IR模型,特征的选择和加权,增强)和关于经验评估的信息(数据集的来源,研究方法,IR评估的背景,评估的结果)。
第二和第三作者验证了提取过程,研究了30%的核心初级出版物样本。一半的样本,15%的核心主要出版物,用于验证IR细节的提取。另一半被另一个作者用来验证经验的细节。如预期的那样,验证过程显示数据提取活动和该工作中固有的定性分析不可避免地导致一些偏离的解释。根据对于整个30%样本验证的IR上下文的四个级别,分类最小的共识。这种差异和检测到的其他微小差异,直到其他主要出版物找到并遵守协议为止。关于IR背景,我们采用了一个包容性战略,通常选择较高级别的边界出版物。
- 结论
根据第4节中定义的方法,我们确定了79个主要出版物。大多数出版物出版在会议或研讨会上(占85%),而12个(15%)出版在科学期刊上。从1999年的Antoniol开创性作品开始,大约有150个作者贡
全文共5622字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[143682],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。