挖掘HTML5代码: 放眼人类如何利用新兴的Web标准外文翻译资料

 2022-07-25 13:25:12

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


挖掘HTML5代码: 放眼人类如何利用新兴的Web标准

摘要

目前,网络质量的研究主要是指质量网页的内容。有一些研究致力于JavaScript代码和CSS代码指标,但没有测量和预估HTML5代码质量与指标。朝着这个方向,这项工作的目的是确定哪些特征是可以测量HTML5代码的。要指定具体的指标来衡量这些特性,去实现一个工具通过计算它们的一小部分代表网页,最后以统计分析和数据挖掘技术的基础评估测试。

分类和主题描述一般和参考资料,资料系统数据挖掘软件及其工程自动化分析软件及其工程超文本语言软件及其工程经验验证。

关键词

HTML5代码质量与指标。

  1. 导言

有大量的可供分析像JavaScript,php等编程语言的质量的工具。然而,对我们所能了解的最好知识,没有任何工具或研究能够试着分析用HTML5编写的代码的质量指标。laquo;Quality of HTML Coderaquo;是基于各种标准的一个对HTML网页的优化水平的预测。随着HTML5和CSS3的演变,语义注释已在标签中添加,这引领了探索代码质量的新路径并且我们离Web 2.0更接近了一步。自从HTML在web中的广泛应用,使我们每个人都能参与并付出努力去测量种语言的质量。这是一个初步的努力来定义一些规模,复杂性和HTML5代码结构指标,去建立一个基于统计分析和数据挖掘技术评估一组网页的工具。

其余的论文组织如下:在第2节中,我们指对相关工作进行探讨,并对工作动机进行探讨。第3节概述了HTML5代码的规模指标,像霍尔斯特德度量,HTML5 Tags度量,Scripts和Styleshets的指标。在4节我们介绍DOM深度复杂性度量和Classamp;ID度量,。在第5节中提出的结构指标。第6节描述我们建立的工具,叫HTMLprocessor,一款基于java的工具,可以用来自动下载网页的列表,计算出所有上述的值指标和导出的结果方便下一步的外部文件处理。第7章概述了我们为了开展当前网页的HTML代码的初步研究
使用的方法。在第8节中,我们提出了一些统计信息收集的数据和一些初步的结果的基础上的数据挖掘技术。

  1. 相关的工作。

网络质量主要研究网页内容的质量。有一些研究通过JavaScript代码的指标估计它的质量。很少有研究针对CSS代码的质量指标。

对于HTML代码的测评工具,有一些工具像:

·验证器。检查大多数的HTML和CSS代码语法正确性的工具或在线服务。值得注意的是W3C验证器套件,它能检查整个网站,且评估与W3C的开放标准一致。目前验证的内容包括HTML,CSS和国际标准化。

·网页可行性评价工具。他们是帮助您确定网页内容是否符合可访问性的指南软件程序或在线服务。无障碍网络(WAI)W3C,提供页面与评价工具的列表,你可以过滤找到那些符合你特别需要的。

·移动检查工具。最引人注目的是W3C mobileok检查器进行各种测试来确定一个网页的可移动性能力。

本文的目的是介绍我们的工作的主要成果。首先我们在确定HTML有什么特点代码可以用于测量,为了实现一个来衡量网页的分析工具。我们分类这些指标在三大类:规模度量,复杂性,结构度量。

  1. 规模度量

这一类别包括那些从得到什么的角度看递送给浏览器一个网页的HTML代码测量的尺寸指标。

3.1 霍尔斯特德度量

霍尔斯特德复杂性措施的软件度量是通过引入莫里斯·霍华德霍尔斯特德在1977年[1]作为他的论文的一部分建立软件开发的一门经验科学。霍尔斯特德的意见认为该软件的度量应该反映在不同算法的实现或表达式语言,但在一个特定的是独立于它们执行的平台,这些指标是静态,霍尔斯特德目标是确定的可测量性软件的计算码,以及它们之间的关系。霍尔斯特德指标基于解释的源代码作为标记序列和每个标记分类是一个操作员或操作数。

对于一个给定的程序,霍尔斯特德定义:

N1 =不同运营商的数量
N2 =不同的操作数的数目
N1 =运营商的总数
N 2=操作数的总数

从这些数据,可以计算出若干措施。该对于我们的问题最重要的是:

程序词汇量的大小:n=n1 n2:

程序长度:N =N1 N2;
卷为:V=Nlog2n;

这个想法是,有可能是这些指标,可以成比例施加到HTML代码,以测量它的一些指标的特点。还有一些其他指标,比如困难,努力,所需的时间来编程和递送错误的数量可以不直接应用,但需要更多的研究,以评估我们如何估计这种衡量标准的HTML代码项目。
在霍尔斯特德度量程序被认为是序列运算符(如==, , ,等和关键字像for,if,break,function等)及其相关的操作数(主要是变量和常量)。我们认为大部分HTML代码为HTML标签,同时操作数的属性和他们的价值观,因为标签是形容“operate”和属性和它们的值的操作的参数。 从而,我们定义了以下六个基本特征值:

独特的(不同)标签号(t)
标签总数(T)
的独特(不同)的属性数(a)
属性总数(A)
独特(不同)的属性值的数目(v)
属性值总数(V)的

根据以上数据我们可以计算下列数:

独特(不同)运营商的数目(n1 = t)的
的独特(不同)的操作数数(n2=a v)的
运营商的总数(N 1= T)的
操作数的总数(N2= A V)

从这些数据,可以计算出若干措施。该对于我们的问题最重要的是:

HTML代码词汇量:n=n1 n2:
HTML代码长度:N =N1 N2
HTML代码体积:V=Nlog2n;

这些度量指示HTML代码的大小和它们独立于内容的大小(网页的文本)。 它显而易见,HTML代码指标可以在导致测量大量的网页后分析和挖掘的数据后被解释的。

3.2 HTML5标签度量

为了测量由目前采用HTML5标签开发人员,我们定义两个指标:
HTML5不同的标签(H5t):所有不同的数HTML5标记中的代码。
HTML5总标签(H5T):所有的数量HTML5代码中的代码。

可以在此阶段进行计算两个重要的指标是下面给定的HTML代码中的HTML5标记比率:
HTML5不同的标签比(H5t/t):这个指标示出了不同HTML5标记的比率(百分比)开发人员使用其代码中。
HTML5标签总额比例(H5T/ T):该指标显示HTML5标记开发人员的比例(百分比)使用其代码中。

3.3脚本指标

我们定义下列 网页的内部或外部的指标计数脚本数量:
外部脚本里面头:外部数位于网页的头部分的脚本。
外部脚本体内:外部数位于网页的主体部分的脚本。
内嵌脚本里面头:内部数位于网页的头部分的脚本。
内嵌脚本体内:外部数位于网页的主体部分的脚本。
总计脚本:以上所有的总和。
我们分别统计位于head和body里面的脚本,因为有关快速渲染一个网页很好的做法是定位内部的脚本的主体部分,特别是在代码的底部。

3.4样式表(CSS)的指标
我们定义以下网页的样式表内部或外部的指标进行计数的数目:
外部CSS里面头:外部数样式位于网页的头部。
外部CSS体内:外部数样式位于网页的主体部分。
内联CSS里面头:内部数位于头样式表(样式标签的计数)网页的部分。

内联CSS体内:外部数样式表(样式标签和样式属性的计数)位于网页的主体部分。
总CSS:以上所有的总和。
我们分别统计位于头内的样式表和主体部分,因为定位一个网页渲染速度头部分内部样式表是一个很好的做法。

四.复杂度度量

Web开发人员需要努力了解这一类的指标衡量在个网页的HTML代码的复杂性。

4.1 DOM的深层次指标
HTML DOM(Document Object Model)被构造为该HTML代码里面出现标签的树。一个明显的复杂性度量是这棵树的深度。因此,我们定义以下两个指标:

最大DOM深度:最大路径的长度DOM树。
平均DOM深度:所有路径的平均长度的DOM树。

4.2 Class&ID指标
HTML代码编写的基本上重要组成部分是决定有多少不同的Class,你要使用的ID。 这些指标也可以作为衡量标准指标。但我们认为,这些指标,主要指的是代码的复杂性,因为开发者需要知道所有这些HTML代码开发或维护的Class名和ID。
我们定义了以下指标:
总ID值:我们预计这一指标是相同的与DISTINCT ID值。如果它不这表示质量差的代码。
鲜明的ID值;
ID值平均长度的平均长度:不同的ID值;
Class总值;
Class独特的价值观;
class值平均长度的平均长度不同类值。

五.结构度量

HTML5的结构标签是被用于结构和网页的内容或部分的语义表示法。在HTML5标准引入了几个新的结构标签:article,Aside,Footer,Header,Main,Nav,Section。此外,我们添加Div和iframe到Body列表。 对于这些结构变量我们介绍了以下数据:
HTML5三连结构变量:这度量测量DOM深层路径下的三联体数量和种类。比如Body—Header—Div—Div路径下的三联体记作Body—Header—Div和Header—Div—Div。

此外,对于每一个包含至少一种上述三单元组DIV,我们提取的每个标签的ID 。比如以下的HTML代码

lt;article class=”A” gt;
lt;section class=”B” id=”test1”gt;
lt;div id=”header”gt;

我们提取了以下数据:

Classes of triad Article-Section-Div = “A@B@” and
IDs of triad Article-Section-Div = “@test1@header”.

  1. HTML处理器工具

我们的工具叫HTMLprocessor,它实际上是一个java程序它可以用于自动浏览网站的列表,计算所有上述指标和值导出结果外部文件进行进一步的处理。
该方案的主要文件是:
HTMLprocessor.java:主要的Java代码。
html5tags.txt:所有HTML5标记的文件。
LIST.TXT:所有网页的URL下的列表评估。
Output.txt的:在人类可读的测量格式。
Output.csv:CSV格式的测量文件。
用户定义列表,网页运行和测评主要的Java文件生成的TXT文件。所有计算所得的所有计算值都以人类可读的格式保存在Output.txt的文件中。该Output.csv格式包含在csv格式中,所有测量数据为了可重复使用的其他处理工具中。此外,该工具提供了统计分析,像其他信息:
 DOCTYPE的HTML版本

 CMS的名字(如果HTML代码是CMS生成的)
 页面的谷歌网页排名
 页面的Alexa世界排名
 每个HTML5 外观标签的数量。
此外,该工具可以访问实际的HTML代码页,从另一个名为HTML.txt的文件中提取。这会在用在站点运行时与目前的结果进行比较或验证非常有用。
这个工具使用两个外部库:a)Jsoup和b)ApacheCommons.。它是基于Jsoup解析器实现。 Jsoup是Java库,用于提取和操纵HTML代码,用最好的DOM,CSS和jQuery类似方法。它提供了一个API,您可以通过它制作为了复杂的请求测量和提取的HTML代码的特定信息。对于有关库的详细信息,请访问该链接http://jsoup。org/。Apache Commons (commons-io-2.4.jar)专注于可重复使用的Java组件。它在我们的工具使用为了获得访问过的网页的Alexa排名和网页排名。我们的工具是开源的,可以在这个网址访问:
https://github.com/gizas/HTMLprocessor

这是一个对Eclipse友好的安装版本,可立即下载并从任何一台机器上运行。只要确保该先决条件:jar文件(jsoup.jar和apache_commons.jar)已被添加到您的Java构建路径。

七.方法论

本节介绍我们为了进行使用的方法出当前网页的HTML代码进行了初步研究。该该方法的步骤,在接下来的章节中介绍。

7.1选择用作样本的站点
对于最开始的研究,我们决定用一个

全文共7803字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[154910],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。