英语原文共 4 页,剩余内容已隐藏,支付完成后下载完整资料
基于Web页面HTML DOM树形结构的特定主题网络爬虫
摘要:随着互联网呈指数型增长,网络数据挖掘成为寻找相关信息的主要方法。随着网站和文档的数量迅速增长,网站内容更新的越发频繁,聚焦网络爬虫更加流行。在文献中对怎样针对未访问URL排序进行深入研究,他们基于未访问URL的祖先计算出相应的预测分数,然而同一个网络页面的URL被认为具有相同的分数。换句话说,他们认为一个网页只有一个主题信息。然而我们发现网页的不同部分有自己的主题信息,他们同时拥有同一个或者几个大的主题所。所以应当基于他们之间的层次结构关系给不同段落的URL不同的分数。在本文中,我们认为每个Web页面是一种Dom树结构,并针对提取不同段落之间关系方面提出了一些规则,然后提出了一种基于网页层次结构和文本语义相似度计算未访问URL的预测得分的新的特定主体爬虫。我们考虑了如下三个因素。首先,我们用向量空间模型(VSM)计算文本相似度,VSM将段落等个体看做独立向量。但是在文本段落中术语序列有关联;我们尝试基于术语序列编辑他们之间的距离来避免这一问题。第三,同一网页的不同段落根据他们在DOM树中的层次结构关联在一起。最后我们在爬虫策略中合并如上三个因素并提出我们的模型。
关键词:聚焦网络爬虫;DOM树;编辑距离;语义相似度
第一章节 介绍
随着信息技术的发展,数字信息增长迅速,并且呈现出多种类型。根据研究资料,一年大概有1018字节数字信息,Google已经召回80亿网页,这个比例在所有网页中大概是1:500,且网页增长的速度为60T字节/天。由于这个问题,特定主题爬虫变得越发流行。在近些年中,一些应用聚焦网络爬虫的搜索引擎应运而生。特定主体爬虫通过选择收集与特定主题相关的特定网页来收集信息,而且需要很小的存储容量。他们比大型搜索引擎可以提供更高的检索精度和召回率;第二方面,他们的更新时间短,可以提供实时服务。第三方面,他们允许用户指定一些可满足自身要求的服务。
聚焦网络爬虫就像一个蜘蛛,它基于主题相关排序而不是广度优先或者深度优先排序。聚焦网络爬虫的主要问题是如何为未访问的URL分配适当的预测分数。一种被称作上下文图的方法被踢出,主要思想是存储链接层次结构的信息和从主页到特定主题网页的距离。但是这个方法是基于层次结构存在于具有相同主题的网页中。在【4】中,本文作者提升了这种方法,并将其称为关联上下文图。通过构建通用词和主题词分布来计算距离。在【3】、【4】,上下文中的点图是网页,距离并没有反映点之间的语义相关性。我们提出了文本相似度图,这是通过使用数学工具形式概念分析(FCA)实现,与此同时,与此同时,节点是反映文本相似度的概念。在【6】,他们发展了潜在语义索引,这是通过将链接分析与文本内容实现结合起来的。我们在【8】中研究了一个可学习的特定主题网络爬虫,方法是将兴趣点集中在根据兴趣相关度提高下一步爬虫进程。尽管上述提到的爬虫使用非常高效的技术,同一网页的URL被指定相同的分数。另一种方法分析未访问的URL附近的文本,然后给它们分配不同的分数。在【11】中,通过划分整个页面为几部分来计算预测分数。
通过以上研究,本文提出了一种基于Web页面层次结构的特定主题网络爬虫的新研究方法。这一想法的启发点来自于Web页面进行元数据提取的方法。一个Web页面被解析为一个Dom树,计算不同段落之间的关系,我们在计算文本相似度的过程中同时使用了向量空间模型(VSM)和编辑距离,这样避免了VSM的缺点。首先,我们基于查询提取主题向量,然后使用VSM和编辑距离计算主题向量及段落向量之间的相似性。其次,我们将网页解析为一个DOM树,在不同段落之间建立关系。最后,我们提出了预测网络爬虫的策略。
我们以下列方式组织本文。第二节回顾了网页Dom树、编辑距离以及他们在信息检索中的应用等信息,第三节提出我们的聚焦爬虫模型,详细介绍了如何基于Dom树结构和编辑距离在计算语义相相似度的过程中应用网页层次结构。最后,总结了本论文并提出改进工作。
第二章节 知识背景
我们首先回顾了Web页面Dom树及其在Web数据挖掘中的应用,然后阐述了用于计算文本相似度的编辑距离。
A Dom树及其应用
Dom (Document Object Model)是一个文档平台,y由一些层次结构的节点组织,或者构成了一些信息片段集,所以我们认为他是一棵树,我们把它叫作Dom树。图1是HTML代码,而图2是对应的Dom树结构。我们可以把每一个网页看作是一棵树,这反映了网页的内部信息并且在网页信息检索中经常使用。例如,一个有更多兄弟节点的段落的主题可能比其他有少量兄弟节点更具体。如果一个节点有许多子段,它的主题会抽象,而且很有可能是整个页面的主题。Dom树被用来在Web中进行信息提取,使用兄弟节点的数目针对网页主题进行过滤。即附近的节点和附近的文本段落之间的关系。这在一些搜索引擎中广泛使用。在【13】中,使用Dom树结构对网页进行分类并且排除相同页面。
Figure 1. An html web page code.
Figure 2. The Dom-Tree that corresponds to the web page in Figure 1.
B.编辑距离
Edit(s,t)是我们将t转换为s的函数,其中t和s分别为一个字符串,操作符包括插入、删除和替换。操作数为两个字符串的编辑距离。这个在计算两字符串相似度上十分频繁。人们通常使用编辑距离来计算两单词之间的聚合度。例如,图3显示了两个字符串之间的编辑距离是4。实际上,两个字符串十分相似,所以,这个方法在计算中文聚合度上有很多缺点。在【15】中,他们开发了一种使用单元聚合而非字符聚合的方法,Hownet资源和同义词计算。并且在相似单元中根据语言相似度给不同的操作以不同的权重。他们的方法使用了每一个单元的深度信息去挖掘意义相同但是外在不同的单元。考虑到不同单元片段和语言相似性避免没有解析段落和过滤段落之间的多样性,证明了这是适合计算汉语段落相似度的方法。【16】发展了一种将编辑距离和中文文本语法结合的方法。在【17】中,他们构造了一个将编辑距离看做随机过程的分类器。
Figure 3. The edit distance of two Chinese strings.
第三章节 基于HTML DOM结构的聚焦网络爬虫
在本节中,我们将具体介绍聚焦网络爬虫的策略。我们主要讨论三个部分,首先是本策略中应用的规则,这呈现在我们解析网页为对应Dom树的过程中;然后我们解释说明了两个计算文本相似度的步骤。一个是基于SVM的(各单元相互独立),可以通过计算单元频度和逆文档频度(TF-IDF)获得;另一个是两个句子的相似度,这是通过计算文本中单元片段的编辑距离来计算。这两个步骤是相辅相成的,因为当他们同时出现的时候,单元中有序列。最后,我们针对此这两部分,提出了我们的聚焦网络爬虫策略。我们将各自研究如下三个主要部分在下面的部分中。
A 基于HTML DOM树的三个规则
人们经常先写论文的题目,几个用来解释标题所写内容的几个较大段落,然后许多小段落用来说明上面的大段落,然后其余部分通过类比等结束全文。所以段落之间可能存在关系,但是两个相近段落的相似性可能很小,我们在如下文章总结了不同关系。
我们举例说明了两种概念。即在一定程度上反映HTML DOM树中两个段落的层次关系的父子或者兄弟关系。兄弟段落之间的关系相当低,因为他们在不同方面解释父亲节点。然而父亲-孩子段落之间的关系可能很高,因为人们撰写孩子段落用来支持父亲段落的观点。
定义3.1 父-子段落 有两个段落,如果在Dom树中一个段落是另一个段落的父亲节点,我们称这两个段落为父子段落。
定义3.2 兄弟-兄弟段落 假设有两个或者更多的段落,在一个Dom树中有同一个父亲节点,我们称之为兄弟-兄弟段落。
我们在如下部分根据以上的理解提出了三条规则。
规则1 Dom树顶部节点的Url得分不仅与节点内容相关,而且还与当前Web页面的查询和标签标题之间的相似性有关。
规则2 其他节点的URL得分同他的节点内容和父节点相关,换句话说,他的父节点会增加URL的权重。
规则3 如果一个节点相比其他节点有更多兄弟节点,我们将认为这个节点的父亲节点更加抽象。因此他的父节点应当在其上增加更少的权重。
以上三个规则是基于Dom树提取而得。我们将会将他应用到相似度计算公式中。
A 相似度计算
有两种计算文本相似度的方法,一个是用认为单词独立的SVM算法,另外一个是考虑单元序列的编辑距离方法。他们的差异在于,前者使用频率和逆文本频率(TF-IDF)来计算两个段落之间的相似度,后者不仅考虑是否单元出现,还有文本中的单元序列。我们讨论怎样应用两种方法来计算相似度。首先,我们在使用SVM的过程中选出可以描述段落的特征向量,然后我们修改模型中的编辑距离。
我们使用余弦来计算相似度,换句话说,两个段落被认为是两个向量,这两个向量的相似度反映了两个段落之间的相似度。在我们的模型中,有两个问题,一个是用户输入的查询长度通常很短,然而文本段落通常很长,所以我们直接考虑两个向量之间的余弦相似度是不对的。另外一个是人们思维方式的多种多样,即使用户想要查询相同的内容,可以输入不同的内容。
我们通过获取GOOGLE和BAIDU的顶部页面来拓展查询,切分文字和计算TF-IDF。
定义3.3 TF-IDF值 在文档i中术语k的TF-IDF值定义如下:
其中tfik是文本i中k的频率。是k的IDF值,N代表着所有文档集合的基数,K,N是集合K的基数。
定义3.4 余弦相似度 有两个向量i和j,然后他们之间的余弦相似度定义如下:
其中i是使用我们方法的用户查询输入的拓展向量,j是一个文本向量,分子是两者内积,分母是两向量模的乘积。
文本相似度不仅与频率相关,而且同单元序列相关。我们会根据查询单元出现在文本中的顺序计算文本相似度。同时,在我们的模型中展现我们的编辑距离相似度方法。
定义3.5 维度 我们定义维度为文本的一部分,包括在两单元编辑距离小于alpha;并且是常量情况下大多数的查询术语。
定义3.6 维度距离 将i作为维度,定义如下:
M是查询项的数量,n是查询维度,是两个相近单元之间的编辑距离,此处的编辑距离只包括区间单元及之间的变化,alpha;是在定义3.5中提到的常量。
定义3.7 编辑距离相似度 给定一个查询q和一个文本段p,然后我们定义他们之间的编辑距离如下:
其中I是一个维度,N代表查询p的数量维度。
示例1 给定一个查询q为“ABCD”和一个文本段p为“AxCxxDxxxBAxxCD”,x表示一个无关的术语,维度和编辑距离如下:
Division 1: AxCxxDxxxB? 1 Dis tan ce ?1 2 3 1 1=8;
Division 2: CxxDxxxBA? 2 Dis tan ce ?2 3 1 1 1=8;
Division 3: DxxxBAxxC? 3 Dis tan ce ?3 2 1 1=7;
Division 4: BAxxCD? 4 Dis tan ce ?2 1=3;
simL(q, p) = 0.25.
B 爬行方案
在之前的两个小节中,我们分析Dom树和相似
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[22995],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。