一个用于挖掘相关网站的智能方法外文翻译资料

 2022-10-26 10:15:10

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


一个用于挖掘相关网站的智能方法

摘 要

我们在本文中提出了一个基于用户的查询关键字以找到更多相关网站的智能元搜索引擎。我们自动弹出给用户阅读的只有最相关的文档,而不是列出很多候选网站等待用户搜索。出现在对话窗口的最相关的文档是由本文提出的方法得到的。用户关于搜索结果的满意度也给了我们的系统一个反馈,以便设计模型的进一步改进。如果用户不满意推荐的文档,我们也有供用户选择的选项,并且这些列出的选项和查询关键词的联系逐渐递减。我们将介绍设计的体系结构模型,并且说明该系统找到所需的网站的工作原理。

简介

据一个.com公司进行的当地的调查显示,使用搜索引擎发现有趣的信息仍然是上网最重要的活动。调查结果显示,29.5%的上网活动与信息搜索有关。因此,大多数门户网站的目标是提供一个来响应用户查询的强大的搜索引擎。在因特网上有超过900万的活跃的主机,超过58%的apache服务器。最受欢迎的搜索引擎,谷歌内部技术驱动的雅虎,索引超过1.3亿个网页。假设存储URL和每个web页面的描述需要500字节(创建日期,大小,标题和第一行或一些标题),那么我们存储1亿页需要50 GB。大量的网页,大多数搜索引擎使用布尔模型的变化快速排名。虽然他们在很短的时间内可以检索许多可能的网站或文件,但用户可能在选择首先访问哪个网站上面临困难。例如,当一个用户在谷歌查询“模糊”这个词时,它会返回792000未知顺序的搜索结果。除非你点击它,否则出现网站的内容对用户来说仍然是未知的。一些搜索引擎进一步利用向量模型进行全文搜索。向量模型使得文档和查询可能局部匹配,因此索引词必须事先决定。但它总是出现问题,大多数用户很少为他们的查询输入超过两个词。另一种方法是过滤文档预处理的索引词,包括文本的词法分析,消除禁用词表,所剩下的单词,索引词的选择,以及词的分类结构的建设。关于动态计算的效率,我们仍然希望从预处理的过滤条件中提取更重要和更有意义的词。

一些搜索机制,如Mondou,使用关联规则找到相关词。它通常会生成一个满意的结果,但随着词语的数量增多,挖掘过程可能需要我们很多的时间。为了克服这个弱点,我们提出的元搜索引擎动态计算机制, 可以完善更多相关的有效索引词和等级的有效索引词。

相关工作

在信息检索中有三个经典的模型,布尔模型、向量模型和概率模型。大多数搜索引擎使用布尔模型或者向量模型的变种进行排序。在布尔模型中,所有的索引项的词频都是二元的。尽管对于信息检索来说布尔模型是最快速的,但是用户似乎难以审查每一个数量巨大的检索信息。在向量模型中,查询和文本的索引项拥有一个非二元权重。为了保证检索的灵活和精度,向量模型在很多搜素引擎中都使用到。不幸的是,在这些搜索引擎中依然存在一些严重的问题。将向量模型运用到实时动态计算非常困难,因为几乎没有用户能长时间的等待搜索引擎的检索时间。接下来会说明它们是如何工作的:

假设我们系统中有m个文本,设系统中索引项的个数为k,Ki是第i个索引项。所有的索引项的集合可表示为K={K1,K2,K3hellip;Kn} 设t(i,j)为词频即索引Ki在文本Dj中出现的次数。如果该索引不出现在文本中,则设其t(i,j)为0。因此可以产生这样一个检索词向量dj={t(1,j),t(2,j)hellip;t(n,j)} 。此外,用户的查询关键词也可以这样表示Q={q1,q2hellip;q3}.

为了计算用户查询词q和文本dj之间的相似度,我们可以使用以下余弦公式:

一般来说,索引项是名词。词频可以改为如下形式:

Max(l,j)是指索引项的最大词频。如果索引项ki没有出现在文本dj中,则f(i,j)等于0. 通常来说,那些出现在很多文本中的词语,对于区分文本的相关性来说是没有太多帮助的。设N是系统中所有文本的总数,ni是包含某索引项的文本数,称为文本频率。更进一步来说,设idfi为逆文本频率,即

因此,索引项可能有一个与之相关的权重:

或者该式的一个变形。这种术语加权策略称作TF-IDF算法。在Salton和Buckley的一篇有趣的论文里面,描述了上式关于w(i,j)的一些变形。然而,一般来说,上述式子为很多论文提供了一个好的权重算法。对于检索词权重,Salton和Buckley建议采用下面公式:

灰色关联法实现的即时信息检索

基于查询,我们的元搜索引擎通过四个著名门户网站收集可能的网站,并把它们放在排名池中。在本文中,我们使用灰色关联方法为用户的查询挖掘相关词语和让候选网站在排名池中排队。每个文档索引词依据词频率组成一个数据序列。基于这个序列,制定以下灰色关联方法是为了比较一个网站与其他网站的相对重要性。假设S是一组数据序列。xoisin;S是参考序列,xjisin;S j = 1hellip;m 是m个等待与参考序列比较的序列。xj(i)代表第j个序列中的第i个词。让gamma;(X0,Xj)表示序列x0和xj之间的灰色关联度。然后,第i个术语的灰色关联度表示如下:

在(6)式中,xi;是分辨系数,通常设置为0.5。注意(6)式中定义的用于在所有可能的条款和序列中找到最短的距离。因此,两个序列之间的灰色关联度定义如下:

将每个门户网站中列出的前30名的网站选到排名池中。为了说明灰色关联方法在寻找相关的关键词时是如何工作的,表1列出了从我们的系统中搜索出的一部分词频率。基于这个表,我们形成七个数据序列,在所有文档中每个文档由单个词的词频率组成。由于查询词是“模糊”, 参考序列是由关键字“模糊”一词出现在前十个候选文档中的词频率组成。在计算关键字和其他序列之间的灰色关联度之后,我们发现,“逻辑”一词与“模糊”比其他词更相关。因此,我们的系统自动安排相关的关键词降序排列为用户选择。用户可以依靠推荐的词搜索任何与原始查询词相关的有趣的文档。

如果给了多个关键字,我们应用扩展理论和模糊推理模型来挖掘相关网站,以满足用户的期望。例如,一个用户输入两个查询项,“模糊”和“逻辑”。 基于扩展的关系函数,查询“模糊 逻辑”的相关关键词的顺序是“系统”,“控制”“信息”和“专家”。这种方法使我们能够设计一个更友好的搜索引擎。

在模糊规则中,对于元数据,我们选择词频率(TF)和文档频率(DF)作为输入变量,词汇权重(W)作为推测出的输出。提出的模糊推理规则定义如下:

规则1:如果TF是H且DF是H,则W是H。

规则2:如果TF是H且DF是M,则W是H。

规则3:如果TF是H且DF是L,则W是L。

规则4:如果TF是M且DF是H,则W是H。

规则5:如果TF是M且DF是M,则W是M。

规则6:如果TF是M且DF是L,则W是L。

规则7:如果TF是L且DF是H,则W是M。

规则8:如果TF是L且DF是M,则W是M。

规则9:如果TF是L且DF是L,则W是L。

TF、DF和W的隶属度函数分别绘制在图1、图2和图3。

介绍灰色关联方法的目的是帮助我们从门户网站查询时快速定位相关的文档。寻找候选文档之后,下一步是找到查询相关的关键字。出于演示目的,我们使用我们的系统从两个搜索引擎,雅虎和AltaVista,检索60个与词语“模糊逻辑”相关的链接(每个选择30个链接)。我们为我们的元数据选择每个链接的标题和摘要,出现如下形式的元数据。例如,雅虎(谷歌)的第一个链接显示:

FAQ:模糊逻辑和模糊专家系统

介绍:(1)这个新闻组的目的是什么?(2)模糊逻辑是什么? (3)模糊逻辑在哪里使用?(4)模糊专家系统是什么?(5)哪里hellip;

http://www.cs.cmu.edu/afs/cs.cmu.edu/project/airepository/ai/html/faqs/ai/fuzzy/par1t/ faq.html(更多结果来自:www.cs.cmu.edu

或者AltaVista的第一个链接显示:

1. 方模糊逻辑页面

hellip;模糊逻辑资源。常见问题(FAQ)和hellip;模糊逻辑和模糊专家系统。FAQ:hellip;逻辑和模糊专家系统。

URL: http://www.ie.ncsu.edu/fanmupliiuzv.dirhdexfuzzv.html

为了方便起见,我们把每个元数据分为三个部分。第一部分代表了URL的标题。第二部分是摘要,简要介绍文档的内容。最后一部分表明其超链接。因此,元数据的结构列在表2。虽然每个元数据的一部分为我们提供了有用的信息系统,来加快检索过程,为了词频率分析,我们选择前两个部分,即,标题和摘要。因此,每个网站的元数据转换成表3中给出的数据结构来简化分析过程。我们用方程式(6)-(7)确定每个关键字的相对权重。我们知道,并不是所有的单词对代表一个文档的语义同样重要。通常,名词词汇是那些最能代表文档内容的。通过集成计算权重的修改版本的式(6),我们可以决定候选网站的相对重要性如下:

注意在式(8)中,为了重新计算灰色关联度,一个附加到原始索引词的新的权值。

我们挑选前60名的重要网站进入竞争池,表4列举出了,这些网站前十名的术语频率和。使用灰色关联方法分析后,我们在表中得到了前40个提炼出来的关键字。表5显示了这40个关键词中前十个最相关的关键词。

如在表5中可以看到,最高权重的两个关键字,“fuzzy”和“logic”,大大高于其余的关键词。通过运用灰色关联方法对网站的重要性进行排序,我们也可以根据不同的标准调整权重。例如,我们可以根据用户的一个查询词和与之有关的关键词将关键词的权重设为:

做完这些调整后,我们为索引词获得新的权重,如表6中列出。基于以上的分析和每个网站的元数据,我们使用灰色关联方法发现相近的文本。表7列出了从我们的模型中部分网站排名。从表中可以非常清楚的看出,在我们的模型中,一些排名靠前的网站和Yahoo和AlataVista排名的网站都不同。如果我们根据表7中fuzzy的词频来判断,这些推荐网站更接近于用户的期望。这进一步验证了该模型的有效性。

不同的用户可能感兴趣的不同种类的网站,因此我们的系统还可以根据响应用户的反馈来调整索引项的权重。这种方法和文献16中所展示的非常相似。对于一个索引项的序列d=(t1,t2,hellip;tn), 他们各自的权重可以修改为如下:

在等式10中,alpha; 是用户输入的满意度等级,范围从1到5。Lambda; 是一个系数,在我们的系统中设为0.3。我们可以使用文献16给出的方法的一个类似的机理来升级或降级项的权重。[16]。

在一个五星系统中,例如,默认的星级是3,然后,我们可以设置新的权重为wi = 3*0.3wi=0.9wi。 如果用户非常满意这个服务,并设alpha; = 5,新的权重将会变成wi=5*0.3wi=1.5wi。

这使我们能够提升索引项的重要性。

元搜索引擎的架构

我们设计的模型的系统的总体架构如插图4所示。接下来简要介绍下该系统是如何工作的:

当用户在我们的系统中输入查询词是,我们的服务器会检测之前是否有相同的查询词提交过。如果有,我们的系统,会立即取回之前的搜索结果。否则,它将会初始化爬虫去在线地检索存在于默认搜索引擎的元数据并返回给系统提取器用于数据的预处理。 在索引器工作前,提取器必须预先产生倒排文件。索引器会发送可能的词语的统计给知识库,从而发现相关的词语。挖掘出来的结果将会返回给索引器或者分级器以形成最后呈现给用户的结果。无论用户是否满意我们的搜索结果,我们的虚拟界面的交互功能会将用户的回复反馈给学习器以便以后调整词项的权重。从而,我们的系统将会改善搜索结果的质量。我们可能会注意到爬虫有另外一个功能,离线检索。这意味着爬虫可以在日常维护的时间下载浏览过的网站上的HTML页面用于全文挖掘。在线和离线的不同之处在于被检索的数据源,检索花费的时间以及检索准确率。

插图5展示了我们的元搜索引擎的主页。例如,用户输入关键词“fuzzy”,搜素结果在图6中给出。在对话窗口的右手边,五星机制允许用户评判这个结果,表达满意度。基于查询关键字“fuzzy”,有关的关键词也会显示出来供用户选择。当然,这些联想词根据各自的和查询关键词的灰度关联度降序排序。

结论

我们呈现了一个元搜索引擎去发现更相近的网站基于用户的查询关键词。我们的智能模型首先利用灰色关联方法去定位一些可能的网站用于接下来的分析。基于这些网站的元数据,我们可以计算联想词的术语频率。通过分析候选词的灰色关联度,我们选择一些相对更重要的关键词以便后面的应用。被选择的关键词提供用户其他的选择词去搜索感兴趣的文本。关于如何获取更多的相关网站以及我们提出的模型的架构更细节的分析在本文中也有阐述。

无论何时用户输入多于一个关键词,如何去设计一个扩展的有关的功能,如何建立一个模糊推理模型去派生有关联的

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[153954],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。