基于移动代理和Java Aglets的Web爬虫程序外文翻译资料

 2022-07-27 14:05:26

I.J. Information Technology and Computer Science, 2013, 10, 85-91

Published Online September 2013 in MECS (http://www.mecs -press.org/)

DOI: 10.5815/ijitcs.2013.10.09

Web Crawler Based on Mobile Agent and Java Aglets

Md. Abu Kausar

Dept. of Computer amp; System Sciences, Jaipur National University, Jaipur, India

E-mail: kausar4u@gmail.com

V. S. Dhaka

Dept. of Computer amp; System Sciences, Jaipur National University, Jaipur, India

E-mail: vijaypal.dhaka@gmail.com

Sanjeev Kumar Singh

Dept. of Mathematics, Galgotias University, Gr. Noida, India

E-mail: sksingh8@gmail.com

Abstract With the huge growth of the Internet, many web pages are availab le online. Search engines use web crawlers to collect these web pages from World Wide Web for the purpose of storage and indexing. Basically Web Crawler is a program, wh ich finds information fro m the World Wide Web in a systematic and automated manner. Th is network load farther will be reduced by using mobile agents.

The proposed approach uses mobile agents to crawl the pages. A mobile agent is not bound to the system in which it starts execution. It has the unique ability to transfer itself fro m one system in a network to another system. The main advantages of web crawler based on Mobile Agents are that the analysis part of the crawling process is done locally rather than remote side. This drastically reduces network load and traffic which can improve the performance and efficiency of the whole crawling process .

Index Terms World Wide Web, Search Engine, Mobile Crawler, Aglets, Web Crawler, Mobile Agent

  1. Introduction

The web is very dynamic and 53% of its contents change daily [11], to maintain the up to date pages in the group, a crawler needs to revisit the websites many times. Due to more revisit, the property like CPU cycles, disk space, and network bandwidth etc., it will become overloaded and due to this type of overloads sometime a web site may collapse. Study [12] report that the current web crawlers have downloaded and indexed billion of pages and about 41% of current internet traffic and bandwidth spending is due to the web crawlers. Nevertheless, the maximu m web scope of any well-known search engine is not more than 16% of the current web size.

Using mobile agent i.e. mob ile crawlers, the method of selection and filtration of web pages can be done at servers rather than search engine side which can reduce network load caused by the web crawlers [9].

Search engines use crawlers that visit a Website, read the information on the actual site, read the web sitersquo;s meta tags and also follow the lin ks that the web site connects to performing indexing on all linked sites as well. The crawler returns all info rmation back to a central repository, where the data is indexed. The crawler periodically returns to the web sites to check for any information that has been changed.

The paper is organized as follows: the structure and working of Search Engine is detailed in section 2, related work regard ing search engine are presented in section 3, section 4 describes the Mobile Agent Based Crawling, Aglet Life Cycle Model described in section 5, section 6 describes the benefits of Mobile Agent in crawling, section 7 describes the whole working of proposed system, and conclusions are made in the last section 8.

  1. Structure and Working of Search Engine

The basic structure of crawler based search engine is shown in Fig. 1. The main steps in any search engine are:

Copyright copy; 2013 MECS I.J. Information Technology and Computer Science, 2013, 10, 85-91

86 Web Crawler Based on Mobile Agent and Java Aglets

Fig. 1: Working steps of search engine

Every search engine depends on a crawler to provide the grist for its operation. This operation is performed by special software, called Crawlers. Web crawler is a program/software or programmed script that browses the WWW in a systematic, automated manner on the search engine#39;s behalf. The programs are given a starting set of URLs called seed URL, whose pages they retrieve fro m the Web. The web crawler ext racts URLs appearing in the retrieved pages, and provides this informat ion to the crawler control module. This module determines which lin ks to visit next, and feeds the links to visit back to the crawlers .

2.1 Maintaining Repository

All the data of the search engine is stored in a repository as shown in the figure 1. A ll the searching is performed through that database and it needs to be updated frequently. During a crawling process, and after complet ing crawling process, search engines must store all the new useful pages that they have retrieved.

2.2 Indexing

Once the web pages are stored in the repository, the next job of search engine is to make index of stored data. The indexer module extracts all the words fro m every web page, and records the URL where each word occurred. The result is a usually very large that can

provide all the URLs that point to web pages where a given word occurs.

2.3 Querying

This module deals with the user queries. The responsibility of query engine module is for receiving and filling search requests fro m users. The search engine relies deeply on the indexes, and somet imes on the page repository.

2.4 Ranking

Since the user query results in a large number of results, it is the work of the sear

全文共21861字,剩余内容已隐藏,支付完成后下载完整资料


基于移动代理和Java Aglets的Web爬虫程序

摘要:随着互联网的巨大发展,许多网页可以在线获得。 搜索引擎使用Web爬虫从万维网收集这些网页,用于存储和编制索引。 基本上Web 爬虫是一个从万维网上系统的自动化的查找信息的程序。 通过使用移动代理,它的网络负载会减少。

本文所提出的方法是使用移动代理抓取页面。移动代理未绑定到系统它就可以开始执行。它具有独特的能力可以从一个网络的系统转移到另一系统。基于移动代理的爬虫的主要优点是爬行的分析过程是在本地完成的,而不是远程端。这大大减少网络负载和流量从而可以提高整个爬行过程的性能和效率。

关键词:万维网,搜索引擎,移动爬虫,网络爬虫,移动代理

  1. 简介

网络非常动态,其内容的53%每天都在更改,为了在系统内维护最新的页面,一个爬虫需要重新访问网站很多次。由于更多的重新访问,属性像CPU周期,磁盘空间和网络带宽等,它会变成重载而且由于这种类型的重载有时网站可能崩溃。研究报告当前网页抓取工具已下载和索引了十亿页面,当前互联网流量的约41%带宽消耗是由于网络爬虫。然而,任何公认的最大网络范围,已知的搜索引擎占用带宽不超过当前网络带宽的16%。

使用移动代理,即移动抓取工具,该方法的网页的选择和过滤可以在服务器而不是搜索引擎端可以减少网络抓取引起的网络负载。

搜索引擎使用爬虫访问网站,读取在实际网站上的信息,阅读网站的元标记,并遵循网站的链接连接到所链接的网站上执行索引。 抓取工具会将所有信息返回给一个中央存储库,其中的数据是被索引的。爬虫会定期返回到网站检查所有已更改的信息。

本文组织结构如下:搜索引擎的工作和结构详见第2节,关于搜索引擎的相关工作第3节,第4节描述了基于移动代理爬行,Aglet生命周期模型在章节5中描述,第6节描述了移动代理在爬行过程中的好处,第7节描述了整个描述的系统的工作原理,并在第8节最后作出结论。

  1. 搜索引擎的结构和工作原理

基于爬虫的搜索引擎的基本结构如图1所示。搜索引擎中的主要步骤是:

每个搜索引擎都依赖于爬虫来提供它的操作的基础。执行此操作通过特殊的软件,叫做Crawlers。 Web爬虫是一个系统化自动化浏览万维网的程序/软件或编程脚本,是用于搜索引擎的。程序给出一个起始的URL集称为种子URL,从Web检索它们的页面。 网络抓取工具提取出现在检索的页面中的网址,并提供此信息到爬行器控制模块。这个模块确定下一次访问哪些链接,并馈送链接访问回到爬虫。

2.1维护存储库

搜索引擎的所有数据都存储在一个存储仓库中,如图1所示。所有的搜索都是通过该数据库执行,它需要经常更新。在爬行过程中,以及完成抓取过程后,搜索引擎必须存储他们检索的所有新的有用的页面。

2.2索引

一旦网页存储在存储库中,搜索引擎的下一个作业是制作存储数据的索引。索引器模块从每个网页提取所有单词,并记录每个单词出现在哪个URL。结果通常是非常大的,可以通过给定的词提供指向网页的所有URL。

2.3查询

此模块处理用户查询。查询引擎模块的职责是接收并填充用户的搜索请求。搜索

引擎深深依赖于索引,有时甚至开启页面存储库。

2.4排名

因为用户查询导致了大量的结果,搜索引擎的工作是显示最适合的结果给用户。要做到这种有效率的搜索,则要执行结果的排名。排序模块需要将结果分类,在顶部附近的结果是用户最可能正在寻找的。 一旦排名通过排名模块完成,最终结果就会显示给用户。

  1. 相关工作

搜索引擎有三个主要部分分别为为索引器,爬虫和查询引擎。Web爬虫是代表搜索引擎遍历web的程序,以及按照链接获取不同的网页并下载它们。从名为种子URL的URL集合开始,爬虫将从检索的页面中提取URL,将页面存储在存储库中。下载的网页被索引并存储在搜索引擎库中。这种持续更新存储库的操作使得搜索引擎相关源和更新信息更一致。 爬行器的细节讨论在文献[14]中。

爬行器必须处理两个主要责任,即下载新的网页和保持早前下载的网页的新鲜。然而,新鲜度只能通过更频繁地简单的重新访问所有网页而不放置不必要的负载在互联网上。可用带宽既不是无限的也不是自由的,用一种不仅可扩展,而且有效率的方式爬取网页是非常必要的,如果有几个合理测量质量或新鲜度的方法可以继续。

  1. 基于移动代理的爬虫

移动代理是一个自我导向的程序,行事代表其所有者。根据它的路径,它访问通过网络连接在一起的主机。移动代理被创建,发送,最终接收和评估都是在它的所有者的框架里。在访问的主机处,在工作上下文中执行移动代理。Web索引创建使用移动代理的称为移动爬行器。移动抓取工具的功能是在实际抓取进程在web服务器启动之前迁移到Web服务器上。移动抓取工具是有能力的去访问需要的资源以利用本地数据访问。访问一个资源后,移动抓取工具移动到下一个服务器,将网络爬行结果携带在所述存储器中。移动抓取程序将传输到保存数据的源站点以便于在本地过滤掉任何将不必要的数据在传输回搜索引擎前。这些移动抓取工具可以减少抓取工具造成的网络负载通过降低网络传输的数据量。使用此方法过滤那些没有被移动抓取工具修改的网页,只检索那些真的被修改的来自远程服务器的网页并执行未修改的web的过滤页面而不下载页面。这个移动爬虫程序移动到Web服务器,并执行下载Web文档,处理和提取关键字,在压缩后将结果返回到中央搜索引擎。

移动抓取工具和数据检索架构的作用由移动爬行器提供如图 2。

4.1 Aglet架构

Aglet是基于Java的移动代理系统。Aglets架构包含两个层和定义用于访问其功能的接口API。Aglet运行时层是Aglet API的实现,并定义API组件的活动,例如AgletProxy和AgletContext。它提供基本功能,用于创建,管理,并分派到远程主机。沟通层主要负责传输序列化代理到目的地并接收它。

4.1.1 Aglet运行层

Aglets Runtime层运用Aglets接口如agletproxy和agletcontext。它还包括一个核心框架和组件。核心框架提供以下机制,是Aglet执行必不可少的

  • 序列化和反序列化的Aglets
  • 类加载和传输
  • 参考管理和垃圾收集

该部分被设计成具有可扩展性和可定制的,因为这些服务可能会根据环境有所不同。

持久化管理器:持久化管理器用于存储序列化代理,包括aglet的代码和状态为一个恒定的介质如硬盘。

缓存管理器:缓存管理器负责用于维护由aglet使用的字节码及其当aglet移动到下一个目的地时传送,缓存管理器高速缓存所有字节码,甚至在匹配类已定义之后。

安全管理器:安全管理器负责保护aglet平台和来自恶意实体的aglets。 它捕获每个安全敏感操作并验证调用者是否允许执行它。 只有一个实例安全管理器一旦安装在系统中无法更改。

4.1.2通信层

Aglet运行时没有用于传送aglet的序列化数据到目的地的通信机制。Aglets运行时使用通信API,抽象代理系统之间的通信。这个API定义的技术创建和传输代理,跟踪代理和管理代理在代理系统和协议独立的方式。 当前Aglets使用代理传输协议(ATP)作为默认实现的通信层。 ATP是建模的HTTP协议,是一种应用级传输移动代理协议。方便远程代理之间的通信,ATP也成立消息传递。

  1. Aglet生命周期模型

Aglet是用Java编写的库介绍由IBM支持的开发移动代理。其中的执行环境Aglet的执行被称为Aglet的上下文并负责实施安全限制的移动代理。

Aglet生命周期中的不同状态如下:

  • 创建:一个全新的aglet诞生,它的状态是初始化后,其主线程开始执行
  • 克隆:一个双胞胎aglet诞生了 - 当前的状态原始在克隆中复制
  • 分派:aglet移动到新主机 - 状态与新主机相关
  • 收回:先前派送的aglet是从远程主机回来 - 它的状态跟远程主机相关
  • 停用:aglet进入睡眠状态 - 它的状态是存储在某处的磁盘上
  • 激活:失活的aglet恢复生命- 其状态从磁盘恢复
  • 处置:aglet死亡 - 它的状态永远丢失

Aglet生命周期状态图如图3所示。

  1. 使用移动代理的好处

减少网络负载:由于HTTP的请求或响应模型,从Web服务器下载内容由于请求而涉及主要开销必须为每个网页发送单独的消息。使用移动抓取工具,我们可以减少HTTP开销通过将搜寻器转移到数据源。然后,Web爬网程序发出所有相对于HTTP的本地HTTP请求服务器。这种方法仍然需要一个HTTP请求每个Web文档,但没有必要发出这些请求通过网络了。因此移动搜索器通过减少HTTP请求导致的Web流量来节省带宽。

远程页面选择:传统爬虫实现数据传送使用数据库系统,因为他们在下载整个数据库之前他们可以发出查询来识别相关的一部分。相比之下,移动抓取工具实现数据库的查询运送方法系统因为所有的信息需要标识相关数据部分直接移动到数据源与移动抓取工具。在查询执行后,只有查询结果通过网络移动并可用于设置所需的索引而不需要任何进一步的分析。

远程页面过滤:远程页面过滤将远程页面选择的想法扩展到网页的内容。远程页面背后的目标过滤将允许抓取工具管理它检索的数据的粒度。根据不同相关与不相关信息的比例,主要网络带宽的一部分被耗尽传输无效数据。移动抓取工具克服了这个难题,因为它可以过滤掉所有不相关的页面部分仅保留信息其与搜索引擎相关抓取工具。远程页面过滤是特别适用于使用的搜索引擎网页的专用表示(例如,URL,标题,修改日期,关键字),而不是存储完整的页面源代码。

远程页面压缩:为了减少要发送回的数据量爬行控制器,我们介绍远程页面压缩作为另一个基本特征移动爬虫。减少所需的带宽以将抓取工具与其保存的数据一起传输回到搜索引擎,移动抓取工具减少其大小在传输前。

7.建议系统的工作

建议系统工作如下:

在开始过程中,移动代理是分派到远程服务器以爬取网页本地。 第一次,不同的web网站的HTML页面由移动代理下载到客户站点。 这些网页被正确索引和其全部内容存储在客户端的数据库中现场。从下一次,抓取管理器生成每个远程站点的移动代理程序。移动代理移动到远程站点以进行爬网分配给它的页面。在远程站点,移动代理以递归方式搜索页面,然后一个一个检索每个页面,其中的在数据库的URL它也下载网页大小。

拟议系统的完整工作如图4的流程图所示:

  1. 结论

在本文中,我们提出了一个基于Java Aglets的Web爬虫模型。基于移动的网页抓取代理将产生高质量的页面。爬行进程将迁移到主机或服务器启动下载。

基于移动代理的Web爬网程序可以过滤掉自上次以来未被修改的网页爬行。 这种技术可以减少在远程站点CPU的使用周期。 相比传统爬虫提出的移动爬虫基于Java Aglets的系统将显著地减少网络流量和保留的CPU周期。

顶部抓取:基于主题爬虫的Web搜索引擎中的社区挖掘

摘要:Web挖掘系统利用发布在Web上冗余的数据自动从现有的Web文档提取。爬虫是Web搜索引擎的重要模块。爬虫的质量直接影响这种网络搜索引擎的搜索质量。这样的网络爬虫可以在几周或几个月的时间内与数百万的主机进行交互,因此鲁棒性,灵活性和可管理性是主要要考虑的问题。给定一些网址,抓取工具应检索这些URL的网页,解析HTML文件,添加新的URL到其队列,并回到这个周期的第一阶段。爬虫还可以从HTML或文件中检索一些其他信息,因为它正在解析它们以获取新的URL。这个论文提出了一个框架和算法,用于主题爬虫和数据挖掘。提出的TOPCRAWL算法是一个新的强调主题相关性的爬行方法在召回方面在给定时间段内可实现的值表现优于最先进的方法。这个方法也试图提供社区格式的结果,它使用一种新的组合的想法和技术识别和利用网站的导航结构,例如层次结构,列表或映射。这个算法是用网络模拟的挖掘工具Deixto和使用JAVA和给出结果的基本思想。比较现有的聚焦爬虫技术揭示了新的爬行方法导致召回率显着增加保持精度。

关键词:博客,挖掘,B-SIGNET,关联规则,挖掘,聚类,社交网络分析

1.介绍

Web - 一个庞大而动态的页面集合包括无数的超链接和巨大的数量访问和使用信息 - 提供了丰富的和前所未有的数据挖掘源。 但是,Web也对有效资源和知识发现提出了几项挑战:

1.网页复杂度远远超过了任何传统文本文档集合。

2.Web构成了一个高度动态的信息资源:

3.Web服务广泛的用户社区:

4.只有一小部分的Web页面包含真正的相关或有用的信息:

互联网上的所有搜索引擎都需要遍历网页及其相关链接,以复制和索引他们进入一个web数据

全文共5824字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[144366],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。