英语原文共 7 页,剩余内容已隐藏,支付完成后下载完整资料
基于微博检索的扩展查询
Ayan Bandyopadhyay Mandar Mitra Prasenjit Majumder
ISI Kolkata ISI Kolkata DAIICT Gandhinaga
摘要
进入一个微博网站,例如Twitter,它的条目是很简短的:一个“推特”最多可以包含140个字符。当给定一个用户查询,检索出与之相关的微博就变成了一件特别具有挑战性的事情。因为推特中的极端简洁的搜索语言加剧了著名的词汇不匹配的问题。 在初步研究中,我们探索了一种标准的查询扩展的方法,并期望以此来解决这个词汇不匹配问题。然而,由于微博是简短的,因此我们使用外部语料库作为查询的源扩展条件。具体而言,我们使用了谷歌搜索API(GSA)来检索网页Web,同时使用标题词,以此来进行查询扩展。TREC2011版本的微博的初步实验结果显示,测试数据是非常好的。由于很多的TREC 话题是针对新闻类的,所以我们也尝试把GSA限制在一个新的新闻站点(如BBC),希望由此来得到更纯净、更准确的扩展项。然而实验结果却适得其反,本文中也包括对这些结果的一些分析。
1、前言
类似于http://twitter.com网站的微博网站,如今已成为一个受欢迎的表达观点的平台。随着信息量的爆炸式发展,这些微博网站拥有的可用信息也日益增多,而要想从这些信息中取得对既定信息有用的转发就变得相当容易了。事实上,想要找到一个与用户查询匹配的相关的推特也变成一个巨大的挑战,这其中的原因如下:
bull;推文是简而短的。推文中最多包含了140个字符。
bull;推文并不总是有正规的语法,同时推文并不总是有正确的拼写。拼写的多样性增加了词汇不匹配问题产生的可能。
在我们的初步研究中,我们探讨标准查询扩展的方法,期望可以以此来解决这个问题。
相关工作
查询扩展是处理不匹配问题的一种方法
在信息检索系统中。在一般情况下,这个词不匹配的问题是一个不同的术语被用来指一个概念的结果,无论是在文档和用户查询。查询扩展是添加附加条款以原始查询来提高检索性能的过程。通过查询扩展,降低了该词的不匹配问题的Eff方面,导致检索结果更相关的文件比(精度)和从中检索收集更高的相关文件比(召回)。最近的研究表明,用户有二ffi进行选择好的方面来增加他们的查询,即使提出一系列潜在关系好。因此,我们专注于自动查询扩展技术。自动查询扩展的一般过程是从用户查询到知识库的匹配开始的。从这个知识库中,最好的新术语自动添加到查询中,然后使用扩展的查询。
我们的方法是基于由Kwok等人提出的方法:通过“网络援助”以提高弱的临时查询,其中网络(通过谷歌搜索引擎访问)用作扩展术语的来源。我们从这篇文章中获得了线索:使用谷歌搜索API(GSA)挖掘网络作为查询扩展的外部语料库。Massoudi等提出了一种通过语言建模的方法来搜索微博的帖子,这一方法在匹配过程中合并考虑了查询扩展和使用的某些“质量指标”。标签检索[4]也与我们的工作密切相关。主题标签是指某些信息中的重要的“关键词”,它们是被指定为使用哈希符号(#)的标签。主题标签作为一个可以非常快速地进行信息分类或快速标记信息的方法,是非常有用的。Efron的研究表明,对于一个推特的收集,井号标签可以使用查询扩展方法进行预测。 Dong等在研究中提出了一种排名方法。该方法同时把检索的“相关性”和信息的“新鲜度”考虑在内。 Del Corso等的研究也表明了,在一个文档的排名方法中,文档的新旧程度扮演了一个非常重要的角色。
2、数据
我们能够下载的是自2011年9月9日之后的15249660条HTML版本的推特(并不是整个集合)(运行提交的截止日期是2011年9月11日)。 在运行提交截止日期之后,一些推特被下载。最后我们一共收集了16087002条推特。下载的推特是使用下面的规则进行过滤的:
bull;除去只含标点符号的推特;
bull;除去内容的70%或更多是URL的一部分的推特;
bull;除去内容的20%或更多的是非ASCII的推特;
bull;除去HTTP状态值为403或404的推特;
bull;除去开头为“RT”的重复的推特。
bull;HTTP状态为302的推特,但并没有标明“RT”的推特也从最终文集(FC)中移除,但在提交运行(SR)的文集中不移除。
表一:语料统计
HTTP状态 |
在语料库中提交了的推特数 |
最终语料库中的推特数 |
200(正常) |
12,530,843 |
13,181,737 |
301(永久移动) |
897,836 |
987,866 |
302(找到) |
1,004,562 |
1,054,459 |
403(禁止) |
377,657 |
404,549 |
404(未找到) |
438,759 |
458,388 |
未知 |
3 |
3 |
总计 |
15,249,660 |
16,087,002 |
与SR和FC有关的数据见表一。
3、研究方法
3.1基本检索方法
实验中,我们使用第3代推特IR系统来完成我们的实验。其中,禁用词被删除,本文使用的是英文分词算法。前1000个推特利用InL2c1模型来检索得到每个查询结果。之后,我们删除了被张贴在查询推特后的那些推文。 最后,我们只选择每个查询的前50位结果进行评估。该步骤的基本原理阐述如下。
根据任务定义,推特的检索清单是按时间顺序来排列的,从最新到最旧,这优先于对推文实际内容的评价。换句话说是指,最终的分级列表应保持新推文优先出现这一属性。这个(重新)排序也造成了额外的难题,那就是确定推特的返回数量在实验中变得非常重要。如果系统中检索得到相关的陈旧的推特出现在顶部,但新的非相关推文出现在排名列表的末尾,这种暂时的重新排序将会导致前者下拉列表,后者在列表中位置上升。因此,实验结果的整体性能将受到损害。如果检索列表越长,这种情况出现的可能性则越大。 处理这种情况,我们简单地认为只对每个查询的前50个推文(根据时间重新排名)进行评估。自动查询扩展(AQE)是一种尝试,通过对搜索查询添加相关词汇,从而增加适当的文件都包含在结果的可能性解决词汇问题的搜索方法。查询扩展的功能,如同义词,如“配偶”和“结婚”在上面的例子中,或下义关系的关系,如“红”和“颜色”。我们调查的方法,语义搜索引擎可以用来克服词汇问题和如何有效的时代与传统的语言特征。语义搜索引擎可以使用RDF图结构的数据集之间,遵循连锁。
正如引言中说明,词汇不匹配的问题预计将对推文检索研究产生尤为严重的影响。因此我们的目的,是探讨查询扩展(QE)方法,以此来解决这个问题。但是由于推特是很简短的,标准的查询技术,如盲相关反馈(其中文件本身作为扩展词的来源)可能无法进行正常的工作。因此,我们选择使用外部语料库作为用于源查询扩展的条款。特别要说的是,我们使用以下两者来作为本次研究的对象:
bull;Web和
bull;英国广播公司新闻网站(http://www.bbc.co.ukhttp://www.bbc.co.uk/news/mobile)。
3.2基于TREC2011微博提交的主题处理
实验中,原始的查询结果已提交给谷歌搜索API4(GSA)。我们只用了返回的结果列表中的标题。对于每次查询,GSA最多返回8页的结果,并且每页最多包含8个结果。因此,每次查询最多返回8times;8= 64个结果。而前五个最频繁的词级的n-gram返回(N =1,2,3)并被添加到原始主题中。我们也尝试通过排除原话题词来进行查询扩展(相对于QE),话题词只包括上面实验所得到的词。关于各种提交到TREC2011微博记录项目的查询处理步骤的细节将在下文中给出。
bull;R1(IRSI Google 1G):结果是使用谷歌搜索API每次查询检索到的。所有由谷歌返回的页面的标题字(N=1)根据其频率降序排列。最频繁的五个字加入到原主题。检索使用Terrier-3.5这些新课题完成。
bull;R2(IRSI Google 2G):与R 1相似,所不同的是,我们使用前五个2字词而不是单个词。
bull;R3(Google1GNO):与R 1相似,所不同的是,我们在查询扩展过程中没有包括原的主题词。
bull;R4(InL2c1):检索使用由TREC提供的原始查询完成。
话题号 |
原始查询 |
最终查询 |
||||
R1 |
R2 |
R3 |
R4 |
NBBCM1GQE |
||
14 |
“仪式”电影的发行 |
电影“仪式”的DVD版本发行仪式 |
电影“仪式”发行仪式的720p版本 |
电影发行仪式 |
“仪式”的发行 |
“仪式”的上映是英国圣公会的强有力的发声 |
表2:提交运行的查询实例
3.3进一步的实验:主题处理
我们还试图限制GSA上面提到的英国广播公司网站,并将每个网站中排名前10位的有效的/可用的文件用于扩展。我们为扩展和再形成重复先前的过程。除了使用的标题中,我们也尝试使用返回的文档中的内容。
4结果分析
表3和表4的结果显示的是:相比于最优的,中值以及最差的数字,R1,R2,R3,R4的运行有着良好的结果。表格的竖列表示的是SR(提交运行),这与我们的官方提交的数据是相符合的。而列标FC对应于最终收集的运行检索到的检索(见第2节)。
在这里,我们对各种检索运行的命名约定如下:
bull;NBBCM1GQE - 通过QE创建的查询,基于来自英国广播公司的移动网站的结果;通过返回结果中的标题词中的五个最频繁1-gram词展开,查询得以扩展。
bull;MBA (resp. MMeA and MWA)表示从所有提交(所有参与者)到2011 TREC微博记录项目中,最好的平均的(区别于中位数和最差值)精确的数据。
bull;基线运行表示是由TREC 2011微博记录项目协调器提供的运行。
bull;PRFB – 利用推特使用原始主题词运行缺省伪相关反馈方法的结果,以及TREC 2011微博语料库的结果。
可以清晰地看到,在表7中,查询扩展和再形成的结果有一个巨大的进步超越了基础运行方式。最好值和中值是相等的主题没有18,这两个allrel AP和P@30(表5)。为allrel AP主题15具有相同的最坏值和中间值(表5),用于allrel2P @30,主题编号15和33具有相等的最坏和中值。为highrel2P @30测量(表6),主题编号16和18具有相同的最佳和中位数。然而,主题编号为14,15,23,24,26,27,28和32有相同的最坏和中值。为highrel AP度量(表6),主题编号16和18具有相同的最佳和中值,同时,主题编号15和23保持等于最坏和中值。语义搜索是语义网向真实用户展示的重要应用之一。在过去几年中,已经介绍了一些语义搜索的方法。然而,除了在传统的搜索,查询扩展的效果还没有被研究。与语义结构化的知识,我们还可以采用额外的语义查询扩展功能。在这项工作中,我们进行了语义查询扩展的综合研究。我们比较了语言和语义查询扩展以及它们的组合的有效性。基于我们创建的查询扩展基准,我们的研究结果表明,语义特征是至少一样有效的语言的和智能的组合带来了提高精度和召回。
在表7中,我们比较了采用不同“网络”域获得最佳的运行方式,以及新闻域(“http://www.bbc.co.uk”和“http://www.bbc.co.uk/news/mobile”)。
对于TREC2011微博记录项目,主要评价指标为P @30。 据报道,在所有提交中,最好的P @30的数据是0.45
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[153953],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。