英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料
利用RFID(射频识别)数据和模式数据挖掘分析消费者的购物行为
Takanobu Nakahara · Katsutoshi Yada
摘 要
随着传感器网络不断发展,人们可以详细监测客户在商店中的行为。能记录每个顾客位置和时间信息的购物路径数据,正作为一项新的营销数据吸引人们的关注。然而,目前还没有一种推荐营销模式能够从基于顾客在商店中运动的时间序列数据中识别出优质客户。本研究旨在使用购物路径数据来跟踪客户在商店里的行为,利用在商店的每个产品区的访问量和在每个产品区的停留时间的序列信息来发现它们是如何影响购买行为的。为了获取商店管理的有用的知识,人们已把购物路径数据转化为序列数据,该数据包括顾客在商店中的访问序列和停留时间,而且LCM序列已经被应用于这些数据中以获取常见的序列模式。在本文中,我们通过一家日本超市的真实数据来发现优质客户在大商店内行为模式的特征。
关键词 序列模式数据挖掘·路径数据·LCM序列·决策树·数据挖掘
1引言
为了了解零售商店中的顾客的购物行为,自从上世纪90年代开始,我们就已经积累了大量的销售点数据和指导设计。(现在)研究人员正在试图通过分析这些数据来获得有用的知识。然而,这些数据只显示了购物行为的结果。关于购物过程的信息,也就是说,商店里面的哪一个产品区会被参观,人们会在商店里面参观多久,以及人们考虑购买需要多长时间以及什么时候确定购买,目前尚不明确。在营销研究中,这种购物过程被视为一个黑盒子。
近年来,科技创新使得收集顾客购物过程的各方面数据成为可能。特别是零售商店,这些数据包括购物过程的数据(索伦森2003),即追踪在店内使用RFID数据的顾客的活动,和目光跟踪数据(克鲁格曼等人。1994;狐狸等人。1998),即记录客户购物时候的视线活动。
通过把购物路径的数据与指导设计和销售点数据相结合,现在我们可以确定哪位顾客购买了价值多少的何种商品,通过何种旅行路径和运动距离,以及花费了多长时间。该研究采用这两种数据的组合,提出了一种新的购物行为模式,以发现有用的知识。具体的来说,我们旨在通过使用对频繁子序列高速计数的LCM序列(大谷等人。2009),从数据中提取模式,这些模式可以区别高价值的采购客户和低价值的采购客户的采购以及他们的购物行为。然后,我们将以购物时间为准则把顾客聚集起来,对具有相同的相对购物时间的客户群体采用LCM序列。最后,利用所提取的模式,构建每一个客户群的辨别模型,区分高价值的采购客户和低价值的采购客户商店购物行为的特点。
在第二节讨论完我们的相关工作之后,我们将会在第三节提出并且解释我们的模型。(之后)在第四节,我们将我们所提出的模型应用于无线射频识别数据,并在存储区管理中获得有效的知识。(最后)在第五节我们就讨论这项研究的结论。
2现有的研究及研究目标
在当今的(实体)商店和网上商店,客户关系管理(客户关系管理)是关于零售的最重要的战略问题之一。市场营销研究人员使用消费者的购买数据,例如销售点数据和控制面板数据,提出了关于客户关系管理的多种模型,例如市场细分和客户保留(Ngai等人。2009;van den Poel等人。2004)。
最近的研究成果试图利用数据挖掘技术,从大量的销售数据(亚达等人。2006)和现在的模型中发现有用的数据,这些数据和模型考虑随时间变化的长期的一系列销售数据(migueis等人。2012;prinzie Van den poel2006)。然而,在以往使用实际的商店销售数据的研究中,几乎没有一个数据可以清楚的阐明每一个消费者的购买过程。这是因为对于商店来说,像网上商店的点击流一样收集购物行为的记录仍然很困难。
近年来,传感器网络技术的发展正在稳步地改变这一现状。利用射频识别技术,可以在商店中跟踪客户的行为,收集数据,收集信息,并且对采购行为进行处理。通过使用记录客户在商店中行为的购物路径数据,并将它与传统的销售数据结合起来,可以获得有关消费者行为的知识。在结合的购物路径数据和销售点数据和指导设计(拉尔森等。(2005))的研究中,拉尔森以使用时间(长、中、短)为标准将客户分为三组。他们把一种集中的k-均值算法基础上的想法应用到每一组,并且发现了一些客户群体。他们提出了关于每个组的实际购物路径的新的假。同时Hui等。(2009)利用活动着的售货员的路线问题,明确了产品区以及所购买产品的客户的活动之间的关系。
现有的与购物路径相关的研究旨在明确(消费者的)移动路径与(其)购买行为之间的基本关系。但是目前我们对于购买行为和包括影响购买的购物路径数据在内的详细数据的关系关注不够,例如每一个客户的访问序列产品区,他们的购物时间,等等。到目前为止,在我们的研究中,(Nakahara等人。(2010)),在比较不同购买需求量的客户的时候,我们还没有发现产品区有显著的差异,而在产品区内的(对产品的)访问顺序、顾客的停留时间等等方面,却发现存在重大差异。对产品开发区负责人来说,了解产品的差异,从而设计产品开发区的布局,增加产品的购买量,是非常重要的。除此以外,为了在产品区内实际利用从数据中获取的这些知识,最为重要的是要明确起作用的、导致特殊客户群体出现差异的因素,从而做出更具体的改进。
因此,本次研究旨在提出一种利用顾客购物路径数据的分类问题的研究框架,然后获取明确有用的购物路径信息,并且以此获得客户的购物行为的相关知识。为此,我们首先遵循拉尔森等人的框架,以购物次数作为长、中、短购物时间的规则来对顾客进行分组。其次,为了明确是因素导致了在每一组高价值采购客户和低价值采购客户之间的购物行为的差异,我们将提取局部的购物路径,重点访问序列。然后,根据我们提出的模型,可以清楚产品区访问序列和购物行为之间的关系,从而验证它们的实用性。
3用于提取访问模式和面对分类问题的框架
3.1转换为一个序列数据库
本研究旨在通过发现专注于一个产品区访问序列的部分典型的路径来查明区分高价值购买客户和低价值购买客户的影响因素。为此,我们通过在实际的购物路径数据中X和Y坐标的位置来区分商店中的每个产品区。通过对这些产品区的单独处理,我们可以通过序列数据来表示产品区的访问序列。图1显示了这样一个转换的例子。图1的a部分展示了来自于射频识别装置的数据。这些数据包括诸如客户的身份标识、时间、X和Y坐标所处的位置以及从这些相关位置获得的产品区等项目。如图1的b部分所示的产品区访问序列可以通过包括在数据中的对同一客户的产品区身份标识的序列数据表示。
3.2 通过LCM序列获取典型的访问模式
线性时间闭项集最小(LCM)序列是一个可以从一个序列的数据库快速列举频繁的序列模式的算法。
这里我们用一个随机的字母sum;来表示,并且关于sum;的一个整体有限序列表示为sum;*。一个序列模式是一个任意的序列S = a1...anisin;sum;,并且P =sum;*表示关于sum;所 有的序列模式。关于sum;的序列数据库是序列S = { s1,...,sm}的集合。|S| = m表示在S中元素的数目。当序列模式是一个给定序列的一个子序列时,它会出现在那个序列中。而且当它出现在一个有最小频率sigma;(sigma;ge;0)或更高的已经被提供的序列时,这被认为是常见的。
当一个频率模式被用作一个数据分类器时,它的模式可以被描述和用于两种情况,即那些频繁出现的模式和那些很少出现的模式。本研究用数据来定义高价值的采购客户和低价值的采购客户,并提取序列模式来区分这两个客户集。然后为高价值采购客户集设定的时序数据的权重是wh,并且为低价值采购客户集设定的时序数据的权重是wg。通常情况下,当频率模式被枚举时,最常见的方法是假设每个序列在被使用时是同样的重要和平等的权重。对于LCM序列,然而,每个序列可以分配不同的权重并且这些模式可以被提取。在这种情况下,sum;sisin;Hcwh和sum;sisin;Gcwg之间的差异可以设法得到序列模式等于或大于minDi f f。在这里,Hc和Gc对高价值采购客户的时序数据和低价值采购客户的时序数据来说各自都有后续相应的集合的意义,在这里出现了一个任意模式P.
如果以这种方式提取模式,当设置元素的数目是不同的时会出现问题。例如,当使用相等的权重时,它可以设想一个给定的模式将出现在所有的序列中。因为该模式是完全包含在两个集合中,它不是一个集合的特有的模式,但它将被视为一个具有更多元素的集合的特有的模式。为了解决这个问题,我们引入权重wh= 1 / | Hc | 和wg = 1 / | Gc|。根据这一定义,sum;sisin;Hcwh和sum;sisin;Gcwg各自拥有一个范围在0到1之间,即使存在一种模式它出现在所有序列中的差异将成为0。因此,特征模式可以不依赖于元素的数目被提取。
3.3考虑到时间和距离的顺序模式
现有的研究发现,存在一个购物距离和购买量以及停留时间之间的关系。Hui等人(2009)观察最优的购物路径的偏差,并且发现其与购买量之间的正相关关系,Kholod等人(2010)探讨购物路线的长度与销售量之间的关系。而Takai和Yada(2010)发现停留时间和购买概率之间的一种积极的关系。
因此,除了访问序列,我们也参照了顾客在每个产品区的停留时间和移动距离这两个因素来提取顺序模式,通过比较这些,我们打算明确影响高价值采购客户和低价值采购客户的特征中:序列、停留时间,和运动距离等哪一个才是最重要的影响因素。每个产品区的停留时间和距离是数值数据,并且不得不进行离散以提取模式。因此,本研究将每个顾客在产品区停留时间分为三组(5秒或更少,6–18秒,19秒以上)以均衡数据项,如图2所示。
然后,通过在访问产品区的名称后附加的离散文字,考虑到购物时间这个数据可以被表示为时序数据。使用相同的方法,在每个产品区内的移动距离也被视为时序数据。
3.4利用特征访问模式构建一个判别模型
最后,使用提取的模式作为描述性变量,我们构建了区分高价值采购客户和低价值采购客户的集合的辨别模型。此外,相比访问序列,停留时间和运动距离我们发现最重要的影响因素。然后,如果所提取的模式包括表示产品区访问的序列的序列数据,该虚拟变量被设置为1,如果没有,则虚拟变量设置为0。变量使用的模式是每个产品区停留时间比率(在每个产品区的停留时间/每次采购的总停留时间),每个产品区的移动距离比(移动距离在每个产品区/总移动距离为一个单一的购买),停留区域类型的数目,停留位置类型的数量,总停留人数和逛每个商店之间的时间间隔。使用这些描述性变量对以下模型进行了构建。
–Mi::模式的唯一访问顺序模式
–Mii:只有访问序列模式和相关的停留时间序列模型
–Miii:只有访问序列模式和在相关产品区的运动距离的序列模式模型
–Miv:建模中忽略访问序列模式
–Mv:综合模型的模式变量描述性变量以外的精度最高的模式,在上述模型中Mi 到Miv。
该模型采用基于MI MIV以量化方法判别分析只处理0和1构建的虚拟变量。使用逻辑回归模型,以处理的数值属性和虚拟变量0和1的模型。
4应用购物路径数据
4.1数据的使用和基本分析
在这项研究中使用的购物路径数据是在一确定的日本超市连锁店范围中从一个单一的商店中获得的数据。收集的数据大约是一个月内的,就是从5月11日到2009年6月15日,有大约7000名客户的运动路径,通过带着RFID的标签的的购物车而被区分辨别出来。我们可以利用购物路径的数据和相关的销售点数据和指导。购物路径的数据只是被用来收集客户使用的购物车,从而区分使用这些购物车的每一个客户。图3显示了存储内的布局,它有2个入口和25个产品区,中央通道和结帐通道分开的产品区。正如在商店里正在进行的研究显示,如果如图中所示布置,即 新鲜农产品(V1,V2)区,例如水果、蔬菜,海鲜(F1,F2)区,和肉(M)区在外周,然后零食和糖果(C1–3)以及食品(B1–6)区是在中间部分。这种相同的产品区布局通常在日本的一般食品超市中常见。该数据中的大部分客户都是女性:有大约90%。这些客户的年龄一般是在30到60岁之间。而各
区之间的采购特性不同:这25个产品区,新鲜农产品1(V1)拥有最多的访客和消费者,其购买比例(买家/访客)为84%。在新鲜的农产品1区后面的是有着高购买率(V1)的产品区,按次序是,日本得利(J)、海鲜1(F1)和肉类(M)区。这些区域分别为第八,第十一,和第十
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[153657],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。