英语原文共 17 页,剩余内容已隐藏,支付完成后下载完整资料
客户生命周期价值预测的深度概率模型
摘要:考虑到顾客的属性和过去的购买行为,对顾客未来生命周期价值(LTV)的准确预测可以实现以客户为中心的营销策略。营销人员可以根据预测的LTV将客户分为不同的类别,然后定制营销信息或广告文案,以便更好地为不同类别的客户提供服务。此外,LTV预测可以直接为营销预算分配提供信息,提高广告印象的实时定位和竞价。LTV建模的挑战之一是一些客户永远不会回来,并且LTV的分配可能会繁重。通常使用的均方误差(MSE)损失不包含一次性购买者的零价值LTV的显著部分,并且对顶级消费者的超大LTV非常敏感。在本文中,我们将给定相关特征的LTV分布建模为零点质量和对数正态分布的混合,我们称之为零膨胀对数正态(ZILN)分布。这种建模方法使我们能够捕获客户流失的概率,同时考虑到LTV的重尾性。它可以直接预测点预测的不确定性。ZILN损失既可用于线性模型,也可用于深部神经网络(DNN)。在模型评价中,我们建议用标准化的基尼系数来量化模型判别,用十分位数图来评价模型校正。在两个真实的公共数据集上,我们展示了我们提出的模型的预测性能。
1简介
市场营销人员越来越需要在一年、两年甚至五年的时间内准确预测客户未来的购买情况。这种长期预测通常被称为客户生命周期价值(CLV或LTV)。LTV预测不仅有助于公司的财务规划,还可以为营销决策提供信息,并指导客户关系管理(CRM)。通过LTV预测,可以很容易地将客户划分为不同的价值类别。营销人员随后可以决定如何改善营销支出的分配,并确定促销优惠、个性化客户信息、独家交易、忠诚度奖励计划和“白手套”客户服务待遇的理想目标受众。
有大量关于预测现有客户的长期价值的文献。许多发展都是围绕着RFM(近期、频率、货币价值)框架的扩展而发展的(Khajvand等人,2011)。最著名的方法是“购物至死”(BTYD)模型法(Fader等人,2005b;Faderamp;Hardie,2009)。这是一个重复购买和客户流失的概率生成模型。假设顾客流失和购买行为都遵循一定的随机过程。存在多种变量(Schmittlein 等,1987;Fader 等,2005a;2010),以解释离散时间购买事件数据或减少计算负担。
在本文中,我们将重点放在新客户的LTV预测上,学者们在这方面的研究较少。预测新客户的LTV对广告业务至关重要。例如,营销人员可以将预测视为关键绩效指标(KPI),并随着时间的推移对其进行监控,以持续衡量客户参与营销活动的效果。BTYD模型没有适用于新客户,因为它使用频率和相近度来区分客户。然而,新客户有相同的购买频率和相近度。预测信号必须从其他地方提取,要么是在客户注册或注册过程中获得的客户属性,要么是初始购买的产品或服务类型。
利用监督回归方法对新顾客的LTV进行预测。与BTYD模型相反,监督回归利用了所有客户级特性。它不试图模拟客户流失或重复购买的潜在动态,而是最小化指定的预测错误。对于回归任务,许多标准的机器学习方法是现成的,包括线性回归,随机森林,梯度增强,支持向量机。我们选择深度神经网络(DNN)作为我们的工具,因为它具有良好的竞争性和捕捉预测特征和LTV之间复杂和非线性关系的能力。
对于财务规划来说,预测总体业务指标相对容易。然而,准确预测单个客户的LTV却要困难得多。这个回归问题有两个主要的数据挑战。一是很多客户都是一次性购买者,再也不会购买,导致很多零值标签。第二,对于回头客来说,LTV是不稳定的,LTV的分布是高度倾斜的。少数高消费人群可能占到客户总消费的很大一部分,这体现了80/20的市场规则。
尽管均方误差(MSE)在回归建模中占主导地位,但它并不是在LTV预测背景下处理此类数据挑战的理想选择。MSE忽略了LTV标签是零值和连续值的混合这一事实,并强制模型学习这两个分布的平均值。平方项对异常值也非常敏感。大多数大规模训练算法使用随机梯度下降,由小批量训练实例计算出的噪声梯度和偶尔爆炸的梯度很容易引起数值不稳定性或收敛性问题。我们提出了一个由零膨胀对数正态分布导出的混合损失。处理零和过于大的LTV。
与传统回归模型相比,DNN结构加上ZILN损失具有许多优点。首先,它能够同时预测客户流失概率和LTV值。它降低了建立两阶段模型的工程复杂性(Vanderveld等人,2016年),即一个预测重复购买倾向的二元分类模型,一个预测第一阶段预测的返回客户的LTV的回归模型。其次,它提供了LTV的全概率分布,从而允许对点预测进行不确定性量化。
在模型评价方面,我们提出使用标准化的基尼系数来衡量模型区分高价值客户和低价值客户的能力。由于其对异常值和业务的表达稳定性,它比MSE更受欢迎。我们还建议使用十分位数图来定性地进行测量和模型校准。
论文的其余部分中,第二节简要回顾了相关工作。第三节介绍了DNN模型以及ZILN损失。我们在第四节描述了模型评估的标准化基尼系数和小数位数图,并在几个公共领域的数据集上进行了实证验证。最后,第五节结束了对LTV预测模型的讨论并得出结论。
2相关工作
Gupta等人(2006)提出全面审查贷款价值比方法,他们提出的证据表明,随机森林(Breiman,2001)等机器学习方法比历史上流行的RFM和BTYD模型具有更好的性能,因为它们可以包含各种附加特性。
Vanderveld(2016)、张伯伦(2017)等人使用两阶段随机森林模型预测电子商务网站用户的LTV。第一阶段预测购买倾向,即一个二进制分类,用于判断用户是否在指定的时间窗口内购买。第二阶段预测在第一阶段被预测购买的用户的美元价值。两阶段法是建立LTV预测的一种自然方法,它提供了对驱动LTV的不同因素的收集观察。主要缺点是维护两个模型增加了复杂性。
另一种两阶段方法是分别建立购买频率和平均订单价值(或利润率)的回归模型,然后将它们组合成LTV预测模型Venkatesanamp;Kumar(2004)。这种策略也可以在RFM和BTYD框架中找到。Fader等人。(2005b)假设近期和频率的帕累托/负二项分布(pareto/NBD),购买价值遵循独立的Gamma/Gamma分布。然而,这种分解依赖于一个不可靠的假设,即采购订单价值与采购频率无关。例如,在实践中,经常购买的人每次购买可能花费更少。
许多研究者更倾向于采用直接的方法预测LTV,这种方法更直接,而且往往会有更高的预测精度(Gupta等人,2006年)。Malthouseamp;Blattberg(2005)在回归模型中使用LTV作为因变量。作者还考虑了LTV的各种变换,包括Box-Cox变换(Sakia,1992),以稳定回归模型中的方差、平方根或对数变换,使LTV的分布不太右倾。然而,这些转换使得预测因设计而有偏差。例如,由于Jensen不等式,对数变换变量的期望值的指数不大于原始变量的期望值。
Benoitamp;Van den Poel(2009)主张采用分位数回归方法,对响应变量的条件分位数(如中值)进行建模,而不是标准最小二乘回归的条件平均建模。使用标准均值回归技术,为每个客户返回LTV的单点估计值。然而,点估计不包含关于预测值周围观测值分散的信息,基于渐近正态性可以得到预测区间,但分位数回归提供了一种更为严谨的量化与预测LTV相关不确定性的方法。例如,LTV的90%预测区间可以由第5个和第95个预测百分位数给出。
Chamberlain 等人 (2017) 认识到LTV的异常分布,即大部分客户的贷款价值比为零。在贷款价值比为正的客户中,价值相差几个数量级。作者通过建模LTV的百分位秩来解决这个问题,然后将它们映射回实际值以用于之后的研究。Sifa等人(2018)通过零支出客户LTV解释类似问题,其中只有一小部分用户曾经购买过产品,并在收入中占有最大份额。作者建议用SMOTE算法计算DNN模型(Chawla等人,2002),以获得更好的预测性能。SMOTE是一种数据增强技术,它在模型建立阶段创建少数类的合成实体,使预测模型规范化,并学习表示少数类实体的结构。
Chamberlain 等人 (2017)发现具有足够隐藏单元的DNN可以获得与随机森林相当的性能。作者还指出,对于客户流失预测,广度和深度(Cheng等人,2016年)模型将广度线性模型(用于记忆)和深度神经网络(用于泛化)的优点结合起来,从而进一步提高了性能。
3 DNN模型与ZILN损失
回归标签是客户在初始购买后的固定时间范围内的总消费金额。我们不包括第一次购买价值,因为我们的主要需求是客户的未来剩余价值。为避免季节性波动,最好预测所处层级的确切年数。实际上,预测范围是1年、2年或3年。由于构建计算标签所需的历史数据太长,所以长期模型通常是不可行的。例如,Vanderveld等人(2016)和张伯伦等人(2017)选择1年预测期。
回归特征可以从多种来源中提取。购买历史记录(可用的情况下)通常是主要来源。其他常见特征包括客户人数统计、客户分类、退货历史、客户服务质量指标。Vanderveld等人(2016)在最终购买决定之前使用客户参与度来预测电子商务网站用户的LTV。其中包括打开和点击营销电子邮件、交易印象和搜索的次数。Sifa等人。(2018)使用与活动相关的指标预测免费游戏玩家的LTV,如游戏次数、回合和玩天数、游戏货币购买量;相关行为的时间特征,如第一次和最后一次会话之间的时间以及当日内会话的时间分布;还有基本特征如国家/地区,设备类型,操作系统和客户获取渠道。
图1 典型的LTV分布图。
张伯伦等人(2017)将人工设定的指标与从客户产品视图和应用程序日志中学习到的无监督神经嵌入结合起来。所得到的模型既能感知领域知识,又能从原始数据中学习丰富的客户行为模式。
我们认为DNN是LTV预测的主力,原因有三:良好的性能、灵活性和可伸缩性强。DNN最近在计算机视觉、语音识别、推荐系统、自然语言处理等许多领域取得了成功。从DNN在在线数据科学竞赛中的受欢迎程度可以看出,DNN在表格数据上具有很强的竞争力,因为它能够捕捉特征和标签之间复杂的非线性关系。DNN也非常灵活。我们可以很容易地设定它的损失函数,这使得它成为我们的Zilln损失的理想模型。它可以优雅地处理所有类型的特征,包括数字特征、分类特征,甚至多价特征。稀疏分类特征可以编码为嵌入,并以有监督的方式学习。诸如TensorFlow和Pytorch这样的深度学习框架实现了DNN的高度可伸缩性,它能够处理数百万甚至数十亿客户所产生的庞大数据量。
LTV指标的分布对标准MSE回归损失提出了挑战。我们在图1中显示了典型在线广告客户的LTV分布。价值为零时的巨大峰值表明,零贷款价值比的一次性购买者占很大比例。对于回头客来说,LTV的范围也很广。这一小部分高价值客户的消费额比一般客户高出几个数量级。MSE会对高价值客户的预测错误进行过度削弱,模型训练会因此变得不稳定,并且会对异常值敏感。将MSE损失与分位数损失交换可以缓解离群值问题,但该模型不再能够预测平均LTV。
我们提出了一个混合损失作为ZILN分布的负对数相似性,这种混合损失能够同时了解购买倾向和货币价值,其完整模型的工程复杂度是两阶段模型的一半——通常是预测购买倾向的二元分类模型,然后是预测预计购买客户货币价值的回归模型(V anderveld等人,2016)。重对数正态分布只取正值,且具有长尾,是回归客户LTV分布建模的自然选择。从数学上讲,对数正态损失表示为LLognormal,它是对数正态随机变量的负对数似然,其均值为mu;,标准差为sigma;
(1)
图2 将MSE损失与对数正态损失(作为平均参数theta;的函数)与单个观测值(x=20)进行比较
它可以看作对数变换X上的加权MSE,其中标准差参数sigma;起权重作用。此外,标准差参数也可以依赖于输入特征,就像均值参数一样,它意味着LTV的异方差对数正态分布。获得良好的sigma;估计值是至关重要的,因为它直接影响平均预测的无偏性,因为下面的公式
我们比较了图2中的MSE和对数正态损失。结果表明,MSE损失在观测值附近对称地下降,而对数正态损失在高值上下降较少。argmin随sigma;增大而增大。
ZILN损失可以类似地导出为ZILN分布随机变量的负对数似然,p为非零概率。
其中1表示指示器功能
损失可以分解为两项,第一项对应分类损失是否为退货客户,第二项对应重复客户长期价值的回归损失
我们在图3中展示了网络的可视化。DNN的最后一层有三个预变量logits单元,分别确定退货顾客LTV的退货购买概率p、平均mu;和标准差sigma;。这三种变量指标分别是sigmoid,identity和softplus。DNN的中间层本质上是两个相关的共享表示:返回客户的分类和返回客户支出的预测。这种架构鼓励模型更好地概括每一项任务,这与多任务学习的核心思想相同(Ruder,2017)。
ZILN损失的另一个关键优势是它提供了一个完整的预测分布。我们不仅得到了退货的概率,而且还得到了退货顾客的长期价值分布。除了平均LTV预测,LTV预测的不确定性可以使用对数正态分布的分位数进行评估,就像一般分位数回归一样。
4评价指标
对于退货和不退货客户的二元分类问题,标准分类指标,如接收器工作曲线下的面积(AUC)(Coussement等人,2010;)
图3 DNN的网络结构和ZILN损耗
p表示退货客户的概率;mu;和sigma;表示退货客户LTV对数正态分布的均值和标准差参数。
Lemmensamp;Croux,2006)或精确召回曲线下的区域(AUC_PR)(Boyd等人,2013)可以很容易地使用。AUC是一种具
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[234962],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。