QART : A System for Real-Time Holistic Quality Assurance for Contact Center Dialogues
Shourya Roy, Ragunathan Mariappan, Sandipan Dandapat, Saurabh Srivastava, Sainyam Galhotra and Balaji Peddamuthu
Xerox Research Centre India Bangalore, India
{firstname.lastname@xerox.com}
Abstract
Quality assurance (QA) and customer satisfaction (C-Sat) analysis are two commonly used practices to measure goodness of dialogues between agents and customers in contact centers. The practices however have a few shortcomings. QA puts sole emphasis on agentsrsquo; organizational compliance aspect whereas C-Sat attempts to measure customersrsquo; satisfaction only based on post-dialogue surveys. As a result, outcome of independent QA and C-Sat analysis may not always be in correspondence. Secondly, both processes are retrospective in nature and hence, evidences of bad past dialogues (and consequently bad customer experiences) can only be found after hours or days or weeks depending on their periodicity. Finally, human intensive nature of these practices lead to time and cost overhead while being able to analyze only a small fraction of dialogues. In this paper, we introduce an automatic real-time quality assurance system for contact centers - QART (pronounced cart). QART performs multi-faceted analysis on dialogue utterances, as they happen, using sophisticated statistical and rule-based natural language processing (NLP) techniques. It covers various aspects inspired by todayrsquo;s QA and C-Sat practices as well as introduces novel incremental dialogue summarization capability. QART frontend is an interactive dashboard providing views of ongoing dialogues at different granularity enabling agentsrsquo; supervisors to monitor and take corrective actions as needed. We demonstrate effectiveness of different back-end modules as well as the overall system by experimental results on a real-life contact center chat dataset.
Introduction
Contact center is a general term for help desks, information lines and customer service centers. They provide dialogue (both voice and online chat) and email-based support to solve product and services-related issues, queries, and requests. Two key drivers of contact center industry are cost reduction and service quality improvement. Exploiting cost arbitrage through outsourcing and bringing in automation for (parts of) service delivery processes such as agent assistance tools (Padmanabhan and Kummamuru 2007; Byrd et al. 2008; Marom and Zukerman 2009) have been companiesrsquo; strategy towards the first.
Providing highest quality of service leading to satisfied customers is the other key objective of contact centers. Two of the most commonly employed practices towards that are Quality Assurance(QA)and Customer Satisfaction analysis (C-Sat). QA process, primarily involving dialogue scrutiny (offline) and to some extent dialogue monitoring (live), is about measuring quality against a set of targets defined by the organization.1 Supervisors of contact center agents are expected to rate agentsrsquo; performances on a variety of metrics to measure how compliant and effective they have been (intrigued readers may make a forward reference to Table 5 to see some examples). C-Sat, on the other hand, is about analyzing customersrsquo; post interaction feedback to identify drivers for (dis)satisfaction. Manual customer satisfaction surveys are conducted via telephonic interviews, mail-in or electronic forms, where customers are asked to evaluate various aspects of their interaction on a 5-point Likert scale (Likert 1932) and subsequently responses are analyzed. While a number of research articles have been written about correlation between these two practices and their comparative usefulness (Kantsperger and Kunz 2005; Rafaeli, Ziklik, and Doucet 2008), both remain widely popular in the industry. Contact centers employ specialized people to conduct these processes periodically and typically independently to identify actionable areas of improvement in service delivery (e.g. leading to customized agent training).
Both manual QA and C-Sat as practiced today have several shortcomings. Firstly, they reveal outcomes of dialogues and associated reasons always in hindsight. While live dialogue monitoring is encouraged but owing to their human time and effort intensive nature, it is less common than their offline counterpart. Secondly, owing to their different focus of analysis - customersrsquo; post-interaction feedback in C-Sat versus best practices mandated by the organization in QA, it is not uncommon to have conflicting outcome from these two processes. An agent and her supervisor may feel that in a dialogue everything was done perfectly but still customerrsquo;s feedback could be negative. Thirdly, only a small fraction of contact center workforce are responsible for QA and C-Sat (Godbole and Roy 2008c) processes, hence they can analyze only a small sample of total interactions thereby missing out on the most.
In this paper we introduce QART, a system for quality assurance in real-time in contact centers. QART performs holistic multi-faceted analysis on each and every utterance2 made by customers and agents by bringing together and automating various aspects of manual QA and C-Sat processes. For instance, Organizational Compliance and Conversational Characteristics facets spot occurrences of deviations from prescribed or expected QA metrics. Customer Behavior facet acts as a real-time proxy for C-Sat feedback from customers by identifying sentiments (e.g. positive and negative) and emotions (e.g. angry, sad, satisfied) on utterances. An example dialogue from a telecommunication contact center and associated issues can be seen in Table 1. We have developed novel features and techniques in natural language processing (NLP
剩余内容已隐藏,支付完成后下载完整资料
QART :接触中心对话的实时整体质量保证体系
Shourya Roy, Ragunathan Mariappan, Sandipan Dandapat, Saurabh Srivastava, Sainyam Galhotra and Balaji Peddamuthu
Xerox Research Centre India Bangalore, India
{firstname.lastname@xerox.com}
摘要
质量保证(QA)和客户满意度(C-SAT)分析是两种常用的做法来衡量联络中心的代理商和客户之间的对话。但实践中也有一些不足之处。QA提出单独强调代理组织合规方面而C-SAT试图基于调查顾客满意度测量后的对话。作为一个结果,独立的QA和C-SAT分析结果并不总是对应。其次,这两个过程本质上是回顾性的,因此,坏的过去对话(因此不良客户体验)的证据只能在几小时或几天或几周之后才能发现,这取决于它们的周期性。最后,这些实践的人类密集性导致时间和成本开销,同时能够分析一小部分对话。在本文中,我们介绍了一个自动实时质量保证系统的联络中心-QART(发音为CART)。QART对对话话语进行多方面的分析,因为它们使用复杂的基于统计和规则的自然语言处理(NLP)技术。它涵盖了各方面的灵感来自今天的QA和C-SAT实践以及介绍新的增量对话总结能力。QART前端是一个交互式仪表盘在不同的粒度,使代理人的监督,按照需要采取纠正行动提供正在进行的对话的看法。我们展示了不同的后端模块的有效性以及对现实生活中的联络中心的聊天数据集上的实验结果的整体系统。
介绍
联系中心是帮助办公桌、信息线和客户服务中心的通用术语。他们提供对话(语音和在线聊天)和基于电子邮件的支持,以解决产品和服务相关的问题、查询和请求。联系中心行业的两个关键驱动因素是降低成本和提高服务质量。通过外包和引进自动化开发成本套利(部分)服务交付过程如剂辅助工具一直是公司的首要战略(Padmanabhan 和 Kummamuru 2007,Byrd等 2008,Marom 和 Zukerma 2009)。
提供服务质量最高的客户是联系中心的另一个重要目标。两个最常用的做法,是对质量保证(QA)和客户满意度分析(C-SAT)。QA过程,主要涉及对话的审查(离线)和一定程度上的对话(实时),监测是测量质量对组织设定一个目标。主管联络中心代理预期率剂性能的各种指标来衡量标准,有效的他们已经(好奇的读者可以参考表5中看到了一些例子)。另一方面,C-SAT是关于分析顾客的后互动反馈以识别驾驶员(DIS)满意度。手动客户满意度调查是通过电话采访,邮件或电子表格,其中客户被要求评估他们的互动的各个方面上的5点李克特量表(李克特1932),并随后分析反应。虽然一些研究文章已经写了两个实践和比较有用的相关性,在行业都广受欢迎。联络中心采用专业人员定期和通常独立地进行这些过程,以确定服务交付中可改善的可操作领域(例如,导致定制的代理培训)。
手动测试和C-SAT今天所使用的有几个缺点。首先,他们揭示结局的对话和相关的原因总是在事后。虽然现场对话监控是鼓励但由于其时间和人力密集型的性质,这是不常见的比他们离线对应。一个代理和她的上司可能觉得在对话中所做的一切都完美但还是客户的反馈可能是消极的。最后,只有一小部分的呼叫中心工作人员负责QA和C-SAT过程,因此他们可以只分析一个小样本的总相互作用从而错过了作重要的部分。
在本文中,我们介绍QART,在接触中心实时质量保证系统。QART通过汇集和自动化手工QA和C-SAT过程的各个方面,对客户和代理商做出的每一个话语进行全面的多方面分析。例如,组织的合规性和对话性面斑的产生从规定的或预期的度量偏差。客户行为方面作为一个识别情绪的客户代理(例如实时C-SAT反馈正面的和负面的)情绪(如愤怒,悲伤和,满足)上的话语。从电信联络中心和相关问题的示例对话可以在表1中看到。我们在自然语言处理(NLP)中开发了新的特征和技术,并建立在最先进的机器学习上,从话语中提取相关信息。除了现有的实时自动化模块,QART引入了两个新的组件。一个增量对话摘要器,它为监督者生成可操作的摘要,以便快速收集上下文并可能更快地拦截对话。其次,它提供了一个交互式仪表盘在不同粒度的实时状态显示正在进行的对话。它使监事获得比尔盖茨的看法和需求细节实时的潜在问题的对话。
QART提供了几个优点。首先,据我们所知,QART是端到端,从话语的可视化、实时答疑系统。它通过扩展和丰富现有的QA实践,并通过行为方面的客户满意度进行整体分析。其次,QART是实时的,糟糕的客户体验可以防止基于瞬时状态是一个重要的优不能超过目前的回顾过程。可操作的实时总结对话使干预无缝。再次,它是全自动的,从而可以处理的相互作用,从而使联络中心超越基于采样的质量保证大量。从实验的结果在现实生活中的语料188对话从电信呼叫中心带来了各种后端NLP模块以及整体系统。
论文组织架构
在回顾下一节相关的前期研究之后,我们提供了后端NLP模块的技术细节,以从与QA相关的话语中提取不同的特征。随后,我们介绍了增量对话摘要技术。接下来,我们描述QART前端仪表板,以及它如何汇集不同后端模块的结果。最后,我们描述的实验方法和结果进行比较,以QATR与基于采样的QA过程在受控环境中。
相关工作
联系中心的服务质量和客户满意度已经出现了大量的定性和最近的计算工作。定性研究表明代理商的客户取向与服务质量的客户评价(Raaffeli,Ziklik,DouCET 2008)和客户的情感承诺和忠诚度(Dean 2007)的不同强度之间的相关性。在计算方面,已经开发了几种技术,主要来自工业研究人员,基于呼叫日志、转录对话、聊天提供各种类型的分析和见解,如代理辅助(Padmanabhan和KuMuuru 2007;Byrd等 2008;Marom和Zukerman 2009)知识产生(Roy和SurabaMiAM 2006;Lee 等 2009)发现商业洞察力(TuuCui等 2009;CaILAU和CavET 2013)。在这些自动化的C-SAT是最相关的这项工作,我们回顾下一步。
Godbole和Roy(No.88A;2008 8B;2008 8C)开发了一种基于文本分类的系统,用于将C-SAT注释分类为31类。他们扩展了C-SAT分析的范围,从客户评论中自动发现原因代码。他们扩展了C-SAT分析的范围,从客户评论中自动发现原因代码。他们还提供了一个可视化界面的报告和查询。然而,他们的系统设计只能自动化现有的回顾性C-SAT分析过程,并没有实时方面的工作。Park和Gate(2007)从115个转录会话中识别出几个有趣的特征,用于实时的C-SAT分析,在5个里克特尺度上进行分析。虽然他们是介绍和实验证明的概念(近)实时C-SAT分析,他们的工作是有限的范围内的C-SAT分析过程。他们的方法最多可以提供C-SAT得分的一个点估计,而没有关于接触中心的工作不好的洞察力。Li和Chen(2010)挖掘产品和服务评论,以自动生成客户满意度调查。Mishne等(2005)描述了一种基于人工转录会话的呼叫中心分析系统。他们的报告结果仅在问题识别和检测主题外段。Zweig 等(2006)使用基于规则和最大熵分类法的一个系统,用于基于一个预先确定的问题列表来识别坏呼叫。我们认识到一个空的服,在端到端的实时质量保证系统能够提供可操作的洞察和互动。QART是设计和开发用来填充那个漏洞。
方面与特色
在这一节中,我们描述了与实时质量监控相关的各种特征和方面(类似特征的集合)。客户和代理的话语通过这些模块来提取各种特征。对于每个特征,我们给出了相关的实验结果来证明我们的技术和相关属性的有效性。
客户行为
一个客户的经验可以被最好的理解和潜在的衡量她的表达意见和意见,以及她在对话中表达的感受。在NLP中,识别前者是情感分类的任务(Turnne 2002),而后者是情感分类(Krcadinacetal 2013)。在QART,我们专注于从他们的话语中识别顾客的情绪(如悲伤、道歉或愤怒),并获得情感类别(如阳性、阴性)作为副产品。我们相信,识别的情绪在对话中俘获顾客的心理状态,并充当随后的C-SAT反馈的代理。虽然这可能并不总是真实的,但定性地,我们发现了这样的对应关系,通过查看过去的对话和相关的C-SAT反馈的样本。我们描述了以下模块的关键方面:
标签集:我们从为联络中心对话创建情感标签开始。虽然过去已经有了对情感标签集的研究(Ekman和Keltnter 1970;Plutchik 2003),但是我们不能采用整体,因为一些标签在我们的上下文中没有意义(例如恐惧),并且我们需要在其他地方(例如同意和不同意)。为此,我们创建了一个接触中心SPECIEC C类情感标签集。幸福(HA),保证(AS),协议(AG),礼貌(CO),道歉(AP),不幸福(UH),分歧(DI)和没有情绪(NE)。此外,类别{HA,As,Ag,CO}被认为是正的,{AP,UH,狄}为负,{Ne}为中性情绪,以获得话语的情感分类。
属性:我们使用会话元属性和基于内容的表达话语来进行情感分类。表2中显示了两组属性。虽然这两组属性都被设计成捕捉问题的会话方面,特别是元属性利用代理和客户的话语之间的序列和相互关系。
技术:情感分类技术由两个主要任务组成:(i)将一个转向分成与情感一致的部分,和(ii)分配情感类别轮流。我们观察到,许多客户的转向是多方面的情绪。
会话特征
呼叫中心会话在结构和行为上表现出一定的规律性,我们称之为会话特征。在QA过程中,偏离这些特征的对话将被认为是异常的。在人工QA过程中检测这种偏差是不必要的,因为需要考虑多个因素和它们的预期行为。在这一节中,我们描述了我们如何自动地从会话中直接从会话中检测会话结构和某些内容无关的特征的这种偏差。
会话结构:接触中心对话通常遵循有序的状态序列。在电信领域,我们观察到通常观察到的状态序列是{问候和介绍(GI)〉问题描述(PD)-问题解决(PS)-(CL)}。检测偏离这个规定的顺序和识别缺失状态是手动QA过程的重要方面。在QART中,我们应用监督和非监督技术来检测任何这样的差异实时通过分组变成四个类别之一(GI,PD,PS和CL)。首先,我们注意到,这可以被建模为序列标记问题,因此,我们应用CRF与用于情感分类的属性子集,即。船首和转弯号码。作为基线,我们使用了标准分类模型(支持向量机(SVM)(Cortes和VaViNK 1995)),它假设匝是独立的,不使用顺序信息。与监督的CRF和SVM模型相比,我们还将无监督k-均值(K=4)聚类算法应用于话语中,将其分组为4组。聚类算法使用匝间相似性(基于轮转表示的余弦相似性)和一些域规范属性,例如两个匝数之间的差值的倒数。此外,我们创建了一些手写规则,以提高在所有技术中使用的某些类别的准确性。例如,一个“感谢联络”和“有一个美好的一天”的回合必然是封闭的范畴。表4显示了这些技术对我们的对话语料库的比较结果。虽然CRF获得的精度比k-均值算法稍好,但后者不需要标记数据,因此不需要人工监督。
会话特征:除了结构规则之外,呼叫中心会话也表现出一些与内容无关的特征,例如代理(或客户)每分钟所采取的回合数、平均轮间延迟等。例如,如图1(a)所示,在我们的语料库中,代理的平均响应延迟的分布大致集中在X轴上的25秒左右。
这些特征被表示为离散实数序列,并且它们的时间平均值在对话的持续时间上计算。在正在进行的对话中,任务是检测同一特征是否偏离平均值(图1B中的说明)。我们采用经典配对2样本进行t-测试(Diggle等 2002)检测以下异常行为:
我们测试了上述方法的性能来检测偏离对话关于代理的反应延迟在我们的语料库的一部分。训练集是关于移动显示问题的对话,被认为是过去的对话来计算平均特征值。测试集包含关于两个网络问题的对话(它们应该被标识为偏离或真阳性)和显示问题(真阴性)。精密度和召回率分别为67%和63%。准确率(预测网络问题的分数正确)和召回(实际网络问题的预测正确的分数)分别为67%和63%。
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[23205],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。
您可能感兴趣的文章
- 为非政府组织OG慈善基金会设计的基于社区的救灾管理系统外文翻译资料
- 基于UML建模的医疗系统电子健康服务软件外文翻译资料
- 开发一种具有增强现实功能的智能手机应用程序, 以支持护理学生对心衰的虚拟学习外文翻译资料
- 在开发 Web 应用程序中应用 Vue.JS 框架外文翻译资料
- 基于MES系统的生产车间信息管理研究外文翻译资料
- 基于Vue.js和MySQL的电子商务平台的设计与实现外文翻译资料
- 详细的Spring配置和SpringBoot外文翻译资料
- 基于NS2的DSR和AODV协议的性能比较研究外文翻译资料
- 不同仿真参数下NS2的TCP吞吐量性能外文翻译资料
- 基于Spring Boot和VUE的车辆管理系统实现外文翻译资料