英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料
文献翻译
基于图排序方法检测股票市场中的不规则交易行为
Loc Tran, Linh Tran
约翰·冯·诺依曼研究所,VNU-HCM;tran0398@umn.edu
越南平阳省Thu Dau Mot大学;linhtran.cntt@tdmu.edu.vn
摘要:发现股票市场中的不规则交易行为是机器学习领域的一个重要问题。这些不规范的贸易行为显然是违法的。为了发现股票市场中的这些不规则交易行为,数据科学家通常采用监督学习技术。本文采用基于三图拉普拉斯的半监督排序方法来解决不规则交易行为检测问题。实验结果表明,基于非规范化对称规范化图拉普拉斯的半监督排序方法优于基于随机游走拉普拉斯的半监督排序方法。
1 介绍
在股票市场中,有一些投资者试图利用影响股票价格的不规则交易行为从股票市场中获取利益。这些不规范的交易行为包括泵和转储和欺骗交易[1]。这些贸易行为是非法的。此外,由于交易数据量大,这些不规范的交易行为很难控制。为了检测这些不规则的交易行为,数据科学家们采用了许多有监督的学习技术,如神经网络和支持向量机[2]等。
然而,据我们所知,基于图的半监督排序技术还没有被应用到这个不规则交易行为检测问题中。
因此,换言之,在本文中,我们将尝试预测交易网络中涉及不规则交易行为的部分已知交易集合(即图)的新成员。在这个问题中,我们给出了一组涉及不规则交易行为的核心交易(即查询)。然而,金融专家并不知道这个核心集是否完整。我们的目标是通过对交易网络中的交易进行排序,找到更多涉及不规则交易行为的交易集合的潜在成员。然后,金融专家将选出级别最高的交易(即,在部分已知的涉及非正常交易行为的交易集合中的成员概率),并对其进行检查,以确定扩展交易实际上是否属于涉及非正常交易行为的核心交易集合。
在理解不规则交易行为时,大多数基于网络的算法都考虑了交易网络的拓扑性质(即局部方法)。这些算法主要利用与不规则交易行为相关的交易在交易网络中关联的可能性更高的思想。然而,对于这些应用来说,一个重大的挑战是事务处理网络的部分和噪声特性。缺失边缘和误报会影响基于边缘权重和最短距离等局部信息的“局部方法”的准确性。
很少有基于对网络中信息流的模拟的“全局方法”(如随机游动[3,4]或网络传播[5,6])通过考虑大量不同的路径和事务事务网络的整个拓扑结构来避免这个问题。
为了解决这个不规则交易行为检测问题,我们可以模拟一个从一组节点(即不规则交易行为所涉及的查询或交易集)开始的随机游走器,而不是从单个节点开始。因此,给定一组涉及不规则交易行为的交易作为起始集,随机游走图方法(即基于随机游走图的拉普拉斯半监督排序方法)根据其对查询的接近程度对交易网络中的剩余交易进行排序。这种排名方法[3,4]也被谷歌公司用来开发网络的全球超链接结构,并产生更好的搜索结果排名[7]。其思想[3,4,7]也被[8]用于解决蛋白质功能预测问题。然而,在文献[8]的基础上,随机游走图方法并不是最好的基于网络的排序方法。此外,随机游走图方法还没有应用于不规则交易行为的检测问题。
与使用随机游动图Laplacian的随机游动图方法不同,网络传播方法(即基于对称规范化图Laplacian的半监督排序方法)[5,6]使用对称规范化图Laplacian。然而,与图的随机游走方法类似,网络传播方法并没有被应用于不规则交易行为的检测问题。
此外,据我们所知,基于非规范化拉普拉斯图的半监督排序方法被认为是解决蛋白质功能预测问题的最新的基于网络的排序方法[9,10]。然而,基于非规范化拉普拉斯图的排序方法还没有应用到不规则交易行为的检测中。
因此,在本文中,我们将尝试使用基于非规范图的拉普拉斯半监督排序方法、基于随机游走图的拉普拉斯半监督排序方法、基于随机游走图的拉普拉斯半监督排序方法来检测泵和转储交易行为中涉及的交易(即一个特定的不规则交易行为),以及基于对称规范化图拉普拉斯的半监督排序方法。
第二节详细介绍了基于随机游走和对称正规图拉普拉斯的半监督排序算法(迭代版)。第3节将展示如何从正则化框架中导出对称正规化和非正规化基于拉普拉斯图的半监督排序算法的闭式解。在第4节中,我们将这三种算法(即非规范化、随机游走和基于对称规范化图拉普拉斯的半监督排序算法)应用于由[11]中提供的事务数据集构建的网络。第五部分对本文进行总结,并对今后的研究方向进行探讨。
2 算法
给定一组样本,其中n=l u是网络W中的样本总数。第4节将讨论构造W的方式。
请注意,是所有排名样本的集合,是所有未排名样本的集合。
令Yisin;Rn网络中n个样本的初始排序矩阵定义如下:
我们的目标是预测未排序样本的等级。
设矩阵Fisin;Rn为样本集的估计排序矩阵。
我们可以通过让网络中的每个节点(即样本)迭代地将其排名信息传播到其相邻的节点来实现这一目标,并重复这一过程直到收敛。这三种算法基于三个假设:
-局部一致性:附近的样本可能具有相同的秩值
-全局一致性:相同结构(簇或子流形)上的样本可能具有相同的秩值
-网络不包含自循环
基于随机游走图拉普拉斯的半监督排序算法
在这一部分中,我们稍加修改了原随机游走图的拉普拉斯半监督排序算法,可以从[8,12]中得到。新版本的算法概要如下:
1.构造,其中
2.迭代直至收敛
,其中alpha;是属于[0,1]的任意参数
3.设F*为序列{F(t)}的极限。
接下来,我们寻找基于拉普拉斯的随机游动图半监督排序算法的闭式解。换句话说,我们需要证明:
假设F(0)=Y,那么
...
因此,通过归纳法,
由于是随机矩阵,其特征值在[-1,1]。此外,既然如此
因此,
现在,从上面的公式,我们可以直接计算F*。
基于对称归一化图拉普拉斯的半监督排序算法
接下来,我们将对文献[6,8]中提出的基于拉普拉斯的半监督排序算法进行简要的综述。该算法的概要如下:
1.构造,其中 ,
2.迭代直至收敛
,其中alpha;是属于[0,1]的任意参数
3.设F*为序列{F(t)}的极限。
接下来,我们寻找基于对称规范化图拉普拉斯的半监督排序算法的闭式解。换句话说,我们需要证明:
假设F(0)=Y,那么
...
因此,通过归纳法,
由于与之相似的是一个随机矩阵,特征值属于[-1,1]。此外,因为,因此
因此,
现在,从上面的公式,我们可以直接计算F*。
3 正则化框架
在这一部分中,我们将为基于对称规范化图拉普拉斯的半监督排序迭代版本开发正则化框架。首先,让我们考虑错误函数
在这个错误函数E(F)中,和属于。请注意,是正正则化参数。因此,
这里E(F)表示估计的排序矩阵和初始排序矩阵之间的平方损失和平滑约束。
因此,我们可以重写E(F)如下:
我们的目标是最小化这个误差函数。换句话说,我们解决了,这将导致
让。因此,上述方程的解F*是
另外,请注意,这不是对称矩阵,因此我们不能为基于随机游动图拉普拉斯的半监督排序迭代版本开发正则化框架。
接下来,我们将开发基于非规范化图拉普拉斯的半监督排序算法的正则化框架。首先,让我们考虑错误函数
在这个错误函数E(F)中,和属于。请注意这是正正则化参数。因此
这里E(F)表示估计的排序矩阵和初始排序矩阵之间的平方损失和平滑约束。
因此,我们可以重写E(F)如下:
请注意,网络的非正规拉普拉斯矩阵是L=D-W。我们的目标是最小化这个误差函数。换句话说,我们解决了,这将导致
因此,上述方程的解F*是
4 实验结果
数据集集合
本文使用[11]中的事务数据集。此数据集包含390个事务。每笔交易有5个特点。换句话说,我们得到了事务数据矩阵(R390*5)和注释(即排名)矩阵(R390*1)。
然后根据交易数据构造相似图。本文所使用的相似图是k近邻图:如果事务i是事务j的k近邻或事务j是事务i的k近邻,则事务i与事务j相连。
在本文中,相似函数是高斯相似函数:
本文将t设为1,用5近邻图构造交易数据的相似图。
为了评估三种基于图拉普拉斯的半监督排序算法的性能,我们使用了[11]中提供的三个事务(涉及泵和转储行为)的默认种子集。这三个事务的ID分别为5,53和369。
实验结果
在这一部分中,我们使用上述非规范化、随机游走和对称规范化的图拉普拉斯排序方法来测试精度性能。
精度性能指标Q如下:
下表1定义了真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN):
表1:TP、TN、FP和FN的定义
预测标签 |
|||
阳性 |
阴性 |
||
已知标签 |
阳性 |
真阳性(TP) |
假阴性(FN) |
阴性 |
假阳性(TP) |
真阴性(TN) |
所有实验均在Matlab 6.5虚拟机上实现。本文采用漏掉一次测试策略计算了各种方法的精度性能指标。对于默认种子集,一个事务被省略,其余事务用作成员资格查询中的核心集。有效的排名方法应该报告排名前k的遗漏事务。参数u设置为1,参数alpha;设置为0.85。下表2给出了上述方法的精度性能指标。
表2:所提出方法的精度比较
k级 |
K=10 |
K=20 |
K=30 |
K=90 |
|
准确度性能指标(%) |
非正规化 |
0 |
33.33 |
66.67 |
66.67 |
随机游走 |
0 |
0 |
66.67 |
66.67 |
|
对称规范化 |
0 |
33.33 |
66.67 |
100 |
上表的结果表明,基于对称规范化和非规范化的图拉普拉斯半监督排序方法优于基于随机游走拉普拉斯半监督排序方法。
最后,基于对称规范化图拉普拉斯的半监督排序算法由于其能达到最高精度的性能指标,可以被认为是目前最先进的基于网络的不规则交易行为检测排序方法。
5 结论
我们发展了详细的非规范化、随机游动和对称规范化的基于拉普拉斯图的半监督排序方法,应用于不规则交易行为检测问题。实验表明,基于非规范化和对称规范化图拉普拉斯的半监督排序方法优于基于随机游走拉普拉斯的半监督排序方法。此外,在这种不规则交易行为检测问题中,基于对称规范化图拉普拉斯的半监督排序方法获得了最高精度的性能指标。
最近,据我所知,基于对称规范化图p-Laplacian的半监督排序方法还没有被开发出来并应用到实际问题中。今后,我们将发展基于对称规范化图p-Laplacian的半监督排序方法,并将这些方法应用于不规则交易行为检测问题。
此外,基于对称规范化图p-Laplacian的半监督排序方法不仅可以应用于不规则交易行为检测问题,还可以应用于癌症分类中的生物标志物发现问题。具体来说,给定一组与某一特定疾病(如白血病)相关的基因(即查询),这些方法还可以通过对基因共表达网络(来自基因表达数据)或蛋
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[234925],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。