基于深度强化学习的比特币交易策略构建外文翻译资料

 2023-04-13 10:47:40

英语原文共 13 页,剩余内容已隐藏,支付完成后下载完整资料


基于深度强化学习的比特币交易策略构建

Fengrui Liuaa, Yang Liaa, Baitong Liaa, Jiaxin Libb, Huiyang Xiec

a东北电力大学电气工程学院,吉林 132012,中国

b东北电力大学经济管理学院,吉林 132012,中国

c汉阳大学电气电子工程学院,安山 15588,Gyeonggi,韩国

摘要: 新兴的加密货币市场由于其去中心化的独特性,最近受到了资产配置的极大关注。然而,其波动性和全新的交易模式使设计一个可接受的自动生成策略具有挑战性。本文研究提出了一个基于深度强化学习算法——近端策略优化(PPO)的自动高频比特币交易框架。该框架创造性地将交易过程视为行为,将回报视为奖励,将价格视为状态,与强化学习的思想相一致。将支持向量机(SVM)、多层感知器(MLP)、长短期记忆(LSTM)、时间卷积网络(TCN)和Transformer等先进的基于机器学习的静态价格预测模型应用于实时比特币价格,实验结果表明,LSTM优于其他模型。然后在 PPO 的基础上构建一个自动生成的交易策略,并以 LSTM 为基础构建策略。大量的实证研究证实,所提出的方法优于单一金融产品的各种常见交易策略基准。该方法能够在数据同步的模拟环境中进行比特币交易,比最佳基准多获得31.67%的回报,使基准提高12.75%。该框架可以在波动期和飙升期获得超额回报,这为基于深度学习构建单一加密货币交易策略的研究打开了大门。可视化的交易过程显示了该模型如何处理高频交易,提供了灵感,并表明它可以扩展到其他金融产品。

关键词: 比特币; 深度强化学习; 近端策略优化; 高频交易策略

1. 引言

加密货币是一种快速增长的资产,诞生于2009年,2017年后逐渐进入公众视野,截至2021年3月1日,总市值超过1.54万亿美元。它利用一种被称为区块链的去中心化技术来摆脱传统货币等公司实体的控制。如今,加密货币的种类超过3000种,越来越多的大型科技企业和投资公司将其作为重要的资产配置组成部分。

比特币是一种占主导地位的加密货币,市值超过9696亿美元,利用区块链技术形成了一种广泛流通的数字货币。近年来,虚拟货币的应用场景呈现爆发式增长,逐渐形成了一个新兴的投资市场[1]。因此,预测比特币的时间序列已经被普遍认为是一个重要的研究课题。

在过去的几十年里,大多数关于比特币价格预测的研究都强调使用从金融领域借来的经典方法。Katsiampa和Paraskevi[2]探究了GARCH模型在比特币价格样本中的拟合优度,但他们没有在样本之外进行预测,导致模型的泛化证明困难。参考[3]利用自回归综合移动平均模型(ARIMA)预测比特币价格,该模型在波动范围较窄的子周期表现较好。但在长期预测或剧烈波动时,它的表现明显更差。对于波动性较大的金融产品,如比特币、ARIMA与实际数据有较大的偏移。Dian采用alpha;-sutte因子,得到了较好的性能[4],但在证明解释变量[5]不能预测比特币收益时,其可信度降低,导致因子构建方法暂时陷入僵局。但上述方法在预测比特币的过程中存在明显的缺陷。(1)这些方法要么通过构造一个简单的非线性函数来拟合比特币价格序列,要么关注短期依赖而不是长期趋势,因此预测结果的准确性有待提高。(2)这些方法在股票市场已经被证明是有效的,但比特币市场缺乏直观的基本面和显著的相关因素。因此,简单地将股票市场研究工具转换为比特币市场研究可能不会像预期的那样有效。

鉴于Jing-Zhi Huang 的工作[6],比特币纯数据驱动的分析预测的作用并不被认真对待,这表明,比特币价格可以通过分析技术指标和大数据进行预测,基本不受基本面因素的影响,为基于机器学习的预测提供了理论依据。神经网络的发展使得构造复杂的非线性函数和捕捉序列的长期相关性成为可能。神经网络一直在提高比特币的预测准确率。参考文献[7][8]都建立了人工神经网络(ANN)来预测比特币的价格,但[8]侧重于方向预测的集合算法,而不是价格预测,不能直接为高频交易提供参考。[9][7]为基础,应用神经网络自回归(neural network auto-regression, NNAR)完成次日预测,发现NNAR在日间预测方面不如ARIMA,说明原始神经网络可能不如传统方法有用。随着回归神经网络(rnn)的发展,长序列预测方法得到了前所未有的发展。LSTM为长期预测提供了更可靠的方法。S. McNally, J. Roche和S. Caton[10]比较LSTM和SVR谁具有捕获更大范围依赖的能力,证明了LSTM更适合于时间序列预测。深度学习算法被广泛应用于探索比特币价格的趋势规律。然而,上述研究仍有改进的空间:(1)它们采用了早期流行的神经网络,而不是比较TCN和Transformer等前沿模型。通过引入最先进的结构,预测结果可能会显著提高。(2)以往的研究多以静态模型为主,只能对未来的趋势给出建议,不能直接进行决策。因此,策略构建高度依赖于EA的人工指标,不考虑他们在投资中的潜在应用。

值得一提的是另一个想法是引入其他因素,特别是公众情绪,共同预测比特币的价格是有趣的。各种研究评估了情绪在加密货币投资中的有效性。Matta, M., Lunesu, I.和Marchesi, M.[11]引入了谷歌趋势和推特情绪作为补充数据,观察结论是推特预测了三到四天的比特币趋势。Cavalli, S.和Amoretti, M.[12]从各种来源收集数据,包括社交媒体、交易历史和财务指标。然后应用一维卷积神经网络(1D-CNN)进行多元数据分析,在预测方向(上行和下行)时达到74.2%的检验精度。但该领域的研究面临着不可避免的挑战:(1)引入因素与比特币价格的相关性可靠性不够令人信服。(2)来自不同来源的数据可能会造成大量的数据丢失,并可能包含大量的噪声,这对数据清理提出了重要的挑战,并引起了对其在价格模式学习中的应用的关注。

总体而言,上述研究都强调了比特币预测的必要性,但很少有人提出构建比特币动态投资策略的有效方法。比特币价格波动剧烈,给静态交易策略[13]带来挑战。随着强化学习(reinforcement learning)等尖端技术的出现,预计将利用新技术来应对新兴市场的挑战。因此,本文在几个方面对文献有所贡献。

本文研究构建了一种新的高频交易策略自动生成框架。主要贡献有三个方面:(1)利用LSTM、TCN、Transformer等先进的深度学习算法根据静态数据预测比特币的价格。据我们所知,这是第一次将最先进的深度学习技术并行地用于比特币预测。(2)通过对这些模型的回测结果进行比较,选择LSTM构建一个基于PPO算法的深度强化自动高频事务学习agent。我们的方法将深度强化学习从动作游戏的应用扩展到金融产品投资决策领域,将交易行为创造性地视为角色的移动,将回报视为游戏中的分数。实验结果表明,自动构造的3种策略均能获得超额收益。(3)该模型论证了基于有限价格历史信息构建单一资产高频交易策略的可能性,为实现自动交易提供了方向。这使得该模型在处理加密货币市场投资时具有独特的价值,而比特币在该市场占据主导地位,可资产配置非常有限。Agent产生的交易过程也将为专业人士提供更多的启示。

  1. 方法论背景

2.1长短时记忆网络(LSTM)

LSTM[14]在rnn家族中扮演着重要的角色,利用连续的观察来学习时间相关性来预测未来的趋势。每个LSTM都是一组捕获数据流的单元。这些单元从一个模块连接到另一个模块,传输过去的数据,并收集当前数据。这些门基于sigmoid函数的神经网络层,使这些细胞能够有选择地允许数据通过或处理数据。图1给出了LSTM的内部方案。

LSTM计算从输入序列x = (x1, x2,hellip;, xT)到输出序列y = (y1, y2,hellip;(1) -(3)分别表示输入门、遗忘门、输出门的计算过程。式(4)和式(5)揭示了如何获得单元格在t时刻的输出值。

其中W为权值矩阵;M为存储单元的值;sigma;为s型函数;I、f、o分别为输入门、遗忘门、输出门;B为偏移向量,c为单位激活向量;向量的元素方向的乘积;G和h是单位输入和单位输出的激活函数,通常取为tanh函数。

2.2近端策略优化算法(PPO)

PPO属于策略梯度(PG)方法族,由[15]新提出,它计算策略梯度的估计值并将其插入到随机梯度上升算法中。策略梯度法的原理是计算出策略梯度的估计值,并将其插入随机梯度上升算法中。最常用的梯度估计方法如下:

式中pi;theta;是一个固定策略;Ecirc;t[·]为有限批次样本的经验平均值;A表示动作,s表示时刻t的状态;Acirc;t是主导函数的估计值。对目标函数微分可得ĝ的估计值,可得式(7):

虽然使用相同的轨迹对丢失LPG进行多步优化可以获得更好的策略,但往往会导致破坏性的大规模策略更新,即每一步的替换策略相对于前一步的改进太过剧烈,因此,更容易在短时间内实现局部优化并停止迭代,无法获得全局最优策略。

J. Schulman等人[16]在PG算法的基础上提出了Trust Region Policy Optimization (TRPO)算法,该算法具有创造性的目标函数和相应的约束条件,如(8)和(9)所示:

式中theta;old为更新前的策略参数向量;KL[·]表示KL散度。约束项表示新策略和旧策略的预期分歧度必须小于某个值,该值用于约束每次策略更新的变化程度。得到了约束的二次逼近和目标的线性逼近,共轭梯度算法能有效地解决“巨大变化”问题。

TRPO表面上采用约束函数,实际上采用的是惩罚函数。将上式转化为求解某些系数beta;的无限制优化问题,即式(10):

这是因为替代的内容构成了策略pi;的下限。TRPO有一个硬约束,而不是惩罚函数,因为在各种情况下找到一个合适的beta;值特别具有挑战性。即使在特定的情景下,不同的特征也会随着学习过程而变化。因此,简单地设置一个固定的参数很难解决上述方程所描述的优化问题。综上所述,TRPO算法在处理连续状态空间下的动作选择任务时具有优势,但它对步长比较敏感,因此在实际操作中选择合适的步长会带来不可逾越的障碍。

S. Kakade和J. Langford[17]在编辑agent目标方法的基础上提出了一种新的目标函数,对TRPO进行了修改。具体推理过程如下:

其中rt (theta;)表示由(11)定义的概率比,显然,rt (theta;old) = 1。如果去掉TRPO的约束,最大化原始目标函数会导致策略更新变化过大。因此,为了避免rt (theta;)远离1,有必要增加一个罚项。

由以上分析,可得目标函数为(12):

其中ε是一个超参数,通常设置为 0.1 或 0.2。第二项clip(x1, x2, x3)表示max(min(x1, x3), x2)。通过修改目标的裁剪概率比来替换目标,可以消除rt (theta;)超出[1-ε,1 ε ]范围的可能性,并取裁剪目标和未裁剪目标的最小值。因此,未裁剪目标的下限成为最终目标。

上述替代损失可以通过对典型策略梯度的一个小变化来计算和区分。在实践中,要实现自动微分,唯一必要的步骤是构建LCLIP来替代LPG,并在此目标上执行多步随机梯度上升。

在价值函数和策略函数之间共享参数的方法被证明具有更好的性能,这需要利用一种特殊的结构神经网络,其中一个损失函数结合了政策替代和价值函数的误差项。这一目的可以通过扩大熵奖励来进一步增强,以允许充分的机会探索策略空间,并防止agent满足一个不够完美但可接受的行为。因此,PPO算法[15]修改目标函数如(13)所示:

式中,c1、c2为参数;S为熵激励;LtVF表示方差损失。J. Schulman等[18]提出了一种适用于RNN的策略梯度实现方法。首先运行t个时间步的策略,其中t远小于事件长度,然后利用收集到的样本更新学习策略。需要一个在T个时间步内的优势估计器,如(14)所示:

式中,t是区间[0,t]中的某个时间点;gamma;是时间序列中的激励折扣率。广义优势估计标准化了上述方程。给定lambda; = 1,可以写成(15):

  1. 目标实现
    1. 策略函数

深度强化学习(DLP)是深度学习和强化学习的结合,融合了深度学习对视觉和自然语言处理等感知问题的强大理解,并提高了端到端学习的决策能力。

早期的强化学习方法,如Q-learning[19],只能应用于有限的状态和动作,需要提前手工设计。然而,在这种情况下

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[589532],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。