常见概率模型在金融市场中的应用

本文首发于微信公众号：要资讯。文章内容属作者个人观点，不代表和讯网立场。投资者据此操作，风险请自担。

概率模型简介

概率模型是一大类模型的统称，是常规金融模型的概率化表达。通常概率模型会把常规金融模型中的某些参数看作是一个未知的概率分布，这个未知的分布通常会预先给定一个基本假设，即先验概率，然后再根据具体的观测数据去推断或者逐步修正这些假设。一种比较常见的概率模型就是贝叶斯线性回归模型，这类模型把线性回归中的系数和截距等参数作为未知的概率分布。另外一类是最近二十年兴起的状态空间模型(State- Space Model, SSM)和隐含马尔科夫模型(Hidden Markov Model, HMM)，这类模型假设在可观测数据背后包含了某种隐含模式，并且可以利用条件概率分布来发掘这些隐含模式来总结数据规律以及预测未来数据。SSM 通常用于描述连续的隐含状态而 HMM 通常指有限的隐含状态。这类模型首先在物理学中得到应用，随后在自然语言处理中被发现取得良好效果。目前这类模型也常出现在金融、经济等学术论文中用于检验经济指标有效性或者用作预测。这类模型在国外一些对冲基金公司也有所应用。

概率模型可以比灵活地从较少量数据中调校出来，但是在传统机器学习问题上，比如分类，非线性回归等，这类模型效果在精确性和扩展性方面表现不会特别好。而另一方面，深度学习在图像识别、语音识别方面取得较大突破，其原因之一是大数据为较复杂的模型架构提供了支持。如果把这两者的优势结合，则有可能在少量数据的基础上构造出较为复杂的模型，例如贝叶斯神经网络。

本报告将简单介绍概率模型的构造流程，常见概率模型的类型，最后给出贝叶斯线性回归模型和贝叶斯神经网络在期货预测中的应用例子。

概率模型构建流程

概率模型的构造通常要求对待预测的问题有一个直观的认识，比如从可观测数据库存，现货价格，利率，工厂开工率，产品优良率，成交量和持仓量等信息中推断出期货价格可能由基本面，宏观，流动性等不可观测的因子在背后驱动期货价格涨跌。由此构造出有一定经济学含义的模型，并且加入一定的主观预期，即模型参数的先验分布。再由可观测数据去推断出这些隐含因子对期货价格的影响作用，也就是说利用特定的推断算法计算后验分布。最后使用后验分布来测试模型，找出其优点和缺点，如果能满足则该概率模型在此问题上有一定的解决能里，否则则重新修改。这就是Box循环，如下图所示。

左滑查看更多

　　Box循环清晰地把以下几个步骤区分开了：把主观认识加进模型，根据数据进行推断，在现实环境中进行模型评价以及根据结果修改模型假设。第一个步骤概率模型构造由于需要加入对期货价格行程的主观认识，这个步骤更像是一个艺术过程。研究员甚至可以把商品产业链的相关信息编进概率模型中，例如一个简单的豆粕和豆油的部分产业链可以如下图表示。从大豆种植面积开始经过贸易，加工等环节生产出豆粕和豆油，这里面的各种因素都会对其最终价格产生影响，而其下游产物也可能由于供需关系的变动对原材料产生影响，这一系列过程可以都用一类称作贝叶斯网络的概率模型来表示，模型参数就是各个流程之间的条件概率分布。随着研究员的认识深入，这个网络可以不断扩展。甚至添加一些变量，例如贸易利润和加工成本可能同时受制于某些不可观测的宏观因素。

左滑查看更多

　　期货研究员如果对某一商品品种有一定认识都可以构建出类似的概率模型，然后把可观测数据交给模型利用特定的推断算法计算出模型参数的后验分布。对大多数概率模型来说，根据可观测数据进行调校都不是简单的步骤，两种常用的方法是马氏链蒙特卡罗和变分推断。调校后的模型是否有效则受制于更多因素，例如数据质量，数据样本是否足够多，概率模型的推断方法选取是否适当等等。最后可以用后验预测检验(Posterior Predictive Checks, PPC)来评价模型对数据的拟合程度以及交叉验证来评价模型的预测能力。

概率模型类型

概率模型包含了一大类模型，在金融建模中经常会用到，但是他们的名称常常不统一，例如常用的regime-switch 模型通常包含2-3个regime，他们其实就是一类特殊的隐含马尔科夫模型。David M. Blei 在 Build, Compute, Critique, Repeat: Data Analysis with Latent Variable Models（2014）中总结了几类常用的概率模型，其架构如下图所示。图中深蓝色圆圈为可观测变量，白色圆圈代表不可观测变量，深蓝色方框代表固定的模型超参数。灰色的箭头表示各个变量之间的依存关系。其中的混合会员模型(mixed membership)常用于无监督的聚类分析，矩阵因子分解模型(matrix factorization)则用于特征分解，如用户行为分析等，这两类概率模型在金融上的应用较为少见，所以在这里不作讨论，下面主要介绍其他几种在金融中较为常见的概率模型

左滑查看更多

1.贝叶斯线性回归(Bayesian Linear Regression, BLR)

这类模型比较基础，主要就是把通常线性回归模型中的系数看作是未知分布，可以用如下式子表示

左滑查看更多

　　其中ft1为自变量因子。A 和b为贝叶斯模型的系数和截距，其先验分布均通常取为标准正态分布，但也可根据具体情况采用其他与现实情况更为接近的分布。rt的预测误差服从正态分布(0, 2)，其方差2可取标准对数正态分布。这里的参数= {, b, 2}的后验分布都是通过历史数据进行马尔科夫链蒙特卡诺或者变分推断。在推断出后验分布后就可以计算rt的后验分布了，也就是给定了当前因子下的条件概率分布(rt|, )。

2.隐含马尔科夫模型(Hidden Markov Model, HMM)

隐含马尔科夫模型在线性模型的基础上可以用公式表示为

左滑查看更多

　　其中St1为当前的区域变量(regime)，其取值是离散的St1 = 1,2,3, …。通常在金融应用中只取2-3个区域，例如当St1=1时，市场处于上升状态，当St1= 2时，市场处于调整状态，当St1=3时，市场处于下跌状态。而有的模型会忽略掉市场的调整状态，只取剩下两种。同时模型通常也会假设各个状态之间的存在一个转移概率矩阵，这个转移概率和在各个状态下的系数A都是不可观测的，他们可以是固定的参数也可以是贝叶斯化的概率分布。模型的使用者并不知道当前市场处于哪个区域，需要从可观测数据中使用特定算法进行推断出当前市场所处区域的概率，将来市场所处的概率，以及市场出现转换的概率。

在实际使用当中HMM的具体形式可能会稍作变化，例如Andrew Ang在How do Regimes Affect Asset Allocation?（2002）中使用了如下形式的HMM来研究在牛市和熊市中如何调节资产配置方案。在其论文中，股票超过政府债券的额外收益t表示为

左滑查看更多

Min Dai 等人在 Optimal Trend Following Trading Rules (2011)中把 HMM 加入到随机过程模型中。例如用ft表示在t时刻的股票价格，满足如下随机过程

左滑查看更多

　　其中()为预期收益率，其值取决于所处的两个牛市或熊市区域，为常数波动率，与所处regime无关，是标准布朗运动。下表中列出了利用 S&P500 校正该 HMM 模型的参数值，其中1和2分别是牛市和熊市的期望收益，1和2是从牛市转移到熊市和熊市转移到牛市的转换强度。从表中可以看出这些参数在 2008 年以前都比较稳定，2009年达到峰值，之后开始回落，这跟 2008-2009年间美股出现的大幅下滑表现一致，尤其是1达到最大值，说明市场有强趋势向熊市转换。由此可见该HMM模型对市场有一定的描述能力。

左滑查看更多

3.状态空间模型(State Space Model, SSM) 状态空间模型是隐含马尔科夫模型的进一步扩展，其线性形式可以表示为

左滑查看更多

　　其中公式(5)被称为观测方程，At是一个不可观测的隐含状态向量。该向量序列At由被称为过渡方程的公式(6)定义，Bt是一个过渡矩阵。(0, 2)和(0, 2)相当于白噪声。与之前的 HMM 相比，SSM中的At的取值变成了可变的时间序列，而且其分布不再是独立相同的了。这类模型首先被用在航空学上，观测方程所描绘的变量rt为雷达可观测结果并带有白噪声干扰，状态At表示飞行器在空间位置、速度等状态，该模型目标就是为了通过雷达观测，求解出飞行器的状态。这类模型在金融上的应用也有很多，较为经典的是随机波动率模型。例如 Heston，

左滑查看更多

　　经过一阶离散线性化后就可以写成状态空间的形式，其中为可观测的股票价格，随机波动率作为不可观测的隐含状态。把Heston模型写成状态空间的形式就可以使用时间序列，而非通常的期权价格进行校正了。

在图 3：e中David M. Blei提到的卡曼滤波(Kalman filter)通常是作为一种实现SSM的推断方法，其最初的设计目地就是用于雷达跟踪，与HMM的发展是相互独立的而且起源于不同的研究群体，但他们都是概率模型的一种实现形式。

4.贝叶斯神经网络(Bayesian Neural Network, BNN)

前面所提到的几类概率模型都是线性的，虽然也可以做成非线性的形式，但是要求模型构造者对建模问题需要有一定的认识前提。而利用期货产业链构建贝叶斯网络更要求研究者对整个产业有较为深刻的认识。上述模型都要求研究员对数据进行不同程度的加工，这也使得概率模型的构建更像一门艺术。目前正在兴起的深度学习其成功的原因之一是能够利用算法自动发掘数据内部特征，从而减少研究人员对数据人工预处理的依赖。由于深度学习用有一套相对比较科学的特征提取和筛选方法，从而使得模型构造过程更加理性与客观。如果把概率模型和深度学习相结合，则有可能实现优势互补。其中贝叶斯神经网络就是两者结合的一种形式，这类模型其实是把神经网络中的权重看成是一个未知的先验分布，然后根据观测数据利用贝叶斯统计推断的方法去求解权重的后验分布。有概率模型开源软件的研究人员认为贝叶神经网络具备的优势包括：

1.预测结果的不确定性

贝叶斯模型能够体现预测结果的不确定性，而这点通常是深度学习中被忽略掉的。比如预测结果的不确定性可以帮助研究者找到预测不太好的样本，从而加强对这些样本的训练。

2.模型参数的不确定性

考察模型参数的不确定性也能帮助研究人员评价模型是否稳定。

3.通过先验分布实现正则化

普通深度神经网络通常使用权重惩罚来使得模型某个参数不至于过大或过小，从而防止过度拟合，而贝叶斯模型则由于有先验分布的约束从而使后验分布不至于产生过大的偏离。

4.通过先验分布进行迁移学习如果需要对某个新问题进行建模，那么可以把在就问题中训练好的模型参数作为研究新问题的先验分布。这在期货上可能也会有所应用，比如对国内即将上市的原油期货，在上市初期，相关研究员可以用外盘布伦特原油期货的大量相关数据进行模型训练然后再把其作为先验分布，结合国内原油期货上市初期的少量数据进行训练。

概率模型应用实例

在这一节里尝试对比贝叶斯线性回归模型(BLR)和贝叶斯神经网络(BNN)在预测沪铜主力期货的收益。这里选择 BNN 而非其他介绍的模型，原因是他是概率模型的一个较高形态而且不太依赖人工对数据的预处理。这里的输入参数以周频基本面数据为基础，包括铜库存、期货持仓量、成交量、相关利率、汇率等20多个可观测因素。由于因子数目较多，直接导入上述贝叶斯模型进行计算运算量较为庞大，所以这里使用了主成份分析(Princinple Component Analysis, PCA)的方法以减少变量个数。贝叶斯线性回归模型采用留一交叉验证法(Leave One Out Corss Validation)进行超参数筛选，详情可参阅2017年8月华泰期货量化专题报告：贝叶斯线性回归在期货交易中的应用。

目前贝叶斯神经网络是采取了较为简单的全连层结构如下图所示，层神经元使用的激活函数为tanh，输出层激活函数为 sigmoid，权重的先验分布为标准正态分布，超参数包括层数目和其包含的神经元数量等。为方便比较两个模型，贝叶斯神经网络的输入与线性回归模型一致，都是使用PCA后相同的主成份。与线性回归模型不同的是，由于训练贝叶斯模型的计算量较大，只采用时间序列上前350个周频数据样本作为训练集，约60个的样本作为验证集筛选超参数，约60个样本作为测试集，所以BNN只训练了一次，而BLR则是固定时间窗口每周滚动拟合。这里使用的模型统计推断方法为开源软提供的自微分变分推断(Automatic Differentiation Variational Inference, ADVI)。

左滑查看更多

　　回测时这两个模型都是先预测出沪铜主力合约下一周的上涨和下跌概率，如果上涨概率大于0.5就做多，下跌概率大于0.5就做空。每周最后一个交易日进行预测和调仓，为方便计算假设能以收盘价交易。这两个模型的收益曲线如下图，由于贝叶斯线性回归模型采用了较小的时间窗口进行滚动拟合，所以验证集数据较多。但由图中可以看出这两个模型的交易曲线差异并不是十分大，在2015年这段时间收益都比较平缓，而之后贝叶斯神经网络的收益增长的趋势则比较明显。

左滑查看更多

　　这两个模型在沪铜期货上的收益如下图所示，由于这两个模型的验证集和测试集数据样本的时间跨度不一致，所以对其分别做了调整，使他们使用相同的样本，从而BLR的验证集能与BNN的验证集比较，BNN的测试集能与BLR的测试集比较。在相同的验证集区间BNN的收益为10.13%而BLR只有1.97%。在相同的测试集合上BNN的收益为20.91%略高于 BLR的18.84%。但考虑到BNN并没有使用滚动训练的方法，BNN的效果提升还是比较明显的。

左滑查看更多

结果讨论

本报告首先对概率模型进行了基本介绍，包括其框架，构建流程，同时简述了几类重要模型在金融建模上的应用，包括熊市和牛市的转换判别，随机波动率的推算和混频数据的预测等。最后本报告尝试基于沪铜期货基本面因子，比较了贝叶斯线性回归模型和贝叶斯神经网络对交易沪铜期货的收益。虽然贝叶斯神经网络没有使用滚动训练的方法，运算量大大降低，但是在相同的数据样本上却取得比贝叶斯线性回归模型更好的效果，是值得深入研究的一类模型。

作者：华泰期货研究院量化策略组陈维嘉

文章来源：微信公众号要资讯

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。