Loading...
墨滴

gamcing

2021/09/18  阅读:74  主题:自定义主题1

用无监督学习技术进行FOF投资组合优化

提出RP-PCA方法,改进了并解决了PCA的缺陷,在美国股票的价格数据中,更高效地挖掘出了五个高Sharpe的风险定价因子。

原文标题:Martin Lettau & Markus Pelger (2020) 在时间序列和横截面上能同时解释股票收益率的因子挖掘方法[1]

中文解读:Intern 金成

前言

资产定价理论告诉我们,所有资产的风险溢价都应当被一组系统性风险因子的线性(或非线性)组合解释:

因此,找到“正确”(有定价能力)的因子是实证资产定价领域永恒的挑战,最常见的就是线性的因子定价模型:

传统的因子挖掘:有监督学习

传统的实证资产定价研究者往往会先提出一个定价因子,然后按照Fama-MacBeth or GMM方法检验因子的有效性。

这个研究领域越来越“内卷”,研究者为了证明自己新的因子解释效力更高,纷纷使用各种data mining的“核武器”以保证样本外的效果足够“稳健”。不仅如此,目前的新定价因子在投稿时,都必须详细地说明他们的经济学含义。

目前,这一类资产定价实证研究仍然存在两个巨大的挑战:

  • ► 

    维度灾难:目前的实证研究论文已经提出了上千个所谓“显著”的因子,大量因子存在共线性,而且实务中没法很好的识别这些因子的重要性。Harvey et al.(2016)[2]指出,目前发表的因子中,只有316个仍然有效;

  • ► 

    变量遗漏:由于我们永远无法得知真实的定价因子,因此我们在变量遗漏的情形下使用Fama-MacBeth检验因子,检验结果一定存在偏误(关于这个问题,Giglio and Xiu (2019)[3]目前已经可以借助PCA,使用三步法的检验思路得以解决)

因子挖掘的新思路:无监督学习

为了应对上述挑战,学者们提出了一种“潜在因子模型”(latent factor model):

其中, 代表了样本中第n个资产在t时刻的收益率, 表示所有风险因子(共K个, )在t时刻的收益率。

如果写成矩阵形式,就是:

上述表达式看似与传统的因子定价模型在形式上没有任何差异。

最大的区别在因子 的构建方法:

  • ► 

    传统因子模型——引入先验信息:研究人员主观猜测,资产价格由某些可交易(tradable,收益率因子,通常是指数收益率、具有某种共同特征股票的平均收益率等)或不可交易(non-tradable,通常是宏观经济变量)因子驱动的,再通过主观构建这些因子并使用线性回归等实证方法检验这些因子定价的有效性。

  • ► 

    潜在因子模型——无先验信息:现在有一伙新的研究人员谦虚地指出:虽然已经有很多人提出了上千个“有用”的因子,但我们仍然不知道真实的因子是什么。既然这样,我们不如直接分析资产的面板收益率,分解出一些更接近于真实因子的“潜在因子”。因此,潜在因子模型中 不是主观构建出来的,而是直接对 分解出来的。

本文创新点

本文改进了PCA潜在因子模型,提出了Risk Premium PCA(RP-PCA),在PCA的基础上增加了横截面信息。使用RP-PCA能更好地识别到资产的特征因子(相对于市场因子是一个能影响所有资产的strong factor,文中把特征因子归类为weak factor,例如:动量、价值、成长……),而且使用RP-PCA分解出来的因子能够获得比PCA更高的Sharpe

研究综述:潜在因子模型的发展

潜在因子模型的主要思路是,引入了PCA方法对现有的资产收益率协方差矩阵进行分解,缓解了传统因子模型的“维度灾难”,并且获得了稳健的定价效果(Chamberlain & Rothschild, 1983)[4]

不过在实际的资产定价实证研究中发现,使用PCA做因子挖掘存在很多瓶颈。本文作者对PCA因子挖掘的核心批评是:PCA只能挖掘出资产价格中的时间序列特征因子(或者说是二阶矩信息)。PCA对于横截面特征因子的挖掘能力很弱(一阶矩信息),这使得很多异质性因子(如:行业特征、风格特征……)被PCA方法埋没。

研究思路

传统PCA

这是传统PCA提取因子时,需要优化的目标函数:

上式, 都是未知的。

优化上述目标就是对下述 的方差-协方差矩阵做PCA分析:

其中,

  • ► 
    旋转:旋转的方法是,对方差-协方差矩阵 做正交分解,分解出N个正交的特征向量
  • ► 
    排序:将特征值(方差)从大到小排序
  • ► 
    提取主成分因子:选择排名前K的因子作为对真实因子的估计

PCA的结果是下述一个载荷矩阵:

上述矩阵是K个“主成分因子”(投资组合)的因子载荷(loading),每一个行向量( )分别对应了 矩阵的N个资产,由于每一行的载荷通常不为1,我们需要将其归一化处理:

改进PCA:RP-PCA

很多学者提出,要使得PCA方法能够有效地估计出“真实”因子,必须满足一个重要的假设 。但在真实的市场中,这个假设太苛刻了,因为通常横截面上的均值含有一些特征信息。

因此,我们需要放宽这个假设。回顾Ross提出的APT定价理论:

APT告诉我们,每个资产横截面的信息(平均收益率)应当是一组因子平均收益率的线性组合。显然,我们非常需要提取出这部分被PCA忽略的横截面信息。

因此,本文的解决思路就是在传统的PCA目标函数中加入上述APT的最小化条件。

RP-PCA的意义

本文的核心就是提出了新的目标函数:

上式中的 是目标函数的“调节器”,它的统计学意义在于调节横截面定价误差和时间序列定价误差的相对重视程度。

经济学意义上, 代表了对PCA过度拟合时间序列信息的 “惩罚”程度 ,所以RP-PCA也称为带惩罚的PCA(penalized PCA)。

图表:RP-PCA中 调节作用示意图

RP-PCA的操作步骤

  • ► 
    对下述矩阵做PCA分析,得到

特别地,当 时,RP-PCA问题退化为传统的PCA问题。

  • ► 
    计算因子
  • ► 
    时间序列回归:

分别对资产 进行OLS回归

最终得到

  • ► 
    评价效果——计算统计指标:
    • - 

      均方跟踪误差:

    • - 

      异质性方差:

    • - 

      最大Sharpe:
      (简写为

图表:PCA和RP-PCA的比较

方法 Strong Factor Weak Factor
PCA 能识别 无法识别
RP-PCA 识别效率更高 有效识别

使用RP-PCA进行实证分析

作者使用RP-PCA方法分别对自己模拟的一簇资产以及真实市场中的股票价格进行了实证分析。

参数取值:

模拟数据

假设我们已经知道了资产真实的SDF,那我们就可以通过Mento-Carlo方法模仿(原文中用的动词叫“mimic”)一簇虚拟的资产价格序列:

  • ► 
    设定因子的随机过程参数,模拟出K个因子的时间序列;
  • ► 
    设定因子的loading:
    • - 
      静态: 对于特定资产n,因子的loading是不随时间变化的;
    • - 
      异质: 不同资产的loading可以相同(strong factor),也可以不同(weak factor)。
  • ► 
    使用上述拟合的因子,构建N个虚拟的资产,得到T×N的资产收益率序列
  • ► 
    使用PCA、RP-PCA(不同的 取值)对 做分解,获得拟合的因子序列

模拟参数

因子 方差 夏普比
1(strong) 5 0.12
2(weak) 0.3 0.1
3(weak) 0.1 0.3
4(weak) 0.03 0.5

因子载荷:

模拟结果

下述4张图中,绿色的线条代表真实的因子(构建出来的),虚线表示PCA以及RP-PCA的第K个主成分因子的净值(累计收益率)时间序列。我们发现:

  • ► 
    因子方差越大,PCA和RP-PCA的识别效果越好。 一般这类因子都是strong factor,主要是市场指数;
  • ► 
    RP-PCA( )对高夏普比的弱因子识别效果更好。 由因子4的模拟结果可知,对于方差较小,但是夏普比较高的因子,PCA的识别效力很弱,但是RP-PCA的识别能力很强,而且 越大,拟合效果越好。

图表:因子1(sr=0.12, =5)拟合效果

资料来源:Lettau, M., & Pelger, M. (2020).

图表:因子2(sr=0.1, =0.3)拟合效果

资料来源:Lettau, M., & Pelger, M. (2020).

图表:因子3(sr=0.3, =0.1)拟合效果

资料来源:Lettau, M., & Pelger, M. (2020).

图表:因子4(sr=0.5, =0.03)拟合效果

资料来源:Lettau, M., & Pelger, M. (2020).

市场数据

股票样本来自CRSP数据库,选取了1963年11月至2017年12月的美国个股月度数据。

被解释变量 :一个虚拟的投资组合(可以认为是一种基金),构建方法:将具有某种特征的股票组合、排序、均分为5等分、10等分。

对于市场的股票价格,我们无法知道真实的定价因子(risk driver),因此本文使用了PCA和RP-PCA潜在因子模型,并以Fama-French模型作为基准模型进行比较分析。

图表:本文的实证流程示意图

资料来源:Lettau, M., & Pelger, M. (2020).

小样本实证研究:Fama French的5*5个资产组合

本文先使用一些小样本测试RP-PCA的因子样本内、样本外的识别效果,参照Fama&French(1993)[5]的做法,根据Fama的原文,构建了25个股票组合作为25个测试资产(test asset)。

构建的方法就是:先把股票按总市值(SIZE)排序,并分成5等分,再把股票按账面市值比(book-to-market,HML)排序,也分成五等分。两个特征两次排序,一共构建出25个投资组合(下称FF25)。

图表:FF25投资组合构建示意图

资料来源:Fama & French (1993)

考虑到账面市值比特征(book-to-market)在最近的市场中定价效率降低,所以本文通过替换book-to-market构建了多种FF25投资组合,并使用相应的因子进行测试。

25个资产组合的意图详解——线性回归视角:

对特定的FF25组合,应有稳定的风险暴露。因为FF25就是按照两个特征排序(double-sorted)构造出来的25个多头组合。如果这两个因子是有效的,那么相应的特征构造出来的多空组合因子,可以有效地用线性模型预测出相应的FF25投资组合的未来收益。

  • ► 

    线性因子模型(FF三因子)的视角: 比方说,我通过两次排序构建了一个叫做“高市值&高B/P”的ETF基金作为一个样本资产,我用上述线性模型对它的收益率进行回归,估计的结果应当是系数 显著为正。我们在样本外用同样的系数 ,应该可以很好地预测这种类型的基金收益率。推而广之,在横截面上,所有FF25的收益率也应该被线性模型准确预测。

  • ► 

    PCA和RP-PCA的视角:直接对FF25的收益率序列做PCA、RP-PCA分解,分解出的前3个主成分因子(3组正交的投资组合)应该包含市值和B/P的信息,因此相应的因子载荷(系数)应该也能够进行稳定的预测。

  • ► 

    资产配置视角——最大夏普比组合:非常自然地可以想到,如果将上述2个因子(“主观” or PCA出来的)作为几个“子基金”,可以在样本内二次优化(有点像FOF),构建出Sharpe Ratio最大的投资组合,最优组合权重的解析解就是

图表:测试样本、股票特征描述

简称 全称 描述
SIZE 市值 总市值
BM Book to Market 价值因子,账面/市值比
ACC accruals to assets 总应计负债对总资产比例[6]
INV(FF五因子) 投资(总资产增长率) (总资产-总资产.shift(1))/总资产
OP(FF五因子) 经营利润率 (营业收入 - 销售成本 - 利息费用 - 管理费用) / 账面权益价值
ST-REV(Fama, 1965) 短期反转 月度收益率.shift(1)
MOM 动量 上月高收益率股票组合-上月低收益率股票组合
IVOL 异质性波动率
VOL 波动率

资料来源:Lettau, M., & Pelger, M. (2020).

图表:FF25样本资产的测试结果(样本外表现)

资料来源:Lettau, M., & Pelger, M. (2020). 其中RP-PCA的

样本外操作方法:用20年(T=240个月)数据滚动估计,在样本内构建出最大夏普比率的投资组合,然后测试后面一个月的Sharpe Ratio、均方跟踪误差、异质性方差。

从上述测试结果可以看出,基于同样的价格信息、股票特征信息,RP-PCA与PCA方法构造的“投资组合”,在样本外,比传统的多空因子(FF三因子模型)能获得更高的夏普比率、更低的均方跟踪误差、更低的异质性方差。

大样本实证研究:单特征排序、10等分构建测试资产

本文在大样本实证研究中,选择37个股票特征(Kozak, Nagel & Santosh, 2020[7]),将股票的每个特征排序,10等分,构造投资组合。一共构造了370个测试样本。

图表:37个股票特征一览

类别 简称
reversal lrrev, strev, indmomrev, indrrev, indrrevlv
value interaction valmom, valmomprof, valprof
momentum mom, mom12, indmom, momrev
value value, valuem, divp, ep, cfp, sp
investment inv, invcap, igrowth, growth, noa
other size, price, accruals, ciss, gmargins, lev, season, sgrowth
profitability prof, roaa, roea
trading frictions ivol, shvol, aturnover

资料来源:Kozak, Nagel & Santosh, 2020

实证思路如下:

  • ► 
    对这370个测试样本做PCA/RP-PCA(多个 取值)
  • ► 
    挑选前N个最大的主成分,构建样本内最大Sharpe组合
  • ► 
    对上述组合,测试样本外Sharpe,比较不同方法的投资组合绩效
  • ► 
    根据主成分的样本权重,根据样本权重的大小,为特征排序

首先我们来看一下PCA和RP-PCA投资组合构建效果:

  • ► 
    RP-PCA的样本外Sharpe显著高于PCA
  • ► 
    选取前五个主成分构建投资组合“性价比”最高(Sharpe提升效果最明显)

图表:PCA/RP-PCA投资组合绩效

资料来源:Lettau, M., & Pelger, M. (2020). 其中,RP-PCA的
74个样本(2*34)是只取了了股票异象组合的前10%和后10%作为对照。

这些主成分里按权重排序,还原出了如下特征:

图表:RP-PCA和PCA的第2-5个主成分的“成分资产”一览

资料来源:Lettau, M., & Pelger, M. (2020).

总结一下,前5个因子大概具备以下特征:

  RP-PCA PCA
主成分1 市场因子 市场因子
主成分2 价值/成长+interactions 价值/成长
主成分3 动量+盈利能力 chaos
主成分4 动量+动量interaction 动量
主成分5 样本内高Sharpe的多空组合 chaos

资料来源:Lettau, M., & Pelger, M. (2020).

图表:RP-PCA的股票特征排序

资料来源:Lettau, M., & Pelger, M. (2020).

总结(读者视角)

RP-PCA提供了在主观的因子挖掘和客观的潜在因子模型之上构建了一个综合研究方法论体系。解决了以下实证资产定价领域的困难:

因子重要性识别问题

RP-PCA直接使用股票特征(价格异象)构建测试样本资产作为被解释变量而非解释变量,其实是用“预测的预测能力”作为基准,使估计更接近“真实”的随机贴现因子(SDF)。

因子样本外的检验基准

目前对于“样本外”的因子过度挖掘技术已经非常普遍,而本文的检验基准和方法论更重视“重要性”而非“显著性”,提供了一个比较科学方法来应对、检验factor zoo的维度灾难。

组合优化

本文的组合优化方法较为客观,在样本外的表现也超越基准。作者在理论上也证明了他们方法论的优越性(这是他们在另一个顶刊上发表的一篇理论文章)。

本文的实践意义

FOF投资的优化

从本文的建模思路,在真实市场,可以尝试把被解释变量替换成现有的ETF和主题基金,或许可以获得一个较好的Sharpe Ratio表现。

因子定价能力的检验

这也是本文大篇幅实证分析的主要内容。任何Factor Zoo中的“animal”都可以使用本文的方法论进行样本外检验。

本文的不足

当然,作者还提出了本文的两个弱点:

  • ► 

    无法很好地解释单个资产。 实证检验中的test asset都是投资组合而非个股,因为作者们发现,个股的贴现因子是时变的。当然,这个问题在目前大多数资产定价理论中仍是个难点。

  • ► 

    卖空约束。 如果我们真的使用这个方法论去构建投资组合,对于一些需要卖空的个股,往往交易成本很高甚至是无法卖空。

参考资料

[1]

原文: https://doi.org/10.1093/rfs/hhaa020

[2]

原文: https://doi.org/10.1093/rfs/hhv059

[3]

原文: https://doi.org/10.1111/jofi.12883

[4]

原文: https://doi.org/10.2307/1912275

[5]

原文: https://doi.org/10.1016/0304-405X(93)90023-5

[6]

解释: 用来检测财务报表中的会计利润和实现现金利润的比例。因此,较高或显着的应计费用(扣除现金)亦反映操纵盈利的可能性将较大。

[7]

来源: https://doi.org/10.1016/j.jfineco.2019.06.008

gamcing

2021/09/18  阅读:74  主题:自定义主题1

作者介绍

gamcing