图像识别技术是近年来人工智能蓬勃发展的重要推手,其主要特点是通过卷积来进行特征提取。本期我们将讨论一篇基于PCANet的价值成长多因子选股模型的论文。这篇文章首次将PCANet深度架构应用于量化选股中,一方面将金融时间序列预测问题转变为图像分类问题,另一方面将PCA用于深度架构提供可解释性,是中国金融科技研究中心有关量化投资的一部分。
PCANet模型原理
本文使用模型为PCANet模型,遵循CNN的思路,但卷积核使用主成分分析核来组成,非线性层使用哈希算法,最后的特征使用直方图统计来完成。
与传统的CNN相比,PCANet参数少,训练时间短,识别效果好,在经典图像分类问题上有着优秀的表现。
图a 经典CNN的示意图
图b PCANet的示意图
量化选股模型构建
因子图片的生成
考虑到PCANet和CNN都具有处理二维数据的特性,可以将个股的因子数据组织成类似于图片的二维数据,考虑一定长度的历史截面期,那么对于该个股来说,就可以得到一张个股的因子图片,该个股对应一个t时间的超额收益率Rt来作为标签。
如果在一个截面上有300只股票,这样在每个月的截面上,我们就可以得到300张股票的因子图片,以及其所对应的标签。这种数据处理方式很好地将一维时间序列转换为二维的图片形式。
模型回测
为了评价PCANet策略的选股表现,我们使用PCANet和CNN对训练集的数据价PCANet策略的选股表现,我们使用PCANet和CNN对训练集的数据价PCANet策略的选股表现,我们使用PCANet和CNN对训练集的数据为了评价PCANet策略的选股 表现,我们使用了PCANet和CNN对训练集的数据进行训练,使用了线性回归模型对训练集的数据进行回归。将3种模型在WindQuant平台上进行回测,基准设置为沪深300股指,在时间段2015-07-01至2017-06-30两年的时间进行了选股回测。由于PCANet和CNN均可输出每个分类的概率,根据输出结果的上涨概率,比较选取上涨概率排名前十的股票构成组合。对于线性回归模型,选取预测超额收益 收益率最高的前十股票构成组合。换仓方面,在每个自然月的最后一个交易日核算因子值,卖掉当月所持有的10只股票;在下个自然月的首个交易日按照收盘价买入预测的十只股票进行换仓,每个股票设置等权重调仓。具体的回测结果如下所示
结论
PCANet能够有限地杂糅因子数据,PCA卷积核能通过筛选因子图片中方差解释性较大的因子,来达到抵消风险,从而获得稳定收益。
实际训练表明,对金融数据来说,使用PCANet的深度学习所需要占用的计算量较小,且不需要复杂的调参过程。