日前,我司姜富伟教授合作论文《缩放主成分分析:一种新的数据降维算法》(Scaled PCA: A New Approach to Dimension Reduction)被经济管理类国际顶级期刊Management Science接受,反映了我司在金融科技交叉研究领域取得的重要突破和标志成果。姜富伟教授博士毕业于新加坡管理大学,现任我司金融学教授、博士生导师,金融工程系主任。Management Science杂志成立于1954年,由美国运筹学与管理学学会主办,是管理学、运筹学领域历史最悠久、口碑最高的顶级期刊。该杂志每年从全世界收到的论文有1000多篇左右,最终发表率在5%左右,该杂志2020年的影响因子为3.94,近五年影响因子为5.47。
在大数据和人工智能时代,数据信息无所不在。大数据一方面为研究者提供了更丰富的信息,但大数据的高纬度也给研究者带来了困扰,导致模型失效和维度灾难。如何高效地对大数据进行“数据降维”,挖掘出对后续预测最有效的特征信息,消除冗余噪音的不利影响,避免维度灾难,是目前数据科学研究热点和关键。
“主成分分析(PCA)”可能是经济管理领域中最常用的数据降维算法,它通过方差最大化并线性投影,将高维的数据映射到低维的空间表示,并显著减少冗余噪音和维度灾难的影响。主成分分析已成为众多数据驱动的经济管理决策模型不可分割的一部分。但是,姜富伟教授和他的合作者提出并改进了经典主成分分析一个重要的缺陷:经典主成分分析属于无监督学习,其完全忽视了预测目标蕴含的信息。
姜富伟教授借鉴有监督学习,在文章中提出了一种全新的数据降维算法“缩放主成分分析(Scaled PCA)” ,并证明其比经典的主成分分析有更准确的预测效果。不同于经典的主成分分析,缩放主成分分析通过引入预测目标信息,先对原始数据进行方差缩放,再开展因子提取:对那些对目标预测能力强的变量提高权重和方差,但对那些对目标预测能力弱的变量降低权重和方差,从而达到降低那些缺乏预测能力的冗余变量和噪音对数据降维的不利影响的目的。总之,缩放主成分分析可以使用较少的数据维度,最大化保留原始数据中跟目标预测相关的特征信息,从而带来更准确高效的数据降维和预测精度,且算法简洁、容易被人们理解,因此在大数据驱动的经济管理实证研究中将拥有重要的潜在应用价值。
文章从理论和实证两个角度证明缩放主成分分析比经典主成分分析有更好的预测效果。理论上,文章发现,在某些弱因子数据结构下(weak factor),噪音占据原始数据的绝大部分,缩放主成分分析仍可以一致的估计有效因子,但经典主成分分析会完全失效;在强因子数据结构下(strong factor),相较于经典主成分分析,缩放主成分分析小样本性质更好,且会把对目标预测能力强的因子放在更重要的位置。实证上,文章围绕宏观经济增长、失业率、通胀膨胀和金融市场波动风险预测开展实证分析。文章发现,金融波动和通货膨胀预测信息可能属于弱因子,经典主成分分析不能有效提取,但缩放主成分分析可以准确有效提取,因此在开展对金融市场波动风险和通货膨胀的预测时,无论是样本内还是样本外,缩放主成分分析总是可以战胜经典主成分分析;但文章发现,经济增长和失业率预测信息可能属于强因子,两种方法都可以有效提取,但缩放主成分分析在因子数量较少的低维情景和政策实践更重要的样本外情景有更准确的预测效果。