《保险研究》第九期刊登了中心成员的研究成果《考虑老年痴呆症的医疗险住院费用预测与比较——基于机器学习模型》。该研究成果是3篇医险创新融合研究的第1篇,同时也是医险创新系统的核心技术之一——该系统作为健康财富管理平台的组成部分预计将于2020年底上线。
这篇文章主要利用广义线性模型和三种机器学习模型——Lasso、RF、LightGBM,对老年痴呆症患者住院费用进行估算。虽然机器学习模型的解释性不如传统的广义线性模型,但是文中机器学习模型的拟合效果却普遍优于GLM。最后,文章还对不同年龄段的的个体做费用作出预测,并结合不同的免赔额和自付比例测算了保费。
本文使用的模型是:广义线性模型、Lasoo、随机森林和LightGBM。广义线性模型基于指数族分布,通过联结函数将自变量的线性组合和因变量联系起来,是常用的非寿险定价模型。而且广义线性模型的因变量的方差是其均值的函数,这一特点也很适合保险公司的数据。Lasso回归在目标函数中通过添加正则项(L1范式)有效地解决过拟合、多重共线性问题,还可以实现特征选择的功能。随机森林和LightGBM都是集成学习方法(若对集成学习不了解,可翻至公众号1月19号推文)。RF属于bagging集成学习方法,LightGBM属于boosting集成学习方法。RF简单、容易实现、计算开销小,还可以处理高维度数据,被广泛应用于风险因子重要性测度、准备金相关测算等领域。LightGBM基于 GBDT 数据模型,同时加入了梯度单边采样技术和独立特征合并技术,采用更高效率的叶子生长算法,速度得到很大提升。
文章数据选取2015-2017年来自全国30个省、自治区和直辖市,来自综合医院、脑科专科医院、精神专科医院、其他专科医院等超过600家医院的101,341住院人次。测算费用的变量类型大体分为保单属性、疾病属性、客户属性。具体如下表所示
将上述变量输入GLM模型和机器学习模型,模型预测效果如下表所示:
模型拟合效果对比
GLM相较于OLS虽然在对数据分布的要求上有所降低,但仍需要满足数据服从指数族分布,既定的几种连接函数不一定能够有效捕捉数据的非线性结构,而机器学习模型对数据的分布要求更低,所以GLM的拟合效果不如机器学习模型。从文章中模型拟合结果可以看出,机器学习模型在文中的三个评价指标下都普遍优于GLM。
由于RF是基于决策树模型的集成学习,因此文中还给出了调整并发症前后的RF模型影响因素大小排序,可以看出并发症对住院费用有较大的影响,年龄对费用的影响效果最明显。
随机森林影响因素大小排序( 调整并发症前)
随机森林影响因素大小排序( 调整并发症后)
文章最后两部分对费用和保费做了测算,结果如图所示,从中可以看出随着年龄增加住院费用会不断增长,而免赔额的增加则会大幅降低保费,自付比例的上升也会降低保费。
这篇文章证实机器学习方法能够较为准确地为带病体住院费用进行预测,有利于扩大投保人,为健康险精算定价创新提供了思路。老年性痴呆患病人群数持续增长为照护人带来巨大的精神压力、经济和心理负担,且研究表明老年性痴呆商业保险的覆盖严重不足,因此本文研究还可以帮助创新产品,满足老年人的健康需求,具有重要的实际应用意义。