点击上方蓝字关注,更多干货等你挖掘!预测模型发文量与日俱增,伴随而来,其可解释性也得到越来越多关注。
什么是可解释性?目前尚无标准定义。在可解释性研究中,interpretable和explainable常交替使用。但两者也存在细微差别,前者主要指的是模型预测被人们理解的程度,而后者更关注模型的内部机制和决策逻辑。
可解释性研究方法众多,了解其分类具有重要意义。一般来说,按照模型解释阶段,可将其分为事前解释性和事后解释性。前者指的是内在具备可解释能力的模型,即自解释模型,这类模型一般结构简单,本身就具有解释能力,比如回归模型、决策树模型等;后者指的是本身不具备自解释能力的模型,其一般在训练完之后,采用其他可解释性框架来评价预测因素的重要性,例如大家耳熟能详的SHAP,以及深度学习中的类激活图(class activation map)等。
可解释性技术也可分为模型特定的方法和非模型特定的方法。前者往往在模型设计时,已经将可解释性方法嵌入其中,因此,只有那些嵌入了可解释性的模型才可进行重要性分析,比如回归模型的回归系数、决策树模型的feature importance等;后者指的是无论哪种模型,不管其复杂度多高,都可以开展变量重要性分析的可解释性技术,例如SHAP等。
除此之外,可解释性还可按照解释的对象进行划分。如果关注的是单一个体,则称之为"局部可解释性";如果关注的是所有研究对象,则称之为"全局可解释性"。这类可解释性方法提供的内容更全面,以SHAP最为常用。
下图展示了常用机器学习模型的可解释性与模型性能之间的关系。不言而喻,性能和可解释性无法两全,必须找到两者的平衡点,或者看你更关注哪个维度。
下图给出了几个可解释性的案例,A图是基于深度学习的可解释性,B和C则是基于结构化数据的可解释性。在深度学习中,尤其是基于图像的预测,可以通过可解释性明晰图像中哪些部位,对预测具有更高的价值。在结构化数据预测中,B图的SHAP应用最为广泛,C图是非模型特定的解释方法LIME,同时也是一种局部可解释性技术。
下图展示了图像预测研究可解释性的两种常见策略。其一,直接用图像做预测,这时CNN是主要模型,其对应的可解释性技术包括类激活图(CAM)等;其二,基于结构化数据的预测。但是,图像预测如何转化为结构化预测?这里有两种思路,一种是基于图像提取常规的指标,如心室体积等;另一种是基于影像组学的结构化预测,影像组学是当下开展影像学研究的重要方向,其可以提取图像中的多维特征,如形状特征、一阶特征、纹理特征等。既然将图像处理成了结构化指标,那该类研究往往会在此基础上,进一步应用传统机器学习模型构建预测模型,进而开展可解释性分析,而SHAP则是最常用的可解释性技术。
下表展示了常用的可解释性技术,既有基于深度学习的,也有基于结构化预测的。如果对某个方法感兴趣,可进一步深入研究。
本文附件给出了常见可解释性工具的学习资料,需要学习的可以认真研究下~
Reference: Explainable Artificial Intelligence and Cardiac Imaging: Toward More Interpretable Models 一点统计 统计学习第一站,陪有梦想的你一起成长,每晚22点22分准时分享。
265篇原创内容
公众号
,