"); //-->
大数据文摘授权转载自将门创投
作者:Guanchu Wang
论文链接:
https://arxiv.org/abs/2302.03225代码链接:https://github.com/ynchuang/awesome-efficient-xai
什么是可解释机器学习?
实时系统需要怎样的模型解释算法?
虽然解释算法能够客观地反映深度模型的推理依据,但是为每个样本生成解释的过程有相当高的计算复杂度。以目前主流的解释算法为例:Shapley解释如式(1)所示,其中 U 是全部特征组成的集合。计算规模随着特征数量的增多而指数级增长;积分梯度是一种有效的图像解释算法,如式(2)所示。它需要沿着积分路径多次采样模型的梯度值来近似估计积分值。非批量解释的加速方法
非批量解释的加速是指直接加速解释量的估计,即直接加速式(1)以及式(2)或者其他解释量的估计。该类方法可以分为以下几种技术路线:优化特征选取、优化采样过程、基于近似算法加速等。下面详细描述每一种技术路线的代表工作。
优化特征选取: 这类方法通过去掉在Shapley解释的估计过程中影响较小的特征来减少计算复杂度。比较有代表性的工作是 SHEAR [1]。SHEAR 选取每个特征与待估计特征的相互作用强度来选取少量的伴随特征,这样。其他有代表性的工作是 L-Shapley 和 C-Shapley [2]。该工作在图结构的解释中提出两种概念:Local Shapley 和 Connected Shapley,分别指的是每个节点在其所在子图中的贡献以及边缘贡献。L-Shapley 和 C-Shapley 可以通过对邻居节点的枚举快速估计。进一步,该工作指出 L-Shapley 和 C-Shapley 在某些条件下是 Shapley 解释的无偏估计。因此可通过估计 L-Shapley 和 C-Shapley 来近似加速 Shapley 解释。
优化采样过程: 这类方法通过优化采样分布来加速Shapley解释估计的收敛速度。比较有代表性的工作是 APS [3] 和 OSC [4]。APS 的全称是 Antithetical Permutation Sampling。该工作提出一种对称采样策略(Antithetical Sampling)来减小 Permutation Sampling 对于Shapley解释的估计方差,从而加速估计值收敛与Shapley解释;同理,OSC 是 Orthogonal Spherical Codes 的缩写。该方法提出了在希尔伯特空间选取相互正交的特征排序。这种特征排序可以应用到估计Shapley解释中来提高估计值收敛于真值的速度。
基于近似算法加速: 这类方法通过将不可解释的深度模型近似为可解释的模型进而实现快速得到解释。具有代表性的工作是 Tree-SHAP [5] 和 Fast-IG [6]。Tree-SHAP 是针对树模型的解释算法,其时间复杂度是 O(TLD2),其中T、L和D分别是树的数量、平均叶子数和平均深度。实际应用中,可以用树模型来逼近神经网络这类黑盒模型的输出,进而用树模型的解释来代表神经网络的解释;Fast-IG 是一种加速积分梯度的算法。该工作发现具有非负齐次性的模型的积分梯度解释可以通过模型的一次前馈传播估计得到。但是神经网络模型不具有非负齐次的性质,因此该工作提出了将神经网络模型进行适当的近似从而满足非负齐次性,进而实现加速模型解释。基于近似算法的加速由于对原模型进行了一定近似,所以会影响模型的性能(准确率、召回率、F1得分等)。
批量解释的方法
现有工作的局限性及未来研究的难点
结束语
http://128.84.21.203/abs/2302.03225
综述论文所涉及的所有技术论文已被汇总于:https://github.com/ynchuang/awesome-efficient-xai
参考文献
[1] Chuang Y N, Wang G, Yang F, et al. “Efficient XAI Techniques: A Taxonomic Survey.” arXiv preprint arXiv:2302.03225, 2023.
[2] J. Chen, L. Song, M. J. Wainwright, and M. I. Jordan, “L-shapley and c-shapley: Efficient model interpretation for structured data,” arXiv preprint arXiv:1808.02610, 2018.
[3] Rubinstein R Y, Kroese D P. “Simulation and the Monte Carlo method.” John Wiley & Sons, 2016.
[4] R. Mitchell, J. Cooper, E. Frank, and G. Holmes, “Sampling permutations for shapley value estimation,” 2022.
[5] S. M. Lundberg, G. Erion, H. Chen, A. DeGrave, J. M. Prutkin, B. Nair, R. Katz, J. Himmelfarb, N. Bansal, and S.-I. Lee, “From local explanations to global understanding with explainable ai for trees,” Nature machine intelligence, vol. 2, no. 1, pp. 56–67, 2020.
[6] Hesse R, Schaub-Meyer S, Roth S. “Fast axiomatic attribution for neural networks.” Advances in Neural Information Processing Systems, 2021.
[7] Chen J, Song L, Wainwright M, et al. “Learning to explain: An information-theoretic perspective on model interpretation”, International Conference on Machine Learning. PMLR, 2018.
[8] N. Jethani, M. Sudarshan, I. C. Covert, S.-I. Lee, and R. Ranganath, “Fastshap: Real-time shapley value estimation,” in International Conference on Learning Representations, 2021
[9] Yu-Neng Chuang, Guanchu Wang, Fan Yang, Quan Zhou, Pushkar Tripathi, Xuanting Cai, Xia Hu, “CoRTX: Contrastive Framework for Real-time Explanation,” in International Conference on Learning Representations, 2022.
[10] Yang F, Alva S S, Chen J, et al. “Model-based counterfactual synthesizer for interpretation,” Proceedings of the 27th ACM SIGKDD conference on knowledge discovery & data mining. 2021.
[11] Rodriguez, Pau, et al. “Beyond trivial counterfactual explanations with diverse valuable explanations.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.
[12] Chen, Ziheng, et al. “ReLAX: Reinforcement Learning Agent Explainer for Arbitrary Predictive Models.” Proceedings of the 31st ACM International Conference on Information & Knowledge Management. 2022.
[13] Verma, Sahil, Keegan Hines, and John P. Dickerson. “Amortized generation of sequential algorithmic recourses for black-box models.” Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 36. No. 8. 2022.
[14] Lundberg, Scott M., and Su-In Lee. “A unified approach to interpreting model predictions.” Advances in neural information processing systems, 2017.
[15] Ribeiro, Marco Tulio, Sameer Singh, and Carlos Guestrin. “Why should i trust you? Explaining the predictions of any classifier.” Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. 2016.
[16] Sundararajan, Mukund, Ankur Taly, and Qiqi Yan. “Axiomatic attribution for deep networks.” International conference on machine learning. PMLR, 2017.
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。