Invariant Risk Minimization (IRM)
Invariant Risk Minimization
入门
机器学习虽然可以学习到复杂的预测规则,但是容易受到数据中的偏差和虚假关联(spurious)的影响,使其难以达成人工智能的最终目标。这个问题已经被前人使用因果推断研究过,IRM 利用因果工具进一步发展了虚假关联和不变关联(invariant correlation)的数学理论,目标是降低机器学习对数据的过度依赖,提高机器学习模型在新的测试分布上的泛化性。
**虚假关联(spurious correlation):在未来不应该保持和过去一样方式的关联,不表现为稳定的性质(stable properties)。**而现有的数据集都不能够在发现稳定性质上起到amenable(经得起考验的、负责的)的作用。因为在我们利用这些数据时,我们常常将其随机地打乱并划分为训练集和测试集,这种划分基于机器学习通用的假设,即测试数据和训练数据独立地采样自同一分布。然而,打乱数据导致了我们无法观测到在分布变化的过程中,哪些性质是不变的,哪些是虚假的。
本文提出了帮助实现 OOD 泛化的范例:Invariant Risk Minimization (IRM),IRM 基于这样的原则:为了学习到在所有环境中的不变性,我们需要找到一种数据表示,使在这种数据表示上最优的分类器能够匹配所有的环境
环境与泛化
将
例 1: 考虑一个
对于这样的系统,环境可以是对
为了预测
- 用
回归,得到 且 。 - 用
回归,得到 且 。 - 用
回归,得到 且 。
可以看到,只有第一种情况得到的系数是不受环境影响的(即不变性)。而第二种和第三种回归方式得到的系数都会受到环境影响,进而使其不满足在新的环境下的预测规则。当然,我们也可以不依靠任何特征来直接猜测
为什么现有的技术学习不到不变性?
-
大部分的机器学习普遍使用的是经验风险最小化(Empirical Risk Minimization)原则,在这种情况下,如果环境中的方差
较大,会导致模型对 赋予更大的系数(因为 的第二项的方差只有 1 而 的第二项方差 很大,导致使用 来预测时误差很大),而这违背了不变性原则,因为对 的系数是受到 影响的。 -
即便我们使用鲁棒性学习目标,即
,其中 表示环境基线(enviroment baselines)。这样的目标用于最小化跨环境误差的最大值(minimizing the maximum error across enviroments)。然而,其等价于最小化环境的加权平均误差。和使用 ERM 的方法一样,它也没有办法发现我们期望的不变性。 给定 Karush-Kuhn-Tucker (KKT)条件, 存在
使得 的最小值是 的一阶驻点。
为了解决现有的机器学习无法建立 invariant predictors 的问题,作者提出了 Invariant Risk Minimization (IRM)
Invariant Risk Minimization
统计用语上,IRM 的目标是学习在不同训练环境中不变的关联。也就是找到一种数据表示(data representation),使在这种数据表示上最优的分类器能够匹配所有的环境
Invariant predictor 定义 如果存在一个分类器
上诉定义等价于学习与标签变量拥有稳定关联(stable correlation)的特征。
IRM 就是一种用来得到能够引发invariant predictor的数据表征学习方式,其目标可以在数学上表示为一个带约束的优化问题如下:
这个问题难以求解,进一步发展出了IRMv1:
也就是变成了一个多目标优化的形式,其中
IRMv1 将 IRM 变成了一个惩罚项,可以用损失函数的形式表示如下: