因果公平分析
参考资料:Causal Fairness Analysis (causalai.net)
因果基础知识
SCM
Strutural Causal Model
- V: 内层(endogenous, 观测到的)变量的集合,注意这其中就包含了模型的输出
- U: 外层(exogenous, background)变量的集合。外层变量决定了不同的样本,所以用小写 u 来表示一个确定的样本。
- : 决定 V 的函数集合。,pa(v_i) 表示的是 V 在图中的祖先的取值, 则是影响 V 的外层变量的取值。
- P(u): 的是 U 的分布
一些表示:
-
Naturally, their randomness (encoded in P(u)) induces variations in the endogenous set V .
外层变量的随机性导致了 V 的变化,这种随机性使用 P(u) 来表示。
-
These causal processes – or mechanisms – are assumed to be invariant unless explicitly intervened on
如果不添加显式的干扰,则假定因果机制不会发生变化。
-
注意 SCM 拥有显式的关于因果机制的定义、内层变量、外层变量以及外层变量的分布。
Submodel
若 X 是 V 的子集,且 x 表示 X 的特定取值,那子模型(Submodel) 可以表示为:
-
表示的是固定住 后的因果函数,公式表达为:
也可以表述为将所有与 X 有关的公式都替换为 X=x
In words, the SCM is obtained from M by replacing all equations in F related to variables X by equations that set X to a specific value x.
一些表示:
-
In the context of Causal Fairness Analysis, we might be interested in submodels in which the protected attribute X is set to a fixed value x.
Submodel 的使用意义就在于观测某个属性等于一个固定值的情况。
Potential Response
和 Submodel 密不可分的概念。
令 X 和 Y 作为 V 中的两个子集, Potential Response 是子模型 在 的结果。实际上, 被确定了,即为是一个具体的样本(文中称为 unit)。
Potential Response 也可以写做 Potential outcomes
比如在反事实中,对于同样的一个 ,我们可能会想看 和 时的情况,也就观测 和
注意,在不指定 U 的时候,Potential Resposne 是一个函数如 或 或是其它,表示的是子模型推测 Y 或 Z 的结果。
Observational Distribution
SCM 可诱导(induce)出观测分布。
补充一下概率论的知识:
- 概率质量函数:Probability mass function,有时也称作离散密度函数,其表示的是离散随机变量每个取值的概率。与概率密度函数不同的是,概率密度函数本身并不是概率,其积分才是概率。而概率质量函数本身的概率,是离散随机变量在各特定取值上的概率。

-
总变差:Total Variation,函数的数值变化的差的总和。如下图,绿色点遍历整个函数后,红色点走过的路程即为总变差。在函数为概率质量函数 的时候,若总变差可以计算为 ,由贝叶斯法则,可以进一步拆解为
一个 SCM 诱导了一个联合分布 ,对于 V 的每个子集 Y(通常我们将 Y 作为模型的输出,但模型的输出也是 V 的子集没错),Y 的分布可以表示为:
- 是一个指示函数,当括号内的条件满足时为 1,否则为 0
- 表示的是在确定 后,通过因果机制计算的 的值。
- 表示的是概率质量函数
式子的意思就是对于每个导致 的 ,将它们的概率累加起来。也就是 Y 的分布 P(y),实际上是由 U 的分布 P(U) 决定的。
the probability mass P(U = u) is accumulated for each instantiation U = u consistent with the event Y = y.
为什么明明 Y 只是 V 的子集,为什么不考虑 V \ Y 中的元素对 Y 的影响?
猜测:作者讨论的是仅仅由 Y 作为内层变量,也就是在分析的时候,不考虑 V \ Y 的因素,或者是将他们固定。
在入学的例子中,Y = {性别, 录取结果},可想而知,若要判断入学模型是否包含性别歧视,可以分析 P({男, 录取}) 与 P({女, 录取}) ,从他们的总变差来讨论。此时的 P(u) 即为样本集合中各种各样的人的分布。
Counterfactual Distributions
SCM 可诱导(induce)出反事实分布。
反事实分布。(2022 年提出的概念,比较新,可以注意一下)
若 均是 的子集, 表示的是各种反事实的事件,也就是 是 取反事实的时候 的输出, 也是同理。
- 一个 SCM 上有很多个节点,我们可以让其中一些结点取反事实,记作 A(取不同的结点是一种不同的 A,同样的结点取不同的反事实值也是一种不同的 A),此时 SCM 变成了 Submodel。
- 观察其它一些结点,记作 B,观测 B 的情况,也就是 potential outcome。
- 在图中取多个 A 和多个 B,每一次这样取 A 和 B,都是一种不同的反事实情况,这就是 所表示的意思。
因此,SCM 诱导了反事实联合分布(就是取不同的 和 ,随机变量 , ,… 的联合分布,注意 ):
需要注意的是,我们永远都不可能获得真正的反事实分布。
One significant result in this context is known as the causal hierarchy theorem (CHT, for short), which says that it is almost never possible (in an information-theoretic sense) to recover the counterfactual distribution from the observational distribution alone
Casual Diagram
因果图,常用 表示
-
对于每一个 ,在因果图中都有一个节点
-
如果 是 的参数,则存在一个边
-
如果 和 相关(correlated)或 和 共享某些参数 ,则存在变
1
V_i \dashleftarrow\dashrightarrow V_j
一些表述:
-
there is an edge from an endogenous variable Vi to Vj whenever Vj “listens to” Vi for determining its value.
当 Vj 需要 Vi 来决定它的值的时候,则存在 Vi 到 Vj 的边。
-
the existence of a bidirected edge between Vi and Vj indicates there is some shared, unobserved information affecting how both Vi and Vj obtain their values.
双向边意味着 Vi 和 Vj 共享一些影响着它们的取值的未观测的信息。
-
the causal diagram, on the other hand, encodes information only about which functional arguments were possibly used as inputs to the functions in
因果图编码的是因果机制集合 的函数的可能的输入。
-
因果图中出现的 ,仅仅表明 可能作为 的参数,对于一个实例, 可能会不考虑 的值。
但是因果图中不出现边,则代表着这两个内层变量没有任何关系,这是确定的,在任何情况下都不会成为另一方的函数参数。
所以在确定因果图的时候,应该尽可能地确定更多的因果关系。
SFM
Standard Fairness Model,标准公平性模型。
SFM 的因果图 ,含有内层变量组 ,如下所示:

- X: protected
- Z: confounding,对 X 有影响,但不是通过因果机制影响的
- W: mediator,有可能会被通过因果影响的
- Y: outcome
将一个普通的因果图 投影到 SFM,就是将 中的 V 映射到如上的四个组中,这个过程用 表示。
上述过程也叫 Standardize
SFM 的特点:
- SFM 中并没有考虑 Z 和 W 中的变量之间的因果关系;
- SFM 基于不同变量组之间不存在 confounding 的假设,也就是图中除了 X 和 Z 之间外,没有其它双向箭头。
因果公平基础知识
结构化公平判断准则
-
Structural direct criterion:要求的是 X 不为 Y 的父节点,也就是不直接影响 Y
-
Structual indirect criterion: 要求的是 X 不为 Y 的祖先结点,也就是不间接影响 Y
-
Structual spurious criterion: 要求的是参与决定 X 的变量不参与决定 Y
其中 表示的是从因果图 中去掉所有从 X 出发的边。
the structural spurious criterion verififies whether there exist variables that both causally affect the attribute X and the outcome .
以上准则都是公式结果为 0 时代表符合该准则,反之则为不符合。
公平性度量
-
Admissibility: 若一个公平性度量 对于某个公平性准则 是可接受(admissible)的,则表明
A measure µ is said to be admissible w.r.t. the structural criterion Q within the class of models Ω, or (Q, Ω)- admissible
TV is not admissible w.r.t. Str-DE, IE, SE, but it is decomposable.
-
Decomposability: 可分解性,若一个度量 是可分解的,则表明存在其它度量 可使得 成立。
因果公平分析的基本问题
- 是一系列因果公平准则
- 是个公平性度量
因果公平分析的基本问题(The Fundamental Problem of Causal Fairness Analysis, FPCFA)就是:
- 找到一些列的 ,使得 可分解为
- 对于 是可接受的
如果可以完成以上工作,则可以证明这个该因果机制是公平的
这同时是性质上、数值上的操作, 本身的数值是数值上的, 所代表的实际意义则是性质上的。
事实与反事实偏差
偏差(Variation)的个人理解:偏差就是模型的结果在某些指标上对不同的人群存在明显的差异。比如 P(Y=1| X=男) 和 P(Y=1| X=女) 这两个数值可能存在较大的差异,但是从辛普森悖论来说,单单从这个指标上来看并不能就此确定模型时不公平的。要把它标准化为因果公平分析的基本问题来解决。
Factual & Counterfactual Variations
Contrast
- 是观测到的事实情况(含有多种情况/事件)
- 是施加的干预
- 上面的式子就是对经历 事件的个体,施加 干预,然后观察其输出 ,并将其与 做比较
当
-
,则 Contrast 被称为是反事实的。
就是使得个体经历相同的事件,但是对其值施加不同的影响,来观察其变化
-
,则 Contrast 称为是事实的。
就是使个体经历不同的事件,但对其值施加相同的影响,来观察其变化
在只考虑二元的情况下,也就是上面的 和 中 是二元离散值。Contrast 可写作
上式可分解为反事实 contrast 与事实 contrast

Counterfactual contrast (),也就是 的时候,可以计算为

上述式子将 contrast 和结构化因果模型建立了基本的联系,因为正如前文所述,SCM 本身可诱导出事实分布与反事实分布,与上式中的分布可以相对应。
下面用二段式生成过程(two-step generative process)来解释上面的式子 😄。二段式生成过程:
- Sampling: 取样,也就是一个样本 U=u 从分布 P(u) 中取出的过程。
- Evaluating: 评估,也就是一个确定的样本 u 通过因果机制影响所有内层变量的过程。
上面的式子中:
- 即为取样的过程。 代表的是样本经历过的所有事件,也就是限定取样时样本的条件。当 时,则样本取样完全随机,当 时,则限定样本需要满足哪些条件。可见,在该式中,对所有样本的限定条件是相同的。
- 表示的即为评估的过程。对因果机制施加两种不同的变化,具体来说就是取 SCM 的两个不同的 SubModel。举例来说,就是将 SCM 中 固定为两个不同的值 ,然后观测确定的样本 (注意,只有样本的随机性消失了,也就是样本 确定了,才可以通过因果机制)所产生的不同的 之间的差别,这种差别是样本级别(unit-level)的
- 将所有样本的上述过程计算后加起来,即为整个样本集的 Counterfactual contrast。左式即为在不确定 u 的时候的表达方式。
- 通过上述方法所产生的偏差是通过因果机制产生的,称作 downstream variation。我们可以通过上面的过程,来考量 X 对 Y 的影响。
- 通过在 E 中添加越来越多的限制,我们可以限定取样的人群,从而更为精细地观察该因果机制在指定人群中产生的作用。
Factual contrast (),也就是 的情况,可以计算为

理解了前面的 Counterfactual contrast,也就不难理解 Factual contrast 了。值得一提的是,factual contrast 所代表的偏差,是 non-causal (spurious)的,也就是其不是通过因果机制产生的偏差。但是其也可以用来考量非因果机制的 X 对 Y 的影响。
可解释平面
Explainability plane

上图中,横轴代表的是不同的因果机制(直接、间接、虚假),纵轴代表的不同的人群。随着人群的越来越精细,可以制定越来越有力的公平措施。