因果公平分析

参考资料:Causal Fairness Analysis (causalai.net)

因果基础知识

SCM

Strutural Causal Model

M=<V,U,F,P(u)>\mathcal M = \left< V,U,\mathcal F, P(u)\right>

  • V: 内层(endogenous, 观测到的)变量的集合,注意这其中就包含了模型的输出 YY
  • U: 外层(exogenous, background)变量的集合。外层变量决定了不同的样本,所以用小写 u 来表示一个确定的样本。
  • F\mathcal F: 决定 V 的函数集合。vifi(pa(vi),ui)v_i \larr f_i(\text{pa}(v_i), u_i),pa(v_i) 表示的是 V 在图中的祖先的取值,uiu_i 则是影响 V 的外层变量的取值。
  • P(u): 的是 U 的分布

一些表示:

  • Naturally, their randomness (encoded in P(u)) induces variations in the endogenous set V .

    外层变量的随机性导致了 V 的变化,这种随机性使用 P(u) 来表示。

  • These causal processes – or mechanisms – are assumed to be invariant unless explicitly intervened on

    如果不添加显式的干扰,则假定因果机制不会发生变化。

  • 注意 SCM 拥有显式的关于因果机制的定义、内层变量、外层变量以及外层变量的分布。

Submodel

若 X 是 V 的子集,且 x 表示 X 的特定取值,那子模型(Submodel)Mx\mathcal M_x 可以表示为:

Mx=<V,U,Fx,P(u)>\mathcal M_x = \left< V,U,\mathcal F_x, P(u)\right>

  • Fx\mathcal F_x 表示的是固定住 X=xX=x 后的因果函数,公式表达为:

    Fx={fi:ViX}{Xx}\mathcal F_x = \{f_i:V_i\notin X\} \cup \{X \larr x\}

    也可以表述为将所有与 X 有关的公式都替换为 X=x

    In words, the SCM Mx\mathcal M_x is obtained from M by replacing all equations in F related to variables X by equations that set X to a specific value x.

一些表示:

  • In the context of Causal Fairness Analysis, we might be interested in submodels in which the protected attribute X is set to a fixed value x.

    Submodel 的使用意义就在于观测某个属性等于一个固定值的情况。

Potential Response

和 Submodel 密不可分的概念。

令 X 和 Y 作为 V 中的两个子集, Potential Response Yx(u)Y_x(u) 是子模型 Mx\mathcal M_xU=uU=u 的结果。实际上,U=uU=u 被确定了,即为是一个具体的样本(文中称为 unit)。

Potential Response 也可以写做 Potential outcomes

比如在反事实中,对于同样的一个 U=uU=u,我们可能会想看 X=x1X=x_1X=x2X=x_2 时的情况,也就观测 Yx1(u)Y_{x_1}(u)Yx2(u)Y_{x_2}(u)

注意,在不指定 U 的时候,Potential Resposne 是一个函数如 YxY_xZwZ_w 或是其它,表示的是子模型推测 Y 或 Z 的结果。

Observational Distribution

SCM 可诱导(induce)出观测分布。

补充一下概率论的知识:

  • 概率质量函数:Probability mass function,有时也称作离散密度函数,其表示的是离散随机变量每个取值的概率。与概率密度函数不同的是,概率密度函数本身并不是概率,其积分才是概率。而概率质量函数本身的概率,是离散随机变量在各特定取值上的概率。
Discrete_probability_distrib.svg
  • 总变差:Total Variation,函数的数值变化的差的总和。如下图,绿色点遍历整个函数后,红色点走过的路程即为总变差。在函数为概率质量函数 Y=P(X),x[x0,x1]Y = P(X), x\in[x_0, x_1] 的时候,若总变差可以计算为 P(yx1)P(yx0)P(y|x_1) - P(y|x_0),由贝叶斯法则,可以进一步拆解为 P(y,x1)P(x1)P(y,x0)P(x0)\frac{P(y,x_1)}{P(x_1)} - \frac{P(y,x_0)}{P(x_0)}

    Total_variation

一个 SCM 诱导了一个联合分布 P(v1,v2,...,vn)P(v_1, v_2, ... ,v_n),对于 V 的每个子集 Y(通常我们将 Y 作为模型的输出,但模型的输出也是 V 的子集没错),Y 的分布可以表示为:

PM(y)=u1(Y(u)=y)P(u)P^{\mathcal M}(y) = \sum_u \mathbb 1(Y(u)=y)P(u)

  • 1()\mathbb 1(\cdot) 是一个指示函数,当括号内的条件满足时为 1,否则为 0
  • Y(u)Y(u) 表示的是在确定 U=uU=u 后,通过因果机制计算的 KK 的值。
  • P(u)P(u) 表示的是概率质量函数 P(U=u)P(U=u)

式子的意思就是对于每个导致 Y=yY=yU=uU=u,将它们的概率累加起来。也就是 Y 的分布 P(y),实际上是由 U 的分布 P(U) 决定的。

the probability mass P(U = u) is accumulated for each instantiation U = u consistent with the event Y = y.

为什么明明 Y 只是 V 的子集,为什么不考虑 V \ Y 中的元素对 Y 的影响?

猜测:作者讨论的是仅仅由 Y 作为内层变量,也就是在分析的时候,不考虑 V \ Y 的因素,或者是将他们固定。

在入学的例子中,Y = {性别, 录取结果},可想而知,若要判断入学模型是否包含性别歧视,可以分析 P({男, 录取}) 与 P({女, 录取}) ,从他们的总变差来讨论。此时的 P(u) 即为样本集合中各种各样的人的分布。

Counterfactual Distributions

SCM 可诱导(induce)出反事实分布。

反事实分布。(2022 年提出的概念,比较新,可以注意一下)

X,Y,W,ZX,Y,W,Z 均是 VV 的子集,Yx,,ZwY_x, \dots, Z_w 表示的是各种反事实的事件,也就是 YxY_xXX 取反事实的时候 YY 的输出,ZxZ_x 也是同理。

  1. 一个 SCM 上有很多个节点,我们可以让其中一些结点取反事实,记作 A(取不同的结点是一种不同的 A,同样的结点取不同的反事实值也是一种不同的 A),此时 SCM 变成了 Submodel。
  2. 观察其它一些结点,记作 B,观测 B 的情况,也就是 potential outcome。
  3. 在图中取多个 A 和多个 B,每一次这样取 A 和 B,都是一种不同的反事实情况,这就是 Yx,,ZwY_x, \dots, Z_w 所表示的意思。

因此,SCM 诱导了反事实联合分布(就是取不同的 A1,A2,,AnA_1, A_2, \dots,A_nB1,B2,,BnB_1, B_2, \dots,B_n,随机变量 S1=<A1,B1>S_1=\left<A_1, B_1\right>S2=<A2,B2>S_2=\left<A_2, B_2\right>,… 的联合分布,注意 AiBiVA_i \cup B_i \sube V ):

PM(yx,,zw)=u1(Yx(u)=y,,Zw(u)=z)P(u)P^{\mathcal M}(y_x,\dots,z_w) = \sum_u\mathbb{1}(Y_x(u)=y,\dots,Z_w(u)=z)P(u)

需要注意的是,我们永远都不可能获得真正的反事实分布。

One significant result in this context is known as the causal hierarchy theorem (CHT, for short), which says that it is almost never possible (in an information-theoretic sense) to recover the counterfactual distribution from the observational distribution alone

Casual Diagram

因果图,常用 G\mathcal G 表示

  1. 对于每一个 ViVV_i \in V,在因果图中都有一个节点

  2. 如果 ViV_ifjf_j 的参数,则存在一个边 ViVjV_i \rarr V_j

  3. 如果 UiU_iUjU_j 相关(correlated)或 fif_ifjf_j 共享某些参数 UijUU_{ij} \in U,则存在变 ViVjV_i \dashleftarrow\dashrightarrow V_j

    1
    V_i \dashleftarrow\dashrightarrow V_j

一些表述:

  • there is an edge from an endogenous variable Vi to Vj whenever Vj “listens to” Vi for determining its value.

    当 Vj 需要 Vi 来决定它的值的时候,则存在 Vi 到 Vj 的边。

  • the existence of a bidirected edge between Vi and Vj indicates there is some shared, unobserved information affecting how both Vi and Vj obtain their values.

    双向边意味着 Vi 和 Vj 共享一些影响着它们的取值的未观测的信息。

  • the causal diagram, on the other hand, encodes information only about which functional arguments were possibly used as inputs to the functions in F\mathcal F

    因果图编码的是因果机制集合 F\mathcal F 的函数的可能的输入。

  • 因果图中出现的 ViVjV_i \rarr V_j,仅仅表明 ViV_i 可能作为 fjf_j 的参数,对于一个实例, fif_i 可能会不考虑 ViV_i 的值。

    但是因果图中不出现边,则代表着这两个内层变量没有任何关系,这是确定的,在任何情况下都不会成为另一方的函数参数

    所以在确定因果图的时候,应该尽可能地确定更多的因果关系。

SFM

Standard Fairness Model,标准公平性模型。

SFM 的因果图 GSFM\mathcal G_{SFM},含有内层变量组 {X,Z,W,Y}\{X,Z,W,Y\},如下所示:

image-20230731113846130
  • X: protected
  • Z: confounding,对 X 有影响,但不是通过因果机制影响的
  • W: mediator,有可能会被通过因果影响的
  • Y: outcome

将一个普通的因果图 G\mathcal G 投影到 SFM,就是将 G\mathcal G 中的 V 映射到如上的四个组中,这个过程用 ΠSFM(G)\Pi_{SFM}(\mathcal G) 表示。

上述过程也叫 Standardize

SFM 的特点:

  1. SFM 中并没有考虑 Z 和 W 中的变量之间的因果关系;
  2. SFM 基于不同变量组之间不存在 confounding 的假设,也就是图中除了 X 和 Z 之间外,没有其它双向箭头。

因果公平基础知识

结构化公平判断准则

  • Structural direct criterion:要求的是 X 不为 Y 的父节点,也就是不直接影响 Y

    Str-DEX(Y)=1(Xpa(Y))\text{Str-DE}_X(Y) = \mathbb1(X\in \text{pa}(Y))

  • Structual indirect criterion: 要求的是 X 不为 Y 的祖先结点,也就是不间接影响 Y

    Str-IEX(Y)=1(Xan(pa(Y)))\text{Str-IE}_X(Y) = \mathbb1(X\in \text{an}(\text{pa}(Y)))

  • Structual spurious criterion: 要求的是参与决定 X 的变量不参与决定 Y

    Str-DEX(Y)=1((UXan(Y))(an(X)anGX(Y)))\text{Str-DE}_X(Y) = \mathbb1\left(\left( U_X \cap \text{an}(Y) \neq \empty) \vee (\text{an}(X) \cap \text{an}_{\mathcal G_{\underline X}}(Y)\neq \empty\right)\right)

    其中 GX\mathcal G_{\underline X} 表示的是从因果图 G\mathcal G 中去掉所有从 X 出发的边。

    the structural spurious criterion verififies whether there exist variables that both causally affect the attribute X and the outcome .

以上准则都是公式结果为 0 时代表符合该准则,反之则为不符合。

公平性度量

  • Admissibility: 若一个公平性度量 μ\mu 对于某个公平性准则 QQ 是可接受(admissible)的,则表明 Q(M)=0μ(M)=0Q(\mathcal M) = 0 \rarr \mu(\mathcal M)=0

    A measure µ is said to be admissible w.r.t. the structural criterion Q within the class of models Ω, or (Q, Ω)- admissible

    TV is not admissible w.r.t. Str-DE, IE, SE, but it is decomposable.

  • Decomposability: 可分解性,若一个度量 μ\mu 是可分解的,则表明存在其它度量 μ1,μ2,,μk\mu_1, \mu_2, \dots, \mu_k 可使得 μ=f(μ1,,μk)\mu = f(\mu_1,\dots,\mu_k) 成立。

因果公平分析的基本问题

  • Q1,,QkQ_1, \dots, Q_k 是一系列因果公平准则
  • μ\mu 是个公平性度量

因果公平分析的基本问题(The Fundamental Problem of Causal Fairness Analysis, FPCFA)就是:

  • 找到一些列的 μ1,μ2,,μk\mu_1, \mu_2,\dots,\mu_k,使得 μ\mu 可分解为 μ1,μ2,,μk\mu_1, \mu_2,\dots,\mu_k
  • μ1,μ2,,μk\mu_1, \mu_2,\dots,\mu_k 对于 Q1,,QkQ_1, \dots, Q_k 是可接受的

如果可以完成以上工作,则可以证明这个该因果机制是公平的

这同时是性质上、数值上的操作,μi\mu_i 本身的数值是数值上的,μi\mu_i 所代表的实际意义则是性质上的。

事实与反事实偏差

偏差(Variation)的个人理解:偏差就是模型的结果在某些指标上对不同的人群存在明显的差异。比如 P(Y=1| X=男) 和 P(Y=1| X=女) 这两个数值可能存在较大的差异,但是从辛普森悖论来说,单单从这个指标上来看并不能就此确定模型时不公平的。要把它标准化为因果公平分析的基本问题来解决。

Factual & Counterfactual Variations

Contrast C\mathcal C

C(C0,C1,E0,E1)=E[yC1E1]E[yC0E0]\mathcal C(C_0,C_1,E_0,E_1) = \mathbb E[y_{C_1}|E_1] - \mathbb E[y_{C_0}|E_0]

  • E0,E1E_0,E_1 是观测到的事实情况(含有多种情况/事件)
  • C0,C1C_0,C_1 是施加的干预
  • 上面的式子就是对经历 E0E_0 事件的个体,施加 C0C_0 干预,然后观察其输出 yC0y_{C_0},并将其与 yC1y_{C1} 做比较

  • E0=E1E_0 = E_1 ,则 Contrast 被称为是反事实的。

    就是使得个体经历相同的事件,但是对其值施加不同的影响,来观察其变化

  • C0=C1C_0=C_1,则 Contrast 称为是事实的。

    就是使个体经历不同的事件,但对其值施加相同的影响,来观察其变化

在只考虑二元的情况下,也就是上面的 [yC1E1][y_{C_1}|E_1][yC0E0][y_{C_0}|E_0]yy 是二元离散值。Contrast 可写作

P(yC1E1)P(yC0E0)P(y_{C_1} | E_1) - P(y_{C_0} | E_0)

上式可分解为反事实 contrast 与事实 contrast

image-20230804183409956

Counterfactual contrast (Cctf\mathcal C_{ctf}),也就是 E0=E1=EE_0 = E_1 = E 的时候,可以计算为

image-20230806220143663

上述式子将 contrast 和结构化因果模型建立了基本的联系,因为正如前文所述,SCM 本身可诱导出事实分布与反事实分布,与上式中的分布可以相对应。

下面用二段式生成过程(two-step generative process)来解释上面的式子 😄。二段式生成过程:

  • Sampling: 取样,也就是一个样本 U=u 从分布 P(u) 中取出的过程。
  • Evaluating: 评估,也就是一个确定的样本 u 通过因果机制影响所有内层变量的过程。

上面的式子中:

  • P(uE)P(u|E) 即为取样的过程。EE 代表的是样本经历过的所有事件,也就是限定取样时样本的条件。当 E={}E=\{\} 时,则样本取样完全随机,当 E={X=x,}E=\{X=x,\dots\} 时,则限定样本需要满足哪些条件。可见,在该式中,对所有样本的限定条件是相同的
  • yC1(u)yC0(u)y_{C_1}(u)-y_{C_0}(u) 表示的即为评估的过程。对因果机制施加两种不同的变化,具体来说就是取 SCM 的两个不同的 SubModel。举例来说,就是将 SCM 中XVX\in V 固定为两个不同的值 C0,C1C_0, C_1,然后观测确定的样本 uu(注意,只有样本的随机性消失了,也就是样本 uu 确定了,才可以通过因果机制)所产生的不同的 yy 之间的差别,这种差别是样本级别(unit-level)的
  • 将所有样本的上述过程计算后加起来,即为整个样本集的 Counterfactual contrast。左式即为在不确定 u 的时候的表达方式。
  • 通过上述方法所产生的偏差是通过因果机制产生的,称作 downstream variation。我们可以通过上面的过程,来考量 X 对 Y 的影响。
  • 通过在 E 中添加越来越多的限制,我们可以限定取样的人群,从而更为精细地观察该因果机制在指定人群中产生的作用。

Factual contrast (Cfactual\mathcal C_{factual}),也就是 C0=C1=CC_0 = C_1 = C 的情况,可以计算为

image-20230806220237293

理解了前面的 Counterfactual contrast,也就不难理解 Factual contrast 了。值得一提的是,factual contrast 所代表的偏差,是 non-causal (spurious)的,也就是其不是通过因果机制产生的偏差。但是其也可以用来考量非因果机制的 X 对 Y 的影响。

可解释平面

Explainability plane

image-20230806225104072

上图中,横轴代表的是不同的因果机制(直接、间接、虚假),纵轴代表的不同的人群。随着人群的越来越精细,可以制定越来越有力的公平措施。