公平机器学习入门

发表于 2023-07-08 分类于可信人工智能，公平性本文字数： 2.8k

基本概念

能够确保每个人都有平等的机会获得一些利益的行为，称为公平的行为，或者称这样的行为具有公平性。

不能够确保每个人平等地获得一些利益，使得弱势群体的利益受到损害的行为，称为不公平的行为，或者称这样的行为具有不公平性。

不公平的行为又称为具有偏见的行为或者歧视的行为。

如果机器学习的预测或决策结果能够确保每个人都有平等的机会获得一些利益，就称该机器学习具有公平性，并称之为公平机器学习。

不同文化具有不同偏好和观点视角，导致了人们对公平存在多种不同的理解方式。目前还没有公平性的普适定义，为了满足各种应用需求，产生了各种各样的公平性定义和概念。

歧视的类型

刻画歧视：行为、情况、歧视谁

直接性歧视（Direct Discrimination）：某些属性是受保护的，若因为这些受保护的属性影响模型结果，则称为直接性歧视。
间接性歧视（Indirect Discimination）：没有直接使用受保护的属性，但是由于不同属性之间存在隐性的关联，进而还是导致受保护属性会影响模型的结果。间接性歧视亦被称为不平等影响（Disparate Imapact）
可解释性歧视（Explainable Discimination）：歧视的行为是可以解释的，如在某些案例中的某些属性得到合理的解释。
不可解释性歧视（Explainable Discimination）：歧视的行为是不可解释的，是不合理的

Interpretability：表示模型固有的性质，即模型自身的决策过程对人类来说即是可理解的，例如（广义）线性模型、决策树等等；

Explainability：表示对模型决策过程的事后（post hoc）可重建性，而模型本身的决策可以是黑盒、不透明的，这种重建的解释不一定和真实的模型决策一致。
系统性歧视（Systematic Discrimination）：系统性歧视是受到根植于文化或政治制度中的某些政策和习俗的影响，所导致的对某些群体的长期或永久性的歧视。如在某个场景下，以当前的文化或政治制度，更清晰于选择某一类型的人群，进而导致了其它类型的人群被歧视。
统计性歧视（Statistical Discrimination）：使用群体统计数据的平均特征，对属于该群体的个人进行评测并给出决策，由此所产生的歧视，称为统计性歧视。即用总体的特征来进行个体的决策，然而个体的特征并非总是与整体保持一致，进而对其造成了统计性歧视。

公平性的度量

引入符号：

$X$ 表示个体的所有属性；
$G$ 表示受保护或敏感属性；
$Y$ 表示真实的分类结果， $c$ 表示 $Y$ 中的一个元素，即某个类别；
$S$ 表示某一个分类 $c$ 的预测概率 $P (Y = c | G, X)$
$d$ 表示预测结果，由 $S$ 导出，如当 $S > a$ 时， $d = 1$

统计度量

定义并考虑了受保护的属性，但忽略了其他属性，可能隐藏不公平。正如前文所说的“间接性歧视”。

基于预测结果

统计公平（Statistical Parity）：受保护与非受保护群群体拥有相同的正类预测概率
$P (d = 1 | G = m) = P (d = 1 | G = f)$
- $G$ 表示受保护或敏感的属性
- $Y$ 表示分类结果
- $d$ 表示预测结果（非概率，通常由概率导出，如当概率超过 0.5 的时候另 $d$ = 1）
- $S$ 表示某一分类 $c$ 的预测概率，即 $P (Y = c | G, X)$
条件统计公平（Conditional Statistical Parity）：当某个属性 $L \subseteq X$ 时（所谓条件），拥有相同的正类预测概率
$P (d = 1 | L, G = m) = P (d = 1 | L, G = f)$

基于预测和真实结果：

预测公平（Predictive Parity）：又称为结果检验（Outcome Test），即受保护群体与非受保护群体的查准率 $P P V = T P / (T P + F P)$ 相等。
$P (Y = 1 | d = 1, G = m) = P (Y = 1 | d = 1, G = f)$
假阳性率平衡（False Positive Error Rate Balance）：又称预测平等（Predictive Equality），即假阳性率 $F P R = F P / (F P + T N)$ 相等。
$P (d = 1 | Y = 0, G = m) = P (d = 1 | Y = 0, G = f)$
假阴性率平衡（False Neigative Error Rate Balance）：又称平等机会（Equal Opportunity），即假阴性率 $F N R = F N / (T P + F N)$ 相等。
$P (d = 0 | Y = 1, G = m) = P (d = 0 | Y = 1, G = f)$
条件过程精准度平等（Conditional Procedure Accuracy Equality）：真阳性率（召回率、查全率） $T P R = T P / (T P + F N)$ 相等、假阳性率 $F P R = F P / (F P + T N)$ 相等。
$P (d = 1 | Y = i, G = m) = P (d = 1 | Y = i, G = f) ， i \in {0, 1}$
条件使用精准度平等（ Conditional Use Accuracy Equality）：阳性预测率 $P P V = T P / (T P + F P)$ 相等、阴性预测率 $N P V = T N / (T N + F N)$ 相等。
$\begin{aligned} P (Y = 1 | d = 1, G = m) & = P (Y = 1 | d = 1, G = f) \\ \land \\ P (Y = 0 | d = 0, G = m) & = P (Y = 0 | d = 0, G = f) \end{aligned}$
总体精准度平等（Overall Accuracy Equality）：总体精准度（即准确率，Overall Accuracy）相等。
$P (d = Y, G = m) = P (d = Y, G = f)$
处置平等（Treatment Equality）： $F P R = F P / (F P + T N)$ 相等、 $F N R = F N / (T P + F N)$ 相等。可以看到处置平等更强调“平等地错误”
$\begin{aligned} P (d = 1 | Y = 0, G = m) & = P (d = 1 | Y = 0, G = f) \\ \land \\ P (d = 0 | Y = 1, G = m) & = P (d = 0 | Y = 1, G = f) \end{aligned}$

基于预测概率和真实结果

与上面的“基于预测和真实结果”不同的是，此时度量考虑的是模型的输出为概率的情况。

检验公平（Test-fairness）：若模型输出的概率相同，则此时不同群体为正样本的概率相同。
$P (Y = 1 | S = s, G = m) = P (Y = 1 | S = s, G = f)$
良态校准（Well-calibration）：模型给出的结果是样本属于真实正类的概率 $S$ ，这个 $S$ 在受保护群体和非受保护群体中是相同的。
$P (Y = 1 | S = s, G = m) = P (Y = 1 | S = s, G = f) = s$
正类平衡（Balance for Positive Class）：不同群体被预测为正类的平均概率相同
$E (S | Y = 1, G = m) = E (S | Y = 1, G = f)$
负类平衡（Balance for Positive Class）：不同群体被预测为负类的平均概率相同
$E (S | Y = 0, G = m) = E (S | Y = 0, G = f)$

以相似性度量

相比统计性度量，相似性度量考虑了非敏感属性。

因果歧视（Causal Discrimination）：具有相同属性 $X$ 的个体，其预测却不同
无意识公平（Fairness Through Unawareness）：决策过程中没有直接使用受保护属性
有意识公平（Faireness Through Awareness）：相似的个体具有相似的预测，通过距离来度量相似性，个体预测之间的距离应不大于个体之间的距离

以因果推理定义
反事实公平（Counterfactual Fairness）：个体的预测在不同反事实场景中保持不变。具体体现为预测结果不依赖受保护属性的后代。
无非解析歧视（No Unresolved Discrimination）：因果图中不存在从保护属性出发到预测结果的路径，或者存在通过解析属性（解析属性是受保护属性以非歧视方式影响的属性，与派生其它属性的代理属性不同）的路径。
无代理歧视（No Proxy Discrimination）：因果图中不存在从受保护属性到预测结果且通过代理属性的路径。
推论公平（Fair Inference）：不存在从受保护属性到预测结果的不合法（可以有合法的）路径。

偏见

偏见（Bias）是引发不公平的主要来源

数据偏见

历史偏见：文化习俗渗透到数据中，无论如何采样都难以避免。
群体偏见：采样时和应用时的目标群体不同。
测量偏见：在测量的时候选择感兴趣的属性，测量的过程又有噪音。
聚合偏见：不同的群体采用单一的通用模型。
表示偏见：训练数据不能覆盖预测空间，某些样本没有得到足够的表示。
时序偏见：数据随时间变化而不同，因时间变化而导致的偏见。

算法类偏见

评测偏见：算法评测时使用的测试数据不当，不能完全代表目标群体。
部署偏见：模型预期要解决的问题和实际使用时不一样。
浮现偏见：社会价值观的改变，原本不算偏见的行为变成了偏见。
排名偏见：信息检索、推荐系统中的排名顺序，也是一种偏见。
因果偏见：将关联误认为是因果。
遗漏变量偏见：模型设计时遗漏了重要的变量。

人机交互类偏见

行为偏见：不同场景、不同人的行为所产生的偏见。如网页查询倾向于推荐用户所关注的主题。
社交偏见：一个群体的行为、观点、判断影响到其他个体的行为、观点、判断。如少数的用户发布了多数的帖子。
自选择偏见：研究对象自身选择带来的偏见。如受试者不愿意参与问卷调查等。
呈现偏见：信息呈现方式嗲来的偏见。
内容偏见：内容的结构、词法、语法、语义差异引发的偏见。如不同国家的人使用的语法不同，如果这对用户分类带来偏见则为内容偏见。
链接偏见：从用户行为建立的社会网络特征与真实特征的差异称为链接偏见。如从用户的活跃状态来判断用户的性格等，用户可能在现实生活中非常开朗，但由于生活较忙较少活跃于线上。

不公平的发现

关联规则挖掘方法

基本思想：历史决策记录中的决策规则可视为历史决策记录数据的分类规则，该规则拥有置信度。而其置信度表示了在给定前提条件下得出决策的概率，决策中使用的事实包含潜在歧视项和非潜在歧视项，前者是受保护的属性，后者是决策时的场景特征。

提取历史决策记录数据中的分类规则（可能是各种形式，如 Apriori 算法的频繁项集、决策树的决策路径等），就可以获得隐藏在数据集中的决策规则。

依据所抽取的决策规则的前提条件中歧视项所引起的置信度增益来判断该规则歧视与否。

直接性 $α$ 歧视：

elift (A, B \rarr C) = \frac{Conf (A, B \rarr C)}{Conf (B \rarr C)} \geq α \geq 0

$α$ ：预设的阈值
$Conf (\cdot)$ ：置信度
$A$ ：歧视项
$B$ ：非歧视项
$C$ ：分类项（一个类别）
$(A, B \rarr C)$ 从 $A$ 和 $B$ 决策出 $C$ 的分类规则

若是 $< α$ ，则为 $α$ 防护的。