Reliable Evaluation of Adversarial Robustness with an Ensemble of Diverse

发表于 2024-08-21 分类于可信人工智能，对抗鲁棒性本文字数： 2.2k

论文

Reliable Evaluation of Adversarial Robustness with an Ensemble of Diverse Parameter-free Attacks

Francesco Croce, Matthias Hein

摘要

领域内防御对抗攻击的方法快速发展，但评估这些防御的方法经常存在不足，容易让人对其鲁棒性产生一个错误的认知。一些防御方法提出后可能不久后又被破解，使其非常难以界定哪个方法是 SOTA。在评估中常常遇到的缺陷是不恰当的超参数调整、梯度混淆和梯度掩蔽。本文首先提出了 PGD-Attack 的两种扩展，克服了步长和目标函数的不恰当导致失败的情况。然后，本文将提出的新方法和已经存在的两种互补的方法组合了起来，构造了一个无参数、计算可负担、用户独立的聚合方法来测试对抗鲁棒性。本文在 50+ 个模型上测试了他们的方法。除了一个案例外，他们都使得这些方法的对抗鲁棒性降低了 10%。

介绍

当前缺少准确评估模型鲁棒性的方法，常用的 PGD 也有失效的时候，本文归因于：

固定步长
交叉熵损失函数的使用

故本文针对以上两个方法分别提出了：

Auto-PGD，无需选择一个步长
一种新的损失函数

这两个新提出的工具形成了两种新的 PGD 变种，唯一的参数是迭代的次数。

另外一个评估中的问题是没有综合多样化的攻击方法来评估。大部分的论文都单纯使用 PGD 甚至是 FGSM 来评估。因此，本论文还结合了白盒攻击的 FAB-Attack 方法和黑盒攻击的 Square Attack 方法来组成一个无参数、计算上可负担、用户独立的攻击方法，将互补的攻击方法结合起来，称为 AutoAttack。

AutoAttack 在大规模的评估中都体现出更强的攻击性，因此作为认为其可以被认为是 SOTA 方法。在检验一种新的防御机制时，至少应该通过 AutoAttack 这种标准的对抗攻击测试。

威胁模型： $l_{p}$ -ball 威胁模型。

\arg max_{k = 1. . K} g_{k} (z) \neq c, | | z - x | |_{p} \leq ϵ and z \in D

Auto-PGD (APGD)

APGD 的出发点是解决 PGD 的两个问题：

PGD 的结果与攻击的预算是无关的（agnostic of the budget），这里的“预算”指的是攻击所能消耗的资源，比如攻击的步数（iterations）或者步长（step size）。也就是说，在大多数情况下，不论给予攻击多少步数或多大的步长，PGD的损失函数（通常是目标模型的分类损失）会在一段时间后趋于稳定，不会继续显著下降。因此，用迭代的次数来衡量一个攻击的强度是错误地。
PGD 是不感知优化的趋势的（unaware of the trend），无论目前的优化到了哪一步，它都无法根据当前的趋势做出调整。

梯度更新（Gradient step）：扰动由两个项组成，一个是经典地由梯度计算的对抗扰动，一个是动量项（momentum term）。

z^{(k + 1)} = P_{S} (x^{(k)} + η^{(k)} \nabla f (x^{(k)}))

x^{(k + 1)} = P_{S} (x^{(k)} + α \cdot (z^{(k + 1)} - x^{(k)}) + (1 - α) \cdot (x^{(k)} - x^{(k - 1)}))

$η^{(k)}$ 第 k 次迭代的步长
$α$ 调节动量项的影响，也就是先前的更新对当前更新的影响

步长选择（Step size selection）：初始步长 $η^{(0)} = 2 ϵ$ ，在 $N_{i t e r}$ 次迭代中设置 $n$ 个检查点（ $w_{1, . ., n}$ ）来检查步长是否需要变化。如果满足以下条件之一，则将步长减半

两个检查点之间有效的（即能够提高目标函数 $f (x)$ 的函数值的）迭代次数比例小于 $ρ$ (0.75)
$\sum_{i = w_{i}}^{w_{j} - 1} 1_{f (x^{(i + 1)}) > f (x^{(i)})} < ρ \cdot (w_{j} - w_{j - 1})$
两个检查点的步长相同，但目标函数在两个检查点时曾达到过的最大值（ $f_{m a x}^{(w_{i})}$ ）没有提升
$η^{(w_{j - 1})} \equiv η^{(w_{j})} and f_{max}^{(w_{j - 1})} \equiv f_{max}^{(w_{j})}$

最优点重启（Restarts from the best point）：如果步长需要减半，则将此时的 $x^{(w_{j} + 1)}$ 设置为 $x_{m a x}$ ，即能够达到最大的目标函数值时自变量的值。

**Exploration vs Exploitation：**算法需要现在整个可行集 $S$ （feasible set）中探索，再逐渐过渡到局部的优化。这种过渡通过逐渐减少步长和决定何时减少步长来实现。也就是较长的步长帮助探索整个可行域（Exploration），较小的步长帮助寻找局部最优解（Exploitation）。这样做的动机在于：

较小的步长会导致目标函数的改进更频繁，但每次改进的幅度较小。
随机重启 (random restarts) 在传统的 PGD 攻击中是有效的，说明了在整个输入空间中进行广泛探索的重要性。

实现以上思想的方法就是设定检查点，并将较优的检查点存储起来。检查点的设置逻辑为：

w_{j} = ⌈ p_{j} N_{i t e r} ⌉ \leq N_{i t e r}, p_{j} \in [0, 1]

p_{j + 1} = p_{j} + max {p_{j} - p_{j - 1} - 0.03, 0.06}

也就是说，第一次设置检查点距离开始时是 $0.22 N_{i t e r}$ ，第二个检查点就是 $0.19 N_{i t e r}$ 次迭代以后。每次检查点设置的间隔要缩小 0.03，但最小不超过 $0.06$ 。这些参数都是固定的，所以 AutoAttack 的唯一参数是 $N_{i t e r}$

Difference of Logits Ratio Loss （DLR）损失

在使用交叉熵损失的时候，对于模型 $h = α g$ （ $g$ 是原始模型， $α$ 是一个常数，也就是将原始模型的所有 Logit 进行缩放）， $α$ 的不同会导致不同的攻击结果。然而，这些模型对于同一个输入都会产生相同的决策，故这种攻击结果依赖于 $α$ 的情况是不合理的。而且较小的 $α$ 还会导致梯度在反向传播的过程中梯度消失，进而导致 PGD 攻击方法的失效。

借鉴于 CW 损失 $CW (x, y) = - z_{y} + max_{i \neq y} z_{i}$ ，作者提出了 DLR 和 Target-DLR 损失：

DLR (x, y) = - \frac{z_{y} - max_{i \neq y} z_{i}}{z_{π_{1}} - z_{π_{3}}}

Targeted-DLR (x, y) = - \frac{z_{y} - z_{t}}{z_{π_{1}} - (z_{π_{3}} + z_{π_{4}}) / 2}

其中， $z_{i}$ 表示对应类别的 logit， $z_{π_{i}}$ 表示第 $i$ 大的 logit。这样的损失具有偏移和缩放不变性（both shift and rescaling invariance），因为缩放时该缩放会同时体现在分母和分子之中，进而在最终的结果中互相抵消。

分母不用 $z_{π_{1}} - z_{π_{2}}$ 是因为 $z_{π_{2}}$ 代表着潜在的可能的对抗性输出，攻击的目的是尽可能地让 $z_{π_{2}}$ 超过 $z_{y}$ (如果分类正确，则 $z_{y} = z_{π_{1}}$ )，所以如果分母用 $z_{π_{1}} - z_{π_{2}}$ 的话，会导致 $z_{π_{2}}$ 变大的时候分母变小，进而使 DLR 趋向于变小，与对抗攻击的目标相反。

在 Targeted-DLR 中使用 $(z_{π_{3}} + z_{π_{4}}) / 2$ 是为了让分母的变化更加稳定。

AutoAttack (AA)

Auto Attack 聚合了多种方法：

$A P G D_{C E}$ 没有随机启动的 APGD 算法，使用损失函数 CE
$A P G D_{D L R}^{T}$ 使用 Targeted-DLR 损失函数的 APGD 算法，针对9种类别（一般是除了正确类别外得分最高的 9 种类别）
$F A B^{T}$ FAB 的有目标攻击版本，针对9种类别
$S q u a r e A t t a c k$ 一种黑盒攻击方法，5000 次查询（白盒攻击方法 100 次迭代）

之所以聚合多种方法是因为：

现有的分类器会导致一些攻击失效，但至少有一种攻击是成功的
尽管不同的攻击方法可能达到近似的攻击效果，但是他们攻击的点是不一样的

之所以采用一些有目标攻击的方法，是因为：

FAB 的有目标攻击版本更加高效。在 FAB 的无目标版本中，它会寻找正确类别相对于其他所有类别的决策边界，并从中选择最近的一个。这导致了 FAB 的无目标攻击在类别总数 $K$ 很大的时候，效率非常低下。而如果采用有目标攻击版本，并限制攻击时考虑的类别数，就可以让其效率与 $K$ 无关
实验上结果确实更优