手推 XGBoost 损失函数

发表于 2025-07-03 分类于机器学习本文字数： 1.8k

前言

在集成学习的博客中，我推导了一次 XGBoost，但是那篇的重点是集成学习，所以写得比较宽泛，以至于在面试的时候忽然间不清楚面试官问的问题，即 XGBoost 损失函数的推导。一直纠结于二阶泰勒展开与正则项，却不明白面试官所问的是进一步的推导，这包括：

故新开一个博客，用于记录 XGBoost 推导的全过程。

Note

二阶泰勒展开：

f (x + Δ x) ≃ f (x) + f^{'} (x) Δ x + \frac{1}{2} f^{″} (x) (Δ x)^{2}

对于第 $t$ 棵树 $f_{t} (x)$ ，其损失函数 $L^{(t)}$ 为：

\begin{matrix} (1) & L^{(t)} = \sum_{i = 1}^{n} l (y_{i}, {\hat{y}}_{i}^{(t - 1)} + f_{t} (x_{i})) + Ω (f_{t}) \end{matrix}

其中：

当前预测：之前 $t - 1$ 棵树的预测结果 ${\hat{y}}^{(t - 1)}$ 加上当前这棵树的预测结果 $f_{t} (x_{i})$ ；
标签： $y_{i}$ ；
正则项： $Ω (f_{t}) = γ T + \frac{1}{2} λ \sum_{j = 1}^{T} w_{j}^{2}$ ，其中 $T$ 是当前第 $t$ 棵树的叶子树，可以看到正则项只和当前这棵树有关，且与样本无关；
每个样本的损失累加作为最终损失。

因为 ${\hat{y}}^{(t - 1)}$ 是已经确定的了，我们可以计算得到 $l (y_{i}, {\hat{y}}^{(t - 1)})$ 。所以，对 $(1)$ 中的 $l$ 在 ${\hat{y}}_{i}^{(t - 1)}$ 处做泰勒展开，得到了：

L^{(t)} ≃ \sum_{i = 1}^{n} [l (y_{i}, {\hat{y}}^{(t - 1)}) + g_{i} f_{t} (x_{i}) + \frac{1}{2} h_{i} f_{t}^{2} (x_{i})] + Ω (f_{t})

其中

\begin{array}{r} g_{i} = \frac{\partial l (y_{i}, {\hat{y}}^{(t - 1)})}{\partial {\hat{y}}^{(t - 1)}} \\ h_{i} = \frac{\partial^{2} l (y_{i}, {\hat{y}}^{(t - 1)})}{\partial {\hat{y}}^{(t - 1)}^{2}} \end{array}

后面我们将直接忽略上面的近似等于符号，直接将损失函数视为展开后的形式。我们可以看到，现在损失被拆分为了三种项：

前 $t - 1$ 棵树的累加的预测结果的损失 $l (y_{i}, {\hat{y}}^{(t - 1)})$ ；
一阶项 $g_{i} f_{t} (x_{i})$ ，二阶项 $\frac{1}{2} h_{i} f_{t}^{2} (x_{i})$ ，其中一阶导和二阶导是已经确定的常数
Caution
1. 这俩都是损失函数对 ${\hat{y}}^{(t - 1)}$ 的偏导乘以 $f_{t} (x_{i})$ 。在泰勒展开原始形式中， $Δ x$ 就是此时的 $f_{t} (x_{i})$ ；
2. 偏导是对先前的预测结果做偏导，而不是对样本做偏导；
正则化项；

可以看出，上面的项中，1 是已经确定的了，在训练第 $t$ 棵树的时候，我们不会再去修改前面的 $t - 1$ 棵树。我们在优化的时候无需考虑这个常数项。再将正则化项展开，得到了：

\begin{matrix} (2) & L^{(t)} = \sum_{i = 1}^{n} [g_{i} f_{t} (x_{i}) + \frac{1}{2} h_{i} f_{t}^{2} (x_{i})] + γ T + \frac{1}{2} λ \sum_{j = 1}^{T} w_{j}^{2} \end{matrix}

从 $(2)$ 式子中，我们可以看出，式子中存在样本的累加项和叶子节点的累加项。我们可以根据样本被分配到的叶子节点，建立起叶子节点和样本之间的联系：

对于第 $j$ 个叶子，其所包含的样本集合是 $I_{j}$ ，即 $I_{j} = {i ∣ q (x_{i}) = j}$ ， $q (x)$ 表示样本被划分到的叶子节点，即决策树的结构；
对于第 $i$ 个样本，如果它被划分到 $I_{j}$ ，则其预测值是该节点的分数 $w_{j}$ ，即对于 $i \in I_{j}$ ，我们有 $f_{t} (x_{i}) = w_{j}$ ；
在之后，我们都用 $i$ 作为样本的编号，用 $j$ 作为叶子的编号；

我们可以将 $(2)$ 进一步合并同类项，其思路是以叶子节点作为外部累加，对于每个叶子节点，将样本的预测值 $f_{t} (x_{i})$ 变成叶子的分数 $w_{j}$ ，这样就和正则项有重合的项。于是，变成：

\begin{matrix} (3) & \begin{aligned} L^{(t)} & = \sum_{i = 1}^{n} [g_{i} f_{t} (x_{i}) + \frac{1}{2} h_{i} f_{t}^{2} (x_{i})] + γ T + \frac{1}{2} λ \sum_{j = 1}^{T} w_{j}^{2} \\ = \sum_{j = 1}^{T} [w_{j} \sum_{i \in I_{j}} g_{i} + \frac{1}{2} w_{j}^{2} \sum_{i \in I_{j}} h_{i}] + γ T + \frac{1}{2} λ \sum_{j = 1}^{T} w_{j}^{2} \\ = \sum_{j = 1}^{T} [w_{j} \sum_{i \in I_{j}} g_{i} + \frac{1}{2} w_{j}^{2} (\sum_{i \in I_{j}} h_{i} + λ)] + γ T \end{aligned} \end{matrix}

对于一个固定的结构 $q (x)$ ，我们可以计算出 $L^{(t)}$ 对每个叶子节点分数 $w_{j}$ 的极值点，也就是另 $L^{(t)}$ 对 $w_{j}$ 的偏导为 0。对 $w_{j}$ 的偏导形式可以非常简化，因为：

可得：

\frac{\partial L^{(t)}}{\partial w_{j}} = \sum_{i \in I_{j}} g_{i} + w_{j} (\sum_{i \in I_{j}} h_{i} + λ)

另其为 0，易得：

\begin{matrix} (4) & w_{j}^{*} = - \frac{\sum_{i \in I_{j}} g_{i}}{\sum_{i \in I_{j}} h_{i} + λ} \end{matrix}

此即为叶子节点的最优分数推导结果，可以看到其与一些因素有关：

将每个叶子结点的最优分数代入损失函数，也就是 $(4)$ 代入 $(3)$

简化一些累加项方便计算：

可以得到：

\begin{matrix} (5) & \begin{aligned} L^{(t)} & = \sum_{j = 1}^{T} [w_{j} G_{j} + \frac{1}{2} w_{j}^{2} (H_{j} + λ)] + γ T \\ = \sum_{j = 1}^{T} [(- \frac{G_{j}}{H_{j} + λ}) G_{j} + \frac{1}{2} {(- \frac{G_{j}}{H_{j} + λ})}^{2} (H_{j} + λ)] + γ T \\ = \sum_{j = 1}^{T} [(- \frac{G_{j}}{H_{j} + λ}) G_{j} + \frac{1}{2} {(- \frac{G_{j}}{H_{j} + λ})}^{2} (H_{j} + λ)] + γ T \\ = - \frac{1}{2} \sum_{j = 1}^{T} [\frac{G_{j}^{2}}{H_{j} + λ}] + γ T \end{aligned} \end{matrix}

故 XGBoost 第 $t$ 棵树的损失函数是：

L^{(t)} = - \frac{1}{2} \sum_{j = 1}^{T} \frac{G_{j}^{2}}{H_{j} + λ} + γ T

可以看到，其损失函数只受到以下因素的影响：

因此，其计算非常快，因为损失函数对 ${\hat{y}}^{(t - 1)}$ 的偏导是可以提前计算好的，只需要根据树当前的叶子节点内的样本集合，快速累加即可。

一个节点 $I$ ，分裂后变成 $I_{L}$ 和 $I_{R}$ ，即 $I = I_{L} \cup I_{R}$ ，于是乎，对于某个节点，其分裂后，整棵树的损失变化为

L_{split} = \frac{1}{2} [\frac{{(\sum_{i \in I_{L}} g_{i})}^{2}}{\sum_{i \in I_{L}} h_{i} + λ} + \frac{{(\sum_{i \in I_{R}} g_{i})}^{2}}{\sum_{i \in I_{R}} h_{i} + λ} - \frac{{(\sum_{i \in I} g_{i})}^{2}}{\sum_{i \in I} h_{i} + λ}] - γ

分裂后，叶子节点从 1 个变成了 2 个，所以要多减去一个 $γ$ 。哪个属性带来的分裂损失最小，就选择这个属性分裂。