机器学习：K-means

发表于 2021-12-25 更新于 2024-10-21 分类于机器学习

聚类算法

用于将未知类别的样本集划分为若干簇的的算法就是聚类算法。

聚类没有任何关于关于类别的预先设立的知识，直接依据样本之间的相似性来决定哪些样本属于同类；

注意：

在划分完所有数据对象的类别后，才需要更新聚类中心
可以设置最大迭代次数来替代收敛条件
收敛条件是看与上一次迭代的准则函数结果差是否超过指定数值，未超过则判断为收敛，准则函数：
$J_c(i)=\sum^K_{j=1}\sum^{n_j}_{k=1}||x_k^j-Z_j(i)||^2$
$j$ 是中心点的索引，i 是迭代次数的索引。 $n_j$ 表示第 $j$ 个中心点所在类的数据对象的个数， $Z_j(i)$ 表示第 $i$ 次迭代第 $j$ 个中心点， $x_k^j$ 表示第 $j$ 类下的第 $k$ 个数据对象。该函数的意义为计算所有类中所有数据对象离中心点的距离之和。

dist(X,Y) = (\sum^n_{k=1}(|x_k - y_k|^p))^{\frac{1}{p}}

p = 2 时，即为欧氏距离（欧几里得距离）；

p = 1 时，即为曼哈顿距离；

p 趋近于无穷大时，即为切比雪夫距离；

SSE = \sum^k_{i=1}\sum_{p \in C_i}| \vec{p} - \vec{m_i} |^2

SSE （Sum of the Squared Errors），误差平方和。

$C_i$ 表示第 i 个簇， $m_i$ 表示第 i 个簇的质心，SSE 代表了聚类结果的好坏。

构建 K 与 SSE 的函数关系，当 K:

通过尽可能地选择互相之间距离远的质心来减少质心对算法的影响。