机器学习实践（十七）—sklearn之无监督学习-K-means算法

一、无监督学习概述

K-means聚类步骤
1. 随机设置K个特征空间内的点作为初始的聚类中心
2. 对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类中心点作为标记类别
3. 接着对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平均值）
4. 如果计算得出的新中心点与原中心点一样，那么结束，否则重新进行第二步过程
图片助解

sklearn.cluster.KMeans(n_clusters=8,init=‘k-means++’)

$$
sc_i = \frac{b_i-a_i}{max(b_i,a_i)}
$$

注：

对于每个 i 点是已聚类数据中的样本点，$b_i$ 为 i 点到其它簇中所有样本点的距离的最小值，$a_i$ 为 i 到自身簇的所有样本点的距离的平均值。最终计算出所有的样本点的轮廓系数平均值

sklearn.metrics.silhouette_score(X, labels)

未完待续….