聚类基本概念

基本概念

聚类是对点集进行考察并按照某种距离测度将它们聚成多个“簇”的过程。聚类的目标是使得同一簇内的点之间距离较小,而不同簇之间的距离较大。聚类的过程即是发现簇的过程。

聚类技术介绍

按照聚类算法所使用的两种不同的基本策略,可以将聚类分为两类。

  1. 一类称为层次聚类或凝聚式算法。这类算法一开始将每个点都看成一个簇。簇与簇之间是按照接近度来组合,而接近度可以基于“接近”的不同含义采用不同的定义。当进一步的组合导致多个原因之一下的非期望结果时,上述组合过程结束。例如,达到预先给定数目的簇时,或者簇内点分散到达一定程度。
  2. 另一类算法涉及点分配过程,即按照某个顺序依次考虑某个点,并将它分配到最适合的簇中,该过程通常都有一个短暂的初始簇估计阶段。

维数灾难

高维的欧氏空间具有一些非直观的有时被称为“维数灾难的性质。非欧空间也往往有同样的反常情况。“灾难”的一个表现是,在高维空间下,几乎所有的点对之间的距离都差不多相等。另一个表现是,几乎任意两个向量之间都是近似正交的。