KMeans算法Python实现及应用
KMeans算法是一种聚类算法,常用于数据挖掘和机器学习领域。这种算法非常高效,可用于大规模数据的聚类,它的核心在于将数据点分配到k个簇中,以最小化每个簇的方差。本文将介绍如何使用Python编写KMeans算法,并演示如何使用该算法进行数据聚类。
我们需要了解KMeans算法的实现过程。下面是该算法的基本步骤:
1. 随机选取k个点作为聚簇的中心;
2. 计算每个点与每个中心之间的距离,划分该点所属的簇;
3. 对于每个簇,重新计算该簇的中心;
4. 重复2~3步骤,直到中心不再变化或达到最大迭代数。
根据上述步骤,我们可以使用Python编写KMeans算法的代码:
```python
import numpy as np
class KMeans:
def __init__(self, n_clusters=8, epsilon=0.0001, max_iter=50):
self.n_clusters = n_clusters 聚簇数
self.epsilon = epsilon 收敛阈值
self.max_iter = max_iter 最大迭代次数
def fit(self, X):
self.centers = X[np.random.choice(X.shape[0], self.n_clusters, replace=False)] 随机选取中心点
for i in range(self.max_iter):
计算每个点与中心点之间的距离,根据距离划分每个点所属的簇
dist = np.sqrt(((X self.centers[:, np.newaxis])**2).sum(axis=2))
clusters = np.argmin(dist, axis=0)
计算每个簇的中心点,并判断中心点是否发生变化
new_centers = np.array([X[clusters == j].mean(axis=0) for j in range(self.n_clusters)])
if np.allclose(self.centers, new_centers, atol=self.epsilon):
break
else:
self.centers = new_centers
return clusters
```
我们使用KMeans算法对Iris数据进行聚类。Iris数据是一个常用的分类数据集,其中包含150个样本,涵盖了三种Iris植物的四个特征(萼片长度,萼片宽度,花瓣长度,花瓣宽度)。
```python
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
data = load_iris().data
X = data[:, (2, 3)] 取花瓣长度和花瓣宽度作为特征
kmeans = KMeans(n_clusters=3) 将数据聚成3类
clusters = kmeans.fit(X)
plt.scatter(X[:, 0], X[:, 1], c=clusters)
plt.scatter(kmeans.centers[:, 0], kmeans.centers[:, 1], s=150, marker='*', c='r')
plt.xlabel('Petal length')
plt.ylabel('Petal width')
plt.show()
```
运行上述代码,我们可以得到以下的聚类结果:

如图所示,聚类结果大致将三种花瓣分为三类,其中红色叉表示每个簇的中心点。
本文介绍了如何使用Python编写KMeans算法,并对Iris数据进行了聚类实验。使用KMeans算法可以有效地对大型数据集进行聚类,有很多实际应用。当然,KMeans算法也有其局限性
文章已关闭评论!
2025-04-04 20:20:39
2025-04-04 20:02:40
2025-04-04 19:44:22
2025-04-04 19:26:06
2025-04-04 19:08:07
2025-04-04 18:49:49
2025-04-04 18:31:47
2025-04-04 18:13:28