为什么说聚类分析是一种无监督的学习方法

发布网友发布时间：2022-04-10 07:41

共2个回答

懂视网时间：2022-04-10 12:02

根据学生月上网时间数据运用DBSCAN算法计算：

#coding=utf-8
import numpy as np
import sklearn.cluster as skc
from sklearn import metrics
import matplotlib.pyplot as plt

mac2id = dict()
onlinetimes = []
f = open(‘F:dataTestData.txt‘, encoding=‘utf-8‘)
for line in f:
 mac = line.split(‘,‘)[2]#取得mac地址,例如第一行A417314EEA7B

 onlinetime = int(line.split(‘,‘)[6])#上网时长

 starttime = int(line.split(‘,‘)[4].split(‘ ‘)[1].split(‘:‘)[0])#开始时间只取第一个"："分割的：小时


 #每一个onlinetimes有一个唯一的mac2id对应
 if mac not in mac2id:
 mac2id[mac] = len(onlinetimes)
 onlinetimes.append((starttime, onlinetime))
 else:
 onlinetimes[mac2id[mac]] = [(starttime,onlinetime)]

#print(onlinetimes)
real_X = np.array(onlinetimes).reshape((-1, 2))#自行构造一个2列的矩阵，-1构造未知行数
#print(real_X)


X = real_X[:, 0:1]#只取上网开始时
#print(X)

#调用DBSCAN方法进行训练，labels为每个数据的簇标签
db = skc.DBSCAN(eps=0.01, min_samples=20).fit(X)
#返回的数据的簇标签，噪声数据标签为-1

‘‘‘#上网时长聚类
X = np.log(1+real_X[:, 1:])
db = skc.DBSCAN(eps=0.04, min_samples=10).fit(X)
‘‘‘
labels = db.labels_

print(‘Labels:
‘, labels)

#计算簇标签为-1的噪声数据比率
raito = len(labels[labels[:] == -1])/len(labels)
print(‘Noise raito: ‘, format(raito, ‘.2%‘))

#计算簇个数
n_clusters_ = len(set(labels))-(1 if -1 in labels else 0)
print(‘Estimated numbe of clusters: %d‘ %n_clusters_)#簇个数
print(‘Silhouette Coefficient: %0.3f‘ %metrics.silhouette_score(X, labels))#聚类效果评价指标

#打印各簇标号和簇内数据
for i in range(n_clusters_):
 print(‘Cluster‘, i, ‘:‘)
 print(list(X[labels == i].flatten()))

#绘制直方图
plt.hist(X, 24)
plt.show()

运行结果：

Labels:
[ 0 -1 0 1 -1 1 0 1 2 -1 1 0 1 1 3 -1 -1 3 -1 1 1 -1 1 3 4
-1 1 1 2 0 2 2 -1 0 1 0 0 0 1 3 -1 0 1 1 0 0 2 -1 1 3
1 -1 3 -1 3 0 1 1 2 3 3 -1 -1 -1 0 1 2 1 -1 3 1 1 2 3 0
1 -1 2 0 0 3 2 0 1 -1 1 3 -1 4 2 -1 -1 0 -1 3 -1 0 2 1 -1
-1 2 1 1 2 0 2 1 1 3 3 0 1 2 0 1 0 -1 1 1 3 -1 2 1 3
1 1 1 2 -1 5 -1 1 3 -1 0 1 0 0 1 -1 -1 -1 2 2 0 1 1 3 0
0 0 1 4 4 -1 -1 -1 -1 4 -1 4 4 -1 4 -1 1 2 2 3 0 1 0 -1 1
0 0 1 -1 -1 0 2 1 0 2 -1 1 1 -1 -1 0 1 1 -1 3 1 1 -1 1 1
0 0 -1 0 -1 0 0 2 -1 1 -1 1 0 -1 2 1 3 1 1 -1 1 0 0 -1 0
0 3 2 0 0 5 -1 3 2 -1 5 4 4 4 -1 5 5 -1 4 0 4 4 4 5 4
4 5 5 0 5 4 -1 4 5 5 5 1 5 5 0 5 4 4 -1 4 4 5 4 0 5
4 -1 0 5 5 5 -1 4 5 5 5 5 4 4]
Noise raito: 22.15%
Estimated numbe of clusters: 6
Silhouette Coefficient: 0.710
Cluster 0 :
[22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22, 22]
Cluster 1 :
[23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23, 23]
Cluster 2 :
[20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20, 20]
Cluster 3 :
[21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21, 21]
Cluster 4 :
[8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8]
Cluster 5 :
[7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7]

根据上网开始时间分类直方图如下：

技术分享

根据上网时间聚类直方图如下：

技术分享

根据上网开始时间明显要好于上网时长聚类.

无监督学习之聚类2——DBSCAN

标签：lis python 直方图 odi encoding 时长 time start images

热心网友时间：2022-04-10 09:10

聚类分析：对样品或指标进行分类的一种分析方法，依据样本和指标已知特性进行分类。本节主要介绍层次聚类分析，一共包括3个部分，每个部分包括一个具体实战例子。

1、常规聚类过程：

一、首先用dist()函数计算变量间距离
dist.r = dist(data, method=" ")
其中method包括6种方法，表示不同的距离测度："euclidean", "maximum", "manhattan", "canberra", "binary" or "minkowski"。相应的意义自行查找。

二、再用hclust()进行聚类
hc.r = hclust(dist.r, method = “ ”)
其中method包括7种方法，表示聚类的方法："ward", "single", "complete","average", "mcquitty", "median" or "centroid"。相应的意义自行查找。

三、画图
plot(hc.r, hang = -1,labels=NULL) 或者plot(hc.r, hang = 0.1,labels=F)
hang 等于数值，表示标签与末端树杈之间的距离，
若是负数，则表示末端树杈长度是0，即标签对齐。
labels 表示标签，默认是NULL，表示变量原有名称。labels=F :表示不显示标签。