问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

什么是无监督学习

发布网友 发布时间:2022-04-09 23:53

我来回答

2个回答

懂视网 时间:2022-04-10 04:15

DBSCAN方法及应用

1.DBSCAN密度聚类简介

DBSCAN 算法是一种基于密度的聚类算法:
  1.聚类的时候不需要预先指定簇的个数
  2.最终的簇的个数不确定
DBSCAN算法将数据点分为三类:
  1.核心点:在半径Eps内含有超过MinPts数目的点。
  2.边界点:在半径Eps内点的数量小于MinPts,但是落在核心点的邻域内的点。
  3.噪音点:既不是核心点也不是边界点的点。

如下图所示:图中黄色的点为边界点,因为在半径Eps内,它领域内的点不超过MinPts个,我们这里设置的MinPts为5;而中间白色的点之所以为核心点,是因为它邻域内的点是超过MinPts(5)个点的,它邻域内的点就是那些黄色的点!

技术分享

 

2.DBSCAN算法的流程

1.将所有点标记为核心点、边界点或噪声点;
2.删除噪声点;
3.为距离在Eps之内的所有核心点之间赋予一条边;
4.每组连通的核心点形成一个簇;
5.将每个边界点指派到一个与之关联的核心点的簇中(哪一个核心点的半径范围之内)。

技术分享

 

技术分享

 

技术分享

 

技术分享

 

技术分享

 

3.应用实例

数据介绍

现有大学校园网的日志数据,290条大学生的校园网使用情况数据,数据包括用户ID,设备的MAC地址,IP地址,开始上网时间,停止上网时间,上网时长,校园网套餐等。利用已有数据,分析学生上网的模式。

实验目的
通过DBSCAN聚类,分析学生上网时间和上网时长的模式。

技术路线
采用:sklearn.cluster.DBSCAN 模块

 

下图为一个数据的实例展示:

技术分享

 

技术分享

通过上述上网时间的聚类分析和上网时长的聚类分析得出我们想要的同学们上网的时间和时长的分布结果!

 

1.建立工程,导入sklearn相关包
  import numpy as np
  from sklearn.cluster import DBSCAN
  注意:DBSCAN主要参数:
    1.eps:两个样本被看作邻居节点的最大距离
    2.min_samples:簇的样本数
    3.metric:距离计算方式
  例:sklearn.cluster.DBSCAN(eps=0.5,min_samples=5,metric=‘euclidean‘)     #euclidean表明我们要采用欧氏距离计算样本点的距离!

 

技术分享

 

3-1.上网时间聚类,创建DBSCAN算法实例,并进行训练,获得标签:

技术分享

 

 4.输出标签,查看结果

技术分享

 

为了更好的展示结果,我们可以把它画成直方图的形式,便于我们分析;如下我们使用 matplotlib库中的hist函数来进行直方图的展示:

5.画直方图,分析实验结果:

技术分享

 

6.数据分布 vs 聚类

这里就是机器学习的一个小技巧了,左边的数据分布不适用于聚类分析的,如果我们想对这类数据进行聚类分析,需要对这些数据进行一些数学变换,通常我们采用取对数的变换方法,将这种数据变换之后,变换后的数据就比较适合用于聚类分析了;

技术分享

 

3-2.上网时长聚类,创建DBSCAN算法实例,并进行训练,获得标签:

技术分享

 

 4-2.输出标签,查看结果

 

技术分享

 

我们也可以看到:时长的聚类效果是不如时间的聚类效果明显的!

 

5.无监督学习-DBSCAN聚类算法及应用

标签:str   pts   小技巧   流程   模式   实验   日志   用户   时长   

热心网友 时间:2022-04-10 01:23

首先看什么是学习(learning)?一个成语就可概括:举一反三。此处以高考为例,高考的题目在上考场前我们未必做过,但在高中三年我们做过很多很多题目,懂解题方法,因此考场上面对陌生问题也可以算出答案。机器学习的思路也类似:我们能不能利用一些训练数据(已经做过的题),使机器能够利用它们(解题方法)分析未知数据(高考的题目)?

最简单也最普遍的一类机器学习算法就是分类(classification)。对于分类,输入的训练数据有特征(feature),有标签(label)。所谓的学习,其本质就是找到特征和标签间的关系(mapping)。这样当有特征而无标签的未知数据输入时,我们就可以通过已有的关系得到未知数据标签。

在上述的分类过程中,如果所有训练数据都有标签,则为有监督学习(supervised learning)。如果数据没有标签,显然就是无监督学习(unsupervised learning)了,也即聚类(clustering)。

(但有监督学习并非全是分类,还有回归(regression),此处不细说。)

目前分类算法的效果还是不错的,但相对来讲,聚类算法就有些惨不忍睹了。确实,无监督学习本身的特点使其难以得到如分类一样近乎完美的结果。这也正如我们在高中做题,答案(标签)是非常重要的,假设两个完全相同的人进入高中,一个正常学习,另一人做的所有题目都没有答案,那么想必第一个人高考会发挥更好,第二个人会发疯。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
ef英语哪个好 EF英孚英语培训怎么样? 英孚英语好不好 EF英孚教育到底好不好 大佬们,麦芒7和荣耀10那个值得入手?2500以下的机子还有啥好推荐的么... 介绍几款2500元以前的手机 像素一定要高 其他的不做要求 近期想入手一部安卓手机,价格2200到2500左右…买HTC desire Z还是 三星... 笔记本忘记开机密码怎么办急死了 笔记本电脑屏幕开机锁忘记密码 怎么办?急死了 华硕笔记本电脑开机密码忘记了怎样找回?系统是Windows 7旗舰版... 华为vrd al09屏幕触摸语音怎么关? 在贝壳成交的购房合同没有贝壳的合同章有关系吗 创造与魔法灵狐能拉雪橇吗 创造与魔法纳坦头饰什么颜色配卫衣好看? 创造与魔法丝调帽长什么样子 天津个人所得税怎么算? 天津市新个税的问题 天津每月报个人所得税的时间? 司马迁的小故事 天津个人所得税征收标准是什么 司马迁的故事100字左右! 关于司马迁的故事(作文) 司马迁勤奋读书的故事 天津哪里可以上个人所得税? 请问您怎么把个人所得税全额申报文件下载下来的啊!我也在天津!谢谢! 为什么表示身体部位名称的汉字很多都是"月"字旁?如"脚""胃""肾""肝""胰""脾"等等? 外地企业在津收入如何申报个税? 肝这个字的拼音是什么 司马迁精神事例150字 投资买房山东威海好还是珠海好 贝壳买房定金交给谁 通过贝壳团购买房靠谱吗? 贝壳网签合同可靠吗 梦见要搬家换新房子,还梦见我死去的小狗是怎么回事? 文竹的花语是什么? 文竹的花语 文竹的花语是什么 文竹有什么寓意 每日一句励志名言英语 文竹的花语? 文竹的花语是什么 为什么文竹的花语是永恒? 为什么明明玩了一小时不到,第五人格就显示我玩了1.5小时了? 文竹的花语是什么?文竹开花寓意有什么兆头? 第五人格账号回归后有了防沉迷 文竹开花寓意什么兆头? 第五人格怎么取消防沉迷 第五人格vivo账号在其他手机里登录会有防沉迷吗? 文竹那种植物送人代表什么意思? 第五人格怎么去掉健康时间管理? 文竹开花吗 文竹什么时候开花 文竹的花语