问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

评价-分类算法的评价指标

发布网友 发布时间:2022-10-21 23:27

我来回答

1个回答

热心网友 时间:2024-12-05 05:31

对于二元分类,通常可以输出混淆矩阵,看预测的情况,并从中总结出一些指标,给予评价。
混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。具体评价指标有总体精度、制图精度、用户精度等,这些精度指标从不同的侧面反映了图像分类的精度。在人工智能中,混淆矩阵(confusion matrix)是可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。在图像精度评价中,主要用于比较分类结果和实际测得值,可以把分类结果的精度显示在一个混淆矩阵里面。混淆矩阵是通过将每个实测像元的位置和分类与分类图像中的相应位置和分类相比较计算的。

以二元分类举例,混淆矩阵为:

每个样本会对应一个预测值和一个实际标签值,从上图可以知道,实际为1分类,预测结果也是1分类的有100个,而实际是0,预测是1的有3个,以此类推。

为了方便记忆,混淆矩阵的各个单元格有一个统一的称呼:

True很好理解,就是预测对了的,Positive代表的意思是实际分类为1的值,Negative代表的是实际分类为0的值。括号里面的就是简称了,这在后面会有用处。

假定1为正样本,0为负样本,则混淆矩阵的各个单元格表述如下:

真正率(true prositive rate, TPR)或灵敏度(sensitivity)定义为被模型正确预测的正样本比例,为:

同理可得其他:

从直观印象上来说,判断一个分类模型是不是准确,肯定是直接判断分类模型的正确率,这样就可以对模型有一个大概的评价,但是在某些时候,这么做并不靠谱:
假如我有一组产品,其中正品率可能是99.5%,次品率是0.5%,我的预测模型得到的结果是正品99%,次品1%,如果用正确率来算,是相当可观的,但是实际上次品的预测差距是整整1倍,很难说这是一个好的模型。
这种不同类的样本数量完全不成比例的情况,叫做不平衡类(倾斜类)。

对于这种分类,可以根据混淆矩阵来设计一些指标,从而评估模型,精准率就是其中之一:
精准率从公式上看,表达的意思就是预测为正样本的样本中,有多少是真正为正的,代表了预测的精确程度。以下面的混淆矩阵为例:


所以精准率就是0.9804。

同上,召回率也是从混淆矩阵中总结出来的指标:
表达的意思则是,实际为正样本的个数中,有多少被成功的预测了(有点类似于我现在从事行业的回收率,姑且这么理解吧)
还是上面的矩阵,那么召回率就是

事实上一个模型大部分时候是很难做到精确率和召回率两全的,有可能追求完美的精确率但是召回率很低,反之也一样,为了同时最大化精确率和召回率,可以用F1值对分类模型进行评价:
这个值肯定是在小于1的范围以内,原则上越大越好了。

ROC曲线是显示分类算法真正率和假正率之间折中的一种可视化方法,把真正率(TPR)作为y轴,假正率(FPR)作为x轴。
设定一个阈值,阈值之上的样本为正样本,之下为负样本,阈值降低,则真正率越高,假正率也会越高(因为判断正样本的条件宽松了),所以ROC曲线应该是x轴和y轴同时增长的,如图:

如果是一个随机分类,则ROC曲线应该是沿着对角线的,如果是分类算法,那么图像越靠近左上角,模型效果越好(假正率很低的时候真正率高)。

AUC是ROC曲线下方的面积,很显然,面积越大越好,如果模型是完美的,那么面积等于1,如果是随即分类,那么就是0.5。

以上这几种常用方法都是二元分类的方法,其中有一些也可以扩展到多分类,另外还有多分类专用的评价方法。

转自 https://www.hu.com/question/56403549/answer/151310817
应用多分类问题,把每个类别单独视为”正“,所有其它类型视为”负“,考虑如下的混淆矩阵:

Kappa统计是比较两个或多个观测者对同一事物,或观测者对同一事物的两次或多次观测结果是否一致,这个系数的取值范围是[-1,1],实际应用中,一般是[0,1],这个系数的值越高,则代表模型实现的分类准确度越高。

Kappa统计数字的意义如下:


其中,p0表示为总的分类准确度;
pe表示为


其中, 代表第i类真实样本个数, 代表第i类预测出来的样本个数。

对于该表中的数据,则有:



海明距离也适用于多分类的问题,简单来说就是衡量预测标签与真实标签之间的距离,取值在0~1之间。距离为0说明预测结果与真实结果完全相同,距离为1就说明模型与我们想要的结果完全就是背道而驰。

它与海明距离的不同之处在于分母。当预测结果与实际情况完全相符时,系数为1;当预测结果与实际情况完全不符时,系数为0;当预测结果是实际情况的真子集或真超集时,距离介于0到1之间。
我们可以通过对所有样本的预测情况求平均得到算法在测试集上的总体表现情况。

铰链损失(Hinge loss)一般用来使“边缘最大化”(maximal margin)。损失取值在0~1之间,当取值为0,表示多分类模型分类完全准确,取值为1表明完全不起作用。

参考: https://www.jianshu.com/p/573ba75aec94

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
小篇幅造句 易车如何发布二手车 转让卖车信息流程 《易车》群聊消息关闭方法 易车消息夜间勿扰方法步骤 易车如何开启消息夜间勿扰 易车 开启@消息推送 ...当入射角是 时,反射角是 。我们能从各个方向看到本身不发光的物体... 发泄的近义词和反义词是什么_发泄是什么意思? 我的世界手游 我的世界手机版怎么做末地传送门? 我的世界手游 末地传送门怎么做? 安全评价师的报考科目有什么 ...唱一首歌我们兄弟 兄弟之间的歌 看那逝去的岁月”这个歌叫什么急需... 祭奠那逝去的岁月伤感说说,梦做一半比较美 “不自见故明不自是故彰不自伐故有功不自矜故长”什么意思? 成都一男子冒充战疫人员,他的目的是什么? 红酒可以在冰箱保鲜放吗 红酒能放在冰箱保鲜吗 跟所有的烦恼说拜拜所有的快乐说嗨嗨是什么歌 逃跑犯人如何处罚 QD瓷砖是一线品牌吗?知道的回答一下 蒙娜丽莎qd瓷砖属于几线品牌 蒙娜丽莎qd瓷砖质量怎样 qd瓷砖是不是一线品牌?请问百度网友这个装修效果咋样啊? qd瓷砖是不是十大品牌啊? 谁给讲一下qd瓷砖是几线品牌? qd瓷砖是几线品牌?高分求解 我想知道qd瓷砖属于几线品牌?急求 有人知道QD瓷砖是几线品牌吗?求解答 动物体内合成1mol十八碳饱和脂肪酸需要消耗多少摩尔ATP? 动物细胞合成ATP,所需能量来自于呼吸作用??? 动物能合成蛋白质吗? 动物如何合成维生素C? 父亲和鸟优秀教学设计 【机器学习】模型分析model evaluation 恩平全圣有陶瓷有艰公司普工招聘电话 《责任病毒》读书笔记 《责任病毒》听后小总结 责任病毒的危害之一:协作的覆灭 北京743路公交车 都有哪些站? 急 北京743路有马连洼西站这站么? 北京公交车 743 黄色牌号 求北京公交老743路的图片 北京743路公交车上下班时间拥挤吗 班里面应该装饰些什么东西? 河北中建工程有限公司的介绍 河北中建工程有限公司怎么样 河北中建工程有限公司基础分公司怎么样? 河北中建工程股份有限公司怎么样啊??知道的同志们给点儿建议啊_百度知... 河北中建工程有限公司现在是什么性质的企业?在这个公司发展前景怎么样... 河北中建鹭岛建设有限公司怎么样? 法律规定 英语 法律规定英语怎么说 圣特拉慕奶粉和欧士达奶粉哪个好 关于花苞的诗句要全诗