day03-二分类问题
发布网友
发布时间:2023-02-10 11:11
我来回答
共1个回答
热心网友
时间:2024-11-07 11:11
输入变量X和输出变量Y有不同类型,可以连续,可以离散。根据输入输出变量的不同类型,对预测人物给予不同的名称。输入输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题;输入输出变量均为变量序列问题称为标注问题
二分类问题就是简单的“是否”,“有无”问题,例如输出变量为0或1。
1、准确率
2、混淆矩阵
3、精准率、召回率、F1_score
4、auc
5、logloss
1、逻辑回归
2、svm
3、决策树
4、随机森林
5、Adaboost
6、xgboost
7、lightgbm
8、catboost
9、朴素贝叶斯
1.1 线性回归原理
概念:
线性回归是一种通过线性组合来进行预测的线性模型,其目的是找到一条直线或者一个平面或者更高维度的超平面,使得预测值与真实值之间的误差最小化。
线性回归:
线性回归是通过数据在N维空间找到h(x)来描述这些规律,这个过程称为拟合。h(x)的预测值与真实值会有偏差,也称为残差。线性回归一般使用残差的平方来计算损失,即损失函数为:
优缺点:
优:权重w是每个变量x的权重,通过w的大小可以看出每个x的重要性,有很好的解释性
缺:非线性数据拟合不好
1.2 逻辑回归原理
从1.1中可知,h(x)预测值是连续的,是一个回归模型。但是如果我们希望输出是离散的,则需要将h(x)进行一个函数转换,变成g(Y),其中g(Y)中的某些值属于类别1,另外的属于其他类别,这样的模型则为二分类模型。
此时g可以为:
g函数也被称为sigmoid函数。
当sigmoid函数计算出的值大于0.5的归为类别1,小于0.5的归为类别0
假设预测真实样本为1的概率为pi,则预测真实样本为0的概率为1-pi,那么预测概率为:
使用随机梯度下降优化损失函数:
损失函数: