问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

python训练模型需要多少数据(python 模型训练)

发布网友 发布时间:2024-09-27 07:28

我来回答

1个回答

热心网友 时间:2024-11-01 20:36

今天首席CTO笔记来给各位分享关于python训练模型需要多少数据的相关内容,其中也会对python 模型训练进行详细介绍,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

1、如何用Python在10分钟内建立一个预测模型2、python svm 怎么训练模型3、如何利用 Python 实现 SVM 模型4、python中什么是测试数据和训练数据如何用Python在10分钟内建立一个预测模型

有各种各样的方法可以验证你模型性能,建议你将训练数据集划分为训练集和验证集(理想的比例是7030并且在70%训练数据集上建模。现在使用30%验证数据集进行交叉验证并使用评价指标进行性能评估。最后需要12分钟执行和记录结果。

本文的目的不是赢得竞赛,而是建立我自己的基准。让我用python代码来执行上面的方法,建立你第一个有较高影响的模型。

python svm 怎么训练模型

支持向量机SVM(Support Vector Machine)是有监督的分类预测模型,本篇文章使用机器学习库scikit-learn中的手写数字数据集介绍使用Python对SVM模型进行训练并对手写数字进行识别的过程。

准备工作

手写数字识别的原理是将数字的图片分割为8X8的灰度值矩阵,将这64个灰度值作为每个数字的训练集对模型进行训练。手写数字所对应的真实数字作为分类结果。在机器学习sklearn库中已经包含了不同数字的8X8灰度值矩阵,因此我们首先导入sklearn库自带的datasets数据集。然后是交叉验证库,SVM分类算法库,绘制图表库等。

12345678910

#导入自带数据集from sklearn import datasets#导入交叉验证库from sklearn import cross_validation#导入SVM分类算法库from sklearn import svm#导入图表库import matplotlib.pyplot as plt#生成预测结果准确率的混淆矩阵from sklearn import metrics

读取并查看数字矩阵

从sklearn库自带的datasets数据集中读取数字的8X8矩阵信息并赋值给digits。

12

#读取自带数据集并赋值给digitsdigits = datasets.load_digits()

查看其中的数字9可以发现,手写的数字9以64个灰度值保存。从下面的8×8矩阵中很难看出这是数字9。

12

#查看数据集中数字9的矩阵digits.data[9]

以灰度值的方式输出手写数字9的图像,可以看出个大概轮廓。这就是经过切割并以灰度保存的手写数字9。它所对应的64个灰度值就是模型的训练集,而真实的数字9是目标分类。我们的模型所要做的就是在已知64个灰度值与每个数字对应关系的情况下,通过对模型进行训练来对新的手写数字对应的真实数字进行分类。

1234

#绘制图表查看数据集中数字9的图像plt.imshow(digits.images[9], cmap=plt.cm.gray_r, interpolation='nearest')plt.title('digits.target[9]')plt.show()

设置模型的特征X和预测目标Y

查看数据集中的分类目标,可以看到一共有10个分类,分布为0-9。我们将这个分类目标赋值给Y,作为模型的预测目标。

12

#数据集中的目标分类digits.target

12

#将数据集中的目标赋给YY=digits.target

手写数字的64个灰度值作为特征赋值给X,这里需要说明的是64个灰度值是以8×8矩阵的形式保持的,因此我们需要使用reshape函数重新调整矩阵的行列数。这里也就是将8×8的两维数据转换为64×1的一维数据。

123

#使用reshape函数对矩阵进行转换,并赋值给Xn_samples = len(digits.images)X = digits.images.reshape((n_samples, 64))

查看特征值X和预测目标Y的行数,共有1797行,也就是说数据集*有1797个手写数字的图像,64列是经过我们转化后的灰度值。

12

#查看X和Y的行数X.shape,Y.shape

将数据分割为训练集和测试集

将1797个手写数字的灰度值采用随机抽样的方法分割为训练集和测试集,其中训练集为60%,测试集为40%。

12

#随机抽取生成训练集和测试集,其中训练集的比例为60%,测试集40%X_train, X_test, y_train, y_test = cross_validation.train_test_split(X, Y, test_size=0.4, random_state=0)

查看分割后的测试集数据,共有1078条数据。这些数据将用来训练SVM模型。

12

#查看训练集的行数X_train.shape,y_train.shape

对SVM模型进行训练

将训练集数据X_train和y_train代入到SVM模型中,对模型进行训练。下面是具体的代码和结果。

12

#生成SVM分类模型clf = svm.SVC(gamma=0.001)

12

#使用训练集对svm分类模型进行训练clf.fit(X_train, y_train)

使用测试集测对模型进行测试

使用测试集数据X_test和y_test对训练后的SVM模型进行检验,模型对手写数字分类的准确率为99.3%。这是非常高的准确率。那么是否真的这么靠谱吗?下面我们来单独测试下。

12

#使用测试集衡量分类模型准确率clf.score(X_test, y_test)

我们使用测试集的特征X,也就是每个手写数字的64个灰度值代入到模型中,让SVM模型进行分类。

12

#对测试集数据进行预测predicted=clf.predict(X_test)

然后查看前20个手写数字的分类结果,也就是手写数字所对应的真实数字。下面是具体的分类结果。

12

#查看前20个测试集的预测结果predicted[:20]

再查看训练集中前20个分类结果,也就是真实数字的情况,并将之前的分类结果与测试集的真实结果进行对比。

12

#查看测试集中的真实结果expected=y_test

以下是测试集中前20个真实数字的结果,与前面SVM模型的分类结果对比,前20个结果是一致的。

12

#查看测试集中前20个真实结果expected[:20]

使用混淆矩阵来看下SVM模型对所有测试集数据的预测与真实结果的准确率情况,下面是一个10X10的矩阵,左上角第一行第一个数字60表示实际为0,SVM模型也预测为0的个数,第一行第二个数字表示实际为0,SVM模型预测为1的数字。第二行第二个数字73表示实际为1,SVM模型也预测为1的个数。

12

#生成准确率的混淆矩阵(Confusion matrix)metrics.confusion_matrix(expected, predicted)

从混淆矩阵中可以看到,大部分的数字SVM的分类和预测都是正确的,但也有个别的数字分类错误,例如真实的数字2,SVM模型有一次错误的分类为1,还有一次错误分类为7。

如何利用 Python 实现 SVM 模型

我先直观地阐述我对SVM的理解,这其中不会涉及数学公式,然后给出Python代码。

SVM是一种二分类模型,处理的数据可以分为三类:

线性可分,通过硬间隔最大化,学习线性分类器

近似线性可分,通过软间隔最大化,学习线性分类器

线性不可分,通过核函数以及软间隔最大化,学习非线性分类器

线性分类器,在平面上对应直线;非线性分类器,在平面上对应曲线。

硬间隔对应于线性可分数据集,可以将所有样本正确分类,也正因为如此,受噪声样本影响很大,不推荐。

软间隔对应于通常情况下的数据集(近似线性可分或线性不可分),允许一些超平面附近的样本被错误分类,从而提升了泛化性能。

如下图:

实线是由硬间隔最大化得到的,预测能力显然不及由软间隔最大化得到的虚线。

对于线性不可分的数据集,如下图:

我们直观上觉得这时线性分类器,也就是直线,不能很好的分开红点和蓝点。

但是可以用一个介于红点与蓝点之间的类似圆的曲线将二者分开,如下图:

我们假设这个*的曲线就是圆,不妨设其方程为x^2+y^2=1,那么核函数是干什么的呢?

我们将x^2映射为X,y^2映射为Y,那么超平面变成了X+Y=1。

那么原空间的线性不可分问题,就变成了新空间的(近似)线性可分问题。

此时就可以运用处理(近似)线性可分问题的方法去解决线性不可分数据集的分类问题。

---------------------------------------------------------------------------------------------------------------------------

以上我用最简单的语言粗略地解释了SVM,没有用到任何数学知识。但是没有数学,就体会不到SVM的精髓。因此接下来我会用尽量简洁的语言叙述SVM的数学思想,如果没有看过SVM推导过程的朋友完全可以跳过下面这段。

对于求解(近似)线性可分问题:

由最大间隔法,得到凸二次规划问题,这类问题是有最优解的(理论上可以直接调用二次规划计算包,得出最优解)

我们得到以上凸优化问题的对偶问题,一是因为对偶问题更容易求解,二是引入核函数,推广到非线性问题。

求解对偶问题得到原始问题的解,进而确定分离超平面和分类决策函数。由于对偶问题里目标函数和分类决策函数只涉及实例与实例之间的内积,即xi,xj。我们引入核函数的概念。

拓展到求解线性不可分问题:

如之前的例子,对于线性不可分的数据集的任意两个实例:xi,xj。当我们取某个特定映射f之后,f(xi)与f(xj)在高维空间中线性可分,运用上述的求解(近似)线性可分问题的方法,我们看到目标函数和分类决策函数只涉及内积f(xi),f(xj)。由于高维空间中的内积计算非常复杂,我们可以引入核函数K(xi,xj)=f(xi),f(xj),因此内积问题变成了求函数值问题。最有趣的是,我们根本不需要知道映射f。精彩!

我不准备在这里放推导过程,因为已经有很多非常好的学习资料,如果有兴趣,可以看:CS229 Lecture notes

最后就是SMO算法求解SVM问题,有兴趣的话直接看作者论文:Sequential Minimal Optimization:A Fast Algorithm for Training Support Vector Machines

我直接给出代码:SMO+SVM

在线性可分数据集上运行结果:

图中标出了支持向量这个非常完美,支持向量都在超平面附近。

在线性不可分数据集上运行结果(200个样本):

核函数用了高斯核,取了不同的sigma

sigma=1,有189个支持向量,相当于用整个数据集进行分类。

sigma=10,有20个支持向量,边界曲线能较好的拟合数据集特点。

我们可以看到,当支持向量太少,可能会得到很差的决策边界。如果支持向量太多,就相当于每次都利用整个数据集进行分类,类似KNN。

python中什么是测试数据和训练数据

当数据量特别大的时候,有几千几万条,为了验证模型的好坏,取出一部分用于训练,另一部分用作测试。当模型训练好的时候,其必定是符合训练数据的分布,为了验证模型的泛化能力,就利用没有参与训练的测试集,放入模型计算出结果,和真实值比较,就可以看出回归模型预测得准不准了

从代码来看你这个做的是一个简单的线性回归模型,数据很简单就是研发成本对应产品质量,利用线性回归拟合一条直线,由于你的数据特别少只有8个点,所以完全没有必要区分训练数据和测试数据,尤其你设置测试集比例为0.1,其实就只有一条,用处不大,所以没有区分的必要

希望我的回答能帮助到你,祝你学习顺利

结语:以上就是首席CTO笔记为大家介绍的关于python训练模型需要多少数据和python 模型训练的全部内容了,希望对大家有所帮助,如果你还想了解更多这方面的信息,记得收藏关注本站。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
“晚来天欲雪,能饮一杯无?”是什么意思_出处及原文翻译_学习力 胸肌中部怎么练 血沉高是怎么回事,怎样才能降低啊! 中海锦江城多久交房 “QMS”作为“质量管理体系”的英文缩写,其背后理论及应用如何?_百度... 我用QQ登的快手绑定了一个电话号码,电话号码不用了,现在怎么能登得进去... 桂林银行白金客户条件 桂林银行最高等级卡 iQOO 11系列曝光,预计年底正式发布! vivo X90先别买?iQOO 11系列配置堪称豪华 SMO算法原理 著名的中式点心有哪些 SVM的一个快速求解方法(SMO算法) 机器学习算法实践-SVM中的SMO算法 向高手请教任意球踢法 谁能帮我总结语文《陈涉世家》,和 《唐雎不辱使命》。 落叶球的详细踢法,最好有图 跪求落叶球踢法。越详细越好!感谢。我踢球踢了8年了,但是一直练不会... 在直角三角形中,斜边上的中线等于射边的一半,有这定律吗 直角三角形斜边上的一点和直角的连线等于斜边被分的一部分,那么这个点... 在直角三角形中,直角顶点与斜边上一点的连线等于斜边的一半,则该点为... ...距离等于斜边的一半,则该点一定为斜边上的中点吗? 别人结婚和生孩子都崴脚是啥意思 习惯崴脚是什么意思? 蓝胖子奶粉如何冲泡 iphone4锁屏后,主屏幕失灵了,在按下电源键,又好了,怎么回事? iphone4突然黑屏了,强行重启了也没用,可以连电脑但还是黑屏,而且锁定... iPhone4锁屏时先黑屏再锁屏 iphone4突然黑屏了,强行重启了也没用,可以连电脑但还是黑屏,而且锁定... iPhone4解锁后先黑屏再出现主界面 适合做下午茶的中式甜点有什么? 诛仙2仙合欢跟仙怀光打,同等级同装备的情况下哪个赢? 诛仙2仙合欢和仙怀光谁厉害 怎样通过请女人吃一顿饭知道女人到底能不能撩? 有人说女人好不好撩,约她吃饭就会有答案,你怎么看? 男人请女人吃顿饭,就能知道她好不好追吗? 格式刷是什么意思 现在战地之王末日列车都能刷出什么枪包括1天的 战地之王末日列车通关奖励列表 战地之王登山镐跟弯刀哪个切枪快 战地之王怎么刷电锯 手机微信在电脑微信登录后怎么不提示? 木地板打蜡的流程是怎样的 地板打蜡方法有哪些地板打蜡注意事项有哪些 从呼和浩特市开车到陕西波浪谷几个小时能到 牙刷多久换一次l 电动牙刷刷头可以重复使用吗? 牙刷多久换一次刷头 北京自驾兰州旅游住宿价格 中卫到波浪谷怎么走