问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

为什么要划分训练集、验证集和测试集

发布网友 发布时间:2022-11-29 18:13

我来回答

1个回答

热心网友 时间:2023-10-28 09:07

一般来说机器学习的数据集都会被划分成三个个子集训练集,验证集测试集

我们拿到的数据集通常都是由人工或者半自动化的方式收集来的,每个输入数据都有对应的输出,机器学习要做的是学习这些已经收集好的数据中所包含的信息,并且在新的输入数据出现时成功预测到输出。

在实现机器学习的过程中,训练集是用来训练模型的,给模型输入和对应的输出,让模型学习它们之间的关系。

验证集是用来估计模型的训练水平,比如分类器的分类精确度,预测的误差等,我们可以根据验证集的表现来选择最好的模型。

测试集是输入数据在最终得到的模型得到的结果,是训练好的模型在模拟的“新”输入数据上得到的输出。测试集只能在最后用于测试模型的性能,不能拿来训练。

最后,应用阶段,训练好的模型可以被应用在实际获得的数据并且得到结果,但是这个阶段是没办法评价的,模型的质量只能从验证集和测试集上看出来。

大概就是:机器学习(背答案)——>做题(默写答案)——>模考(看答案背的怎么样)——>高考(生死由命)

比较常见的划分数据集的方式是:50%用于训练,25%用于验证,25%用于测试。这个比例也可以根据数据集的大小和数据信噪比来改变。

数据集划分可以用sklearn的train_test_split函数:

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
什么影响了汇率 我有一支万宝龙金笔4810,18K750。可惜笔杆坏了,请问什么地方能配件? 荣耀手机怎么弄轻触亮屏 大姨妈全是血块怎么办 不锈钢丝生产商怎么选好呢? 在春晚上赢的优酷会员卡怎么激活 暑假里 我读了好多好多的书 我也看了电视剧 三国演义 和 西游记... 西游记中银角大王:“叫你一声你敢答应吗?”为何有如此大的力量 ...就玩具战争打不开,加载到100时就停了,肿么办啊? 苹果4手机优酷7天会员怎么激活 世界十大畅销摇滚乐队 全球最知名的摇滚乐队 女孩漂亮有涵养的名字精选 needforspeed低配怎么调最流畅 油炸锅会产生火碱吗? 关于初一英语听力短文阅读 304l的不锈钢保温杯安全吗? 进口304不锈钢板的介绍 手机号借用一下 支付宝 改个 就借一下验证码 One of the Greatest women in your mind(高二英语作文,80-120词) whose doll is it什么意思意思 吃汤圆的来历的作文素材 电压48伏电流15安要用多大整流桥 48V充电器的整流桥 睡莲发芽之后怎么办 微信公众平台里,这种页面是怎么做的? 数学一元二次方程和二次函数的图像与性质和不等式是分别是哪个学期的内容?高一,初三? 于谦去搬凳子的时候 郭德纲说我来吧 我来吧 然后坐着不动!!是哪个相声 皂角米是热性还是凉性?皂角米和雪莲子的区别 水解蛋白奶粉有哪些、哪种好 吉林省安图县有病情吗? train_test_split数据集分割 sklearn-分类决策树 sklearn乳腺癌数据集数据含义 在疫情比较严峻的形势下,明年退休人员的基本养老金还是会上涨吗? 2022年疫情防形势下中国经济稳中向好主要表现在哪些地方? 俯卧撑可以练出腹肌吗 俯卧撑可以改善驼背吗 俯卧撑锻炼腹肌吗 做俯卧撑可以锻炼腹肌吗 俯卧撑能练腹肌吗 比较困难 启动hdfs,两个namenode节点都是Standby hadoop/spark/hbase集群 动态缩容/扩容 切水果的板子上容易惹蚊子,怎么消灭 惠普410打印机的缺点是什么呢 惠普410打印机哪年上市的 惠普410打印头按不进去怎么办 我的笔记本电脑是HP的32位WIN7 ,我安装了理正勘察软解,插上电子狗,结果显示找不到加密狗,怎 试用期觉得不合适应该趁早离职吗? 试用期觉得工作不合适可以辞职吗? 电影|《寄生虫》分析 古代地契还受法律保护吗? 古代地契中的中长指什么