问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

网格搜索时如果不使用交叉验证会有什么问题

发布网友 发布时间:2022-05-11 01:56

我来回答

1个回答

热心网友 时间:2023-11-25 14:01

在pattern recognition与machine
learning的相关研究中,经常会将dataset分为training跟test这两个subsets,前者用以建立model,后者则用来评估该model对未知样本进行预测时的精确度,正规的说法是generalization
ability。在往下叙述之前,这边就必须点出一个极为重要的观念:只有training data才可以用在model的训练过程中,test
data则必须在model完成之后才被用来评估model优劣的依据。

怎么将完整的dataset分为training set与test set也是学问,必须遵守两个要点:

training
set中样本数量必须够多,一般至少大于总样本数的50%。
两组子集必须从完整集合中均匀取样。

其中第2点特别重要,均匀取样的目的是希望减少training/test
set与完整集合之间的偏差(bias),但却也不易做到。一般的作法是随机取样,当样本数量足够时,便可达到均匀取样的效果。然而随机也正是此作法的盲点,也是经常是可以在数据上做手脚的地方。举例来说,当辨识率不理想时,便重新取样一组training
set与test set,直到test set的辨识率满意为止,但严格来说这样便算是作弊了。

Cross-validation正是为了有效的估测generalization error所设计的实验方法,可以细分为double
cross-validation、k-fold cross-validation与leave-one-out cross-validation。Double
cross-validation也称2-fold
cross-validation(2-CV),作法是将dataset分成两个相等大小的subsets,进行两回合的分类器训练。在第一回合中,一个subset作为training
set,另一个便作为test set;在第二回合中,则将training set与test set对换后,再次训练分类器,而其中我们比较关心的是两次test
sets的辨识率。不过在实务上2-CV并不常用,主要原因是training
set样本数太少,通常不足以代表母体样本的分布,导致test阶段辨识率容易出现明显落差。此外,2-CV中分subset的变异度大,往往无法达到「实验过程必须可以被复制」的要求。

K-fold cross-validation (k-CV)则是double
cross-validation的延伸,作法是将dataset切成k个大小相等的subsets,每个subset皆分别作为一次test
set,其余样本则作为training set,因此一次k-CV的实验共需要建立k个models,并计算k次test
sets的平均辨识率。在实作上,k要够大才能使各回合中的training set样本数够多,一般而言k=10算是相当足够了。

最后是leave-one-out cross-validation
(LOOCV),假设dataset中有n个样本,那LOOCV也就是n-CV,意思是每个样本单独作为一次test set,剩余n-1个样本则做为training
set,故一次LOOCV共要建立n个models。相较于前面介绍的k-CV,LOOCV有两个明显的优点:

每一回合中几乎所有的样本皆用于训练model,因此最接近母体样本的分布,估测所得的generalization
error比较可靠。
实验过程中没有随机因素会影响实验数据,确保实验过程是可以被复制的。

但LOOCV的缺点则是计算成本高,因为需要建立的models数量与总样本数量相同,当总样本数量相当多时,LOOCV在实作上便有困难,除非每次训练model的速度很快,或是可以用平行化计算减少计算所需的时间。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
儿歌祖国妈妈我爱你是谁写的汇总28句 为什么有的人学几何很厉害数学却不行 一个人数学几何好,但是其他计算方面的都马马虎虎,那么说明这个人怎么... 数学几何好的人,就是一道几何题很快就能想出来的人是不很聪明?这能练... 固安尚城国际怎么样 驾驶员咨询服务营业执照经营范围怎么写 驾校属于什么经营范围 核桃粉保质期多长时间 亿生康宝筋骨冷敷凝胶只在国内销售吗? 清河镇概况 勾股定理全部的验证方法 什么品种的宠物狗价格便宜、性情温驯? 狗市上比较便宜的狗狗是什么品种 1000元以内的,小型的狗狗什么品种适合? 想养彪悍的狗,什么品种好又便宜? 小型犬种类里面哪种便宜点 什么品种的狗狗最便宜,又容易饲养? 近视怎么恢复视力 中国建筑土木建设有限公司强制员工签订风险抵押金,并强制员工上交高额风险金(高达数万元以上) 今天收到中国建筑土木建设有限公司的邀请函,说是简历通过初审,让去报道,会不会是假的? 中建钢构与中建三局一公司哪个好 中国建筑土木建设有限公司有没有在洛阳有项目部? 中国建筑土木建设有限公司贵州分公司怎么样? 中国建筑土木建设有限公司南京分公司怎么样? 中国建筑土木建设有限公司工资待遇怎么样? 中国建筑土木建设有限公司上海分公司怎么样? 中国建筑土木建设有限公司电话是多少? 美图手机最贵得多少钱 喂奶乳房里有硬块是该用热水还是冷水敷 奶水不够用热毛巾敷有用吗 非结构化网格 数据格式 包含哪些 生物学专业和生物工程专业是一个专业吗 生命工程是什么专业 剪映里音频分离怎么会有杂音 oppo手机怎么设置微信视频不显示 opporeno7手机放在口袋拿出来没有碰到微信视频怎么拒接了是怎么回事? 文件夹中psd文件怎样缩略图显示 学校交的人寿保险一般限定校内吗? 参考资料 - 学校交的中国人寿50元保险包括什么? 学生保险是那个保险公司保的 天谕怎么邀请好友进自己的屋子 电子商务与ERP系统整合的重要性 天仙道手游怎么邀请人 电子商务ERP的发展趋势 天谕云垂锦鲤怎么参加 ERP和电子商务的区别。 电子商务与ERP有什么关系? 劳动争议仲裁申请书如何写 三角梅少女心勤花吗 H3C 设备是V7版本AC板卡是V5版本可以吗