发布网友 发布时间:2023-05-04 22:45
共3个回答
热心网友 时间:2023-11-05 21:36
我一般都是70%训练集30%测试集。当然,得看数据量有多大,以及复杂程度。只要训练集>=测试集,就不会错,但好不好得具体分析。如果数据量在1000以下的话,最好是k折交叉验证(基本上只要不是特别复杂的数据,都推荐k折交叉验证)。如果要是数据量大于10万的话,最好考虑80:20甚至90:10。热心网友 时间:2023-11-05 21:36
我一般都是70%训练集30%测试集。当然,得看数据量有多大,以及复杂程度。只要训练集>=测试集,就不会错,但好不好得具体分析。如果数据量在1000以下的话,最好是k折交叉验证(基本上只要不是特别复杂的数据,都推荐k折交叉验证)。如果要是数据量大于10万的话,最好考虑80:20甚至90:10。热心网友 时间:2023-11-05 21:36
为了检测出不同算法之间的差异,开发数据集应该足够大。比如,分类算法A的准确率为90.0%, 分类算法B的准确率为90.1%,如果开发数据集中只有100个样本,那你无法检测出这0.1%差在哪儿。100个样本的开发数据集实在时太小了。通常,我们会在开发数据集通中,放入1000到10,000个样本。对于10,000个样本来说,找到这0.1%并改进它,就相对容易多了。热心网友 时间:2023-11-05 21:37
数据集并不需要多大,主要是根据一些某些尝试看看需不需要多大,如果不需要的话,那么就可以不用太大。热心网友 时间:2023-11-05 21:36
为了检测出不同算法之间的差异,开发数据集应该足够大。比如,分类算法A的准确率为90.0%, 分类算法B的准确率为90.1%,如果开发数据集中只有100个样本,那你无法检测出这0.1%差在哪儿。100个样本的开发数据集实在时太小了。通常,我们会在开发数据集通中,放入1000到10,000个样本。对于10,000个样本来说,找到这0.1%并改进它,就相对容易多了。热心网友 时间:2023-11-05 21:37
数据集并不需要多大,主要是根据一些某些尝试看看需不需要多大,如果不需要的话,那么就可以不用太大。