• 0

    用户访问量

  • 0

    注册用户数

  • 0

    在线视频观看人次

  • 0

    在线实验人次

数据集划分标准

作者:原创|发布时间:2022-03-22 13:19:45.0|来源:云创智学

数据集划分标准

1、训练集

   训练数据(Train data)集是用于建模的,数据集每个样本是有标签的(正确答案)。通常情况下,在训练集上模型执行得很好,并不能真的说明模型好,我们更希望模型对看不见的数据有好的表现,训练属于建模阶段,线下进行,如果把机器学习过程比作高考过程,训练相当于平时的练习。


2、验证集

   为了模型对看不见的数据有好的表现,使用验证数据(Validation data)集评估模型的各项指标,如果评估结果不理想,将改变一些用于构建学习模型的参数,最终得到一个满意的训练模型。在验证集上模型执行得很好,也不能真的说明模型好,我们更希望模型对看不见的数据有好的表现,验证属于建模阶段,线下进行,如果把机器学习过程比作高考过程,验证相当于月考或周考。


3、测试集

   测试数据(Test data)集是一个在建模阶段没有使用过的数据集。我们希望模型在测试集上有好的表现,即强泛化能力。测试属于模型评估阶段,线上进行,如果把机器学习过程比作高考过程,验证相当高考。


4、数据集划分标准

   一般来说采用70/15/15,但这不是必须的,要根据具体任务确定划分比。


联系方式
企业微信