• 0

    用户访问量

  • 0

    注册用户数

  • 0

    在线视频观看人次

  • 0

    在线实验人次

测试数据集的定义是什么

作者:云创智学|发布时间:2022-01-05 09:17:19.0|来源:云创智学

测试数据集的定义是什么:

测试数据集是一个在建模阶段没有使用过的数据集。一旦根据验证数据集确定了“最好”的模型,那么在测试集上对模型的性能评估。然后,在任何新的数据集上估计模型预期的性能。

Data标签的第四个选项是使用全集评估模型(联合训练、验证和测试数据集)。这中策略似乎只对玩具项目有用,而不能精确的评估模型的性能。

在Data标签中,作为数据源的另一个选项是通过输入提供选择。当打分(Score)选为评价的类型时才使用。在这种情况下,弹出一个窗口允许直接输入数据。

Data标签数据源的最后两个选项,一个是CSV文件,另一个是RDataset。它们允许数据从一个CSV文件加载到R中,作为模型评估数据集。


模型性能评价是通过交叉验证完成的。事实上,R中一些算法就是执行交叉验证来评估,决策树算法使用的rpart()就是一个例子。


交叉验证的概念很简单。给定一个数据集,随机分割10份,使用其中的9份来建模,用最后的那1份度量模型的性能,重复选择不同的9份构成训练集,余下的那1份用作测试,需要重复10次,10次测试的平均作为最后的模型性能度量。


联系方式
企业微信