测试数据集的定义是什么

作者：云创智学|发布时间：2022-01-05 09:17:19.0|来源：云创智学

测试数据集的定义是什么：

测试数据集是一个在建模阶段没有使用过的数据集。一旦根据验证数据集确定了“最好”的模型，那么在测试集上对模型的性能评估。然后，在任何新的数据集上估计模型预期的性能。

Data标签的第四个选项是使用全集评估模型(联合训练、验证和测试数据集)。这中策略似乎只对玩具项目有用，而不能精确的评估模型的性能。

在Data标签中，作为数据源的另一个选项是通过输入提供选择。当打分（Score）选为评价的类型时才使用。在这种情况下，弹出一个窗口允许直接输入数据。

Data标签数据源的最后两个选项，一个是CSV文件，另一个是RDataset。它们允许数据从一个CSV文件加载到R中，作为模型评估数据集。

模型性能评价是通过交叉验证完成的。事实上，R中一些算法就是执行交叉验证来评估，决策树算法使用的rpart()就是一个例子。

交叉验证的概念很简单。给定一个数据集，随机分割10份，使用其中的9份来建模，用最后的那1份度量模型的性能，重复选择不同的9份构成训练集，余下的那1份用作测试，需要重复10次，10次测试的平均作为最后的模型性能度量。

友情链接