数据清洗实例说明

作者：云创智学|发布时间：2022-05-10 15:03:58.0|来源：云创智学

以网站文件下载为例，假定一组记录文件下载时间长度的原始数据集如表1-1所示。直接计算网站文件平均下载时长，计算结果约为23000秒，约6小时，与实际情况严重不符，说明这一数据集受到了显著的噪声的影响而导致部分数据值出现严重偏差。为此，必须对原始数据集做异常值识别并尽可能剔除错误数据。

具体来说，可以基于数据的分布特征利用分箱法或聚类法来识别上例数据集中的噪声数据。对于表1中的数据，清洗数据时首先将数据集等分为2403个区间，找到数据的集中域[0, 3266]。然后，利用分箱法对取值在[0, 3266]之间的数据作进一步分析，对新数据组剔除离群值，得到清洗后的离群数据组。最后，统计计算清洗后的目标数据源的平均下载时长为192.93秒，约3.22分钟，符合网站文件下载的实际情况。从这个简单的例子可看出，基于数据的分布特征，数据清洗可以采用分箱法或聚类方法较为快捷地识别和剔除数据集中的噪声数据，从而获得良好的清洗效果。

数据清洗实例说明

作者：云创智学|发布时间：2022-05-10 15:03:58.0|来源：云创智学

友情链接

关于云创

联系我们

数据清洗实例说明

作者：云创智学|发布时间：2022-05-10 15:03:58.0|来源：云创智学

推荐课程

大数据与人工智能就业初级班

大数据与人工智能就业高级班

大数据与人工智能就业中级班

人工智能导论

人工智能图像处理应用

大数据分析挖掘实训课

大数据实战能力提升

ChatGPT应用教学

大数据实战能力提升+金牌服务

云计算职业技能竞赛初级课程（视频资源）

大数据平台技术

大数据应用实训工程实战

云计算职业技能竞赛中级课程（带实验平台实战资源）

云计算职业技能竞赛高级资源增强包

云计算职业技能竞赛中级资源增强包

云计算职业技能竞赛初级资源增强包

云计算职业技能竞赛初级课程/（带实验平台实战资源）

友情链接

关于云创

联系我们