影响数据质量算法效果有哪些:
机器学习算法的训练效果有很大程度需要依赖高质量的数据集,如果训练中所使用的标注数据集存在大量噪声,将会导致机器学习训练不充分,无法获得规律,这样在训练效果验证时会出现目标偏离,无法识别的情况。
上图是非专业标注人员标注细胞核,通过标注轮廓的杂乱性可以看出,非专业标注人员标注的数据中存在大量噪声。下图是通过机器学习后验证的训练效果。可以看出,非专业标注员标注的数据通过机器学习只能识别出了一部分目标,而且目标轮廓发生偏移,机器学习没有得到充分的训练。
对于质量不高的数据,在进行机器学习前需要经过加工处理,让数据集的整体质量得到提升,以此提高算法的训练效果。机器学习的训练效果与数据集质量的关系如图所示。
图中,当数据集的整体标注质量只有80%的时候,机器学习的训练效果可能只有30%~40%。随着数据标注质量逐步提高,机器学习的效果也会突飞猛进。当数据标注质量达到98%的时候,机器学习的效果为80%,但此时如果数据标注再往上提升,机器学习效果的提升就没有之前那么明显了。