1)不同的数据源
不同数据源的数据标准不一致,即使导入过程正确,也使得最后数据显示格式不一致。
2)人工错误
人工导入过程出现错误或者数据检验工作不充分,导致导入的数据存在不符合常规的内容。
格式内容清洗前提:何为错误类型1,错误类型2?
在course_info表中,考核方式字段assess_method内容混入了空格,如assess_method='考 查',将这种情况定义为“格式错误类型1”。另外,在tname(教师姓名)字段下出现了tname='20168'的情况,而经过分析发现部分tname的值等于tcode(教师编号)的值,将这种情形定义为“格式错误类型2”。