数据清洗数据去重方法:
数据重复检测函数包括unique、duplicated。
unique对于一个向量管用,对于matrix、data frame那些就不管用了。
duplicated函数是一个可以用来解决向量或者数据框重复值的函数,它会返回一个TRUE和FALSE的向量,以标注该索引所对应的值是否是前面数据所重复的值。
以数据data.set为例,说明解决办法。
(1)建立是否重复索引
> index<-duplicated(data.set$Ensembl)
> index
[1] FALSE TRUE FALSE TRUE TRUE TRUE TRUE TRUE TRUE FALSE
> data.set2<-data.set[!index,] #去掉重复行