数据清洗 重要变量选择方法:
1、Boruta包
>qsar.data<-read.csv(file=file.choose(),header=T)
>colnames(qsar.data)
>fs.data<-qsar.data[,-1];colnames(fs.data)
>library(Boruta) # 载入Boruta包 ,对重要变量进行选择
>fs.data.extended<-Boruta(activity~.,data=fs.data,
doTrace=2,maxRuns=100,light=TRUE,confidence=1.999)
>print(fs.data.extended)# 查看变量选择结果
>table(fs.data.extended$finalDecision)
>getConfirmedFormula(fs.data.extended) # 查看接收的变量
>getNonRejectedFormula(fs.data.extended) # 查看通过变量选择被接收变量及可供选择的变量
2、subselect包的genetic 函数
>qsar.data<-read.csv(file=file.choose(),header=T)
>dim(qsar.data);colnames(qsar.data)
>library(subselect)
>qsar.dataHmat<-lmHmat(qsar.data[,c(3:23)],qsar.data[,2])
>names(qsar.data[,2,drop=FALSE])
>colnames(qsar.dataHmat)
>genetic(qsar.dataHmat$mat, kmin=2, H=qsar.dataHmat$H, r=1, crit="CCR12")
3、subselect包的anneal 函数
>qsar.data<-read.csv(file=file.choose(),header=T)
>library(subselect)