此文主要涉及随机森林分类分析,主要包含以下几部分内容:
1)随机森林基础知识
2)randomForest()认识及构建分类判别模型;
3)随机森林参数调优
4)随机森林模型评估
classification rate、Sensitivity和specificity和ROC curve/AUC value
5)特征变量重要性筛选及绘图
重要性指数排序、交叉验证及Boruta算法筛选
一、 准备数据
此处使用的包含分类信息的虚构微生物otu数据,用于构建随机森林分类模型。主要分析目的:1)构建准确率高的随机森林分类模型,2)检测分类水平间重要的OTUs(biomarkers)。
# 1.1 导入数据setwd("D:\\EnvStat\\公众号文件\\随机森林分析") # 设置工作路径#dir()#file.show("otu.csv")otu = read.csv("otu.csv",row.names = 1,header = TRUE,check.names = FALSE,stringsAsFactors = FALSE) # 微生物组数据dim(otu)head(otu)#1.2 计算相对丰度spe = otuspe[3:ncol(spe)] <- sweep(spe[3:ncol(spe)],1,rowSums(spe[3:ncol(spe)]),/)*100spe
机器学习-分类随机森林分析(randomForest模型构建 参数调优 特征变量筛选 模型评估和基础理论等)