- 收集数据
- 
        					数据清洗
        					
        						- 删除不必要的信息
- 
        					重复值处理
        					
        						- 确定唯一属性
- 手动剔除
- 保留第一次出现的数据
 
- 
        					异常值处理
        					
        						- 3 sigma 原则
- 箱线图
- PCA图
- 层次聚类
 
- 
        					缺失值处理
        					
        						- KNN填值
- RF填值
- 最小值、平均值、众数
 
 
- 
        					数据变换
        					
        						- Min-Max 归一化
- Upper quantile 归一化
- Robust 归一化
- Z-Score 标准化
- 对数/指数 变换
 
- 
        					差异分析
        					
        						
        				- 
        					正态分布检验
        					
        						- Q-Q 图
- Shapiro-Wilk test
 
- 
        					方差齐性检验
        					
        						- F test
- Levene’s test
 
- Volcano 图
- 箱线图
- 热图
- C-Fuzzy 图
 
- 
        					特征提取
        					
        						- 子集搜索(遍历所有组合)
- AIC Step
- Randomforest
- Lasso
 
- 
        					模型选择
        					
        						- logistic Regression
- SVM
- Lasso
 
- 
        					模型训练
        					
        						- 确定训练集、测试集数据(20%, 80%)
- K折交叉验证
 
- 
        					模型评估
        					
        						- ROC曲线
- Confusion Matrix
- Sensitivity、Specificity、NPV、PPV
- Threshold
- Prevalence
 
- 独立验证
- 非参数检验(U test)
- 参数检验(t test)