- 收集数据
-
数据清洗
- 删除不必要的信息
-
重复值处理
- 确定唯一属性
- 手动剔除
- 保留第一次出现的数据
-
异常值处理
- 3 sigma 原则
- 箱线图
- PCA图
- 层次聚类
-
缺失值处理
- KNN填值
- RF填值
- 最小值、平均值、众数
-
数据变换
- Min-Max 归一化
- Upper quantile 归一化
- Robust 归一化
- Z-Score 标准化
- 对数/指数 变换
-
差异分析
-
正态分布检验
- Q-Q 图
- Shapiro-Wilk test
-
方差齐性检验
- F test
- Levene’s test
- Volcano 图
- 箱线图
- 热图
- C-Fuzzy 图
-
特征提取
- 子集搜索(遍历所有组合)
- AIC Step
- Randomforest
- Lasso
-
模型选择
- logistic Regression
- SVM
- Lasso
-
模型训练
- 确定训练集、测试集数据(20%, 80%)
- K折交叉验证
-
模型评估
- ROC曲线
- Confusion Matrix
- Sensitivity、Specificity、NPV、PPV
- Threshold
- Prevalence
- 独立验证
- 非参数检验(U test)
- 参数检验(t test)