1. 收集数据
  2. 数据清洗
    1. 删除不必要的信息
    2. 重复值处理
      1. 确定唯一属性
      2. 手动剔除
      3. 保留第一次出现的数据
    3. 异常值处理
      1. 3 sigma 原则
      2. 箱线图
      3. PCA图
      4. 层次聚类
    4. 缺失值处理
      1. KNN填值
      2. RF填值
      3. 最小值、平均值、众数
  3. 数据变换
    1. Min-Max 归一化
    2. Upper quantile 归一化
    3. Robust 归一化
    4. Z-Score 标准化
    5. 对数/指数 变换
  4. 差异分析
    1. 正态分布检验
      1. Q-Q 图
      2. Shapiro-Wilk test
    2. 方差齐性检验
      1. F test
      2. Levene’s test
    3. Volcano 图
    4. 箱线图
    5. 热图
    6. C-Fuzzy 图
  5. 特征提取
    1. 子集搜索(遍历所有组合)
    2. AIC Step
    3. Randomforest
    4. Lasso
  6. 模型选择
    1. logistic Regression
    2. SVM
    3. Lasso
  7. 模型训练
    1. 确定训练集、测试集数据(20%, 80%)
    2. K折交叉验证
  8. 模型评估
    1. ROC曲线
    2. Confusion Matrix
    3. Sensitivity、Specificity、NPV、PPV
    4. Threshold
    5. Prevalence
  9. 独立验证
  10. 非参数检验(U test)
  11. 参数检验(t test)