- 欠拟合与过拟合
- 欠拟合:当统计模型或机器学习算法无法捕捉数据的基础变化趋势时,就会出现欠拟合
- 过拟合:当统计模型把随机误差和噪声也考虑进去而不仅仅是考虑数据的基础关联时,就会出现过拟合
- 正则化
- 正则化就是添加参数的惩罚项,防止模型对数据过拟合
- L2正则化(岭回归Ridge)
- L1正则化(套索LASSO)
- 更常规的正则化方法$\sum_j|\theta|^q$,根据$q$的不同为不同正则化
- 当$q \leq 1$的时候,模型进行系数学习
- 很少会用$q > 2$来进行正则化,99%的情形下都取$q = 1$或$2$
- 奥卡姆剃刀原则
- 有多个假设模型时,我们应该选择假设条件最少的建模方法
- 模型选择
- 一个机器学习的解决方案的模型包含参数$\theta$和超参数$\lambda$
- 超参数
- 定义模型的更高层次的概念,如复杂性或者学习能力
- 在标准训模型训练过程中无法直接从数据中学习,需要预先设定
- 可以通过不同的参数设置、训练不同的模型以及选择最好的测试结果来进行超参数的选择
- 模型选择(或超参数优化)关注如果选择最佳超参数
- K-折交叉验证
- 设置超参数
- 将原始训练数据随机拆分为K份
- 重复K次
- 第i次重复,选择第i份数据作为验证数据集,其余K-1份作为训练数据集
- 对训练数据进行建模,并在验证数据上对其进行评估,从而获得评估分数
- 对K个评估分数取平均作为模型性能