应用场景中数据往往是线性不可分的
不可分情况:将特征向量映射到高维空间
更广义的将特征向量映射到不同空间中
-
核技巧:
多数情况下,可以直接定义$K(X^{(i)},X^{(j)})$,从而不需要显示定义$\phi(x^{(i)})$ -
相似性度量:
直观上对于$x$和$z$两个样例,如果$\phi(x)$和$\phi(z)$足够接近,我们希望$K(x,z)=\phi(x)^T\phi(z)$ 更大。 -
高斯核函数:
$K(x,z)=\exp(-\frac{||x-z||^2}{2\sigma^2})$
也被称为径向基函数(RBF)核 -
核矩阵必定是对称矩阵。
-
Mercer定理:
给定K,如果K为一个有效核,对于任意集合${x^{(1)},...x^{(m)}},m< \infty$,其对应的核矩阵为对称半正定矩阵
有效核举例:
- RBF核:$K(x,z)=\exp(-\frac{||x-z||^2}{2\sigma^2})$
- 多项式核:$K(x,z)=(x^Tz)^d$
- 余弦相似度:$K(x,z)=\frac{(x^Tz)}{||x||.||z||}$
- sigmoid核:$K(x,z)=\tanh(\alpha x^Tz+c),\tanh(b)=\frac{1-e^{-2b}}{1+e^{-2b}}$
神经网络使用sigmoid核作为激活函数
映射关系:$y=f(\theta^T\phi(x))$