机器学习技法笔记 – Kernel Logistic Regression (核逻辑回归)

Soft-Margin SVM as Regularized Model

在前四章中,我们从“最胖的分割线”出发,介绍了Hard-Margin SVM,之后我们为了解决使用了高维特征转换带来的计算复杂度,我们介绍了Solving Dual SVM  Problem,这种方法利用KKT条件,将求解原最佳化问题转化为求解原最佳化问题的强对偶问题,使用\(\alpha_n\)表示了\(b, w\),但是这种方法并没有完美的解决高维特征转换带来的高计算复杂度问题,它只是把这一计算过程隐含在了QP标准型中\(Q\)矩阵的计算过程中,之后我们介绍了Kernel Support Vector Machine,通过这种方法,可以将原高维特征转换需要的\(\widetilde d^2\)计算复杂度降低为\(\widetilde d\)或者更少,并介绍了两种重要的Kernel Function,通过改变Kernel Fcuntion的\(\zeta, \gamma\),可以得到各种不同形状的分类器,在第四章中,为了避免过于强大Kernel Function可能带来的过拟合问题,我们通过容忍分类器的犯错程度,引入了\(\xi\)这个参数,同时通过\(C\)系数用来权衡最大间隔和容忍犯错,从而引出了Soft-Margin Support Vector Machine,最终,我们通过调节\(\zeta, \gamma\, \xi, C\),再加上交叉验证或者留一法验证SVM的数量,来选择最合适的SVM。

本章将把SVM的思想运用于Logistic Regression。

以Soft-Margin SVM为例,通过下图我们可以发现,解Soft-Margin SVM问题与解L2 Regularization问题非常相似:

与解SVM问题不同的是,Regularization是以最小化\(E_{in}\)为目的,以\(w^Tw≤C\)为条件,而SVM则是以\(E_{in}\)做条件,但本质上,他们都是Regularization的一种思想。

对于Soft-Margin SVM,较大的\(C\)则对应了较小的\(\lambda\),即做更少的Regularization。

SVM versus Logistic Regression

那么SVM能不能用在Logistic Regression问题中呢?我们首先来看它们的误差函数:

我们可以发现,SVM与Logistic Regression的误差函数在值域上是比较近似的,所以我们可以近似的把解SVM问题看做解L2Regularization的Logistic Regression问题。

SVM for Soft Binary Classification

那么如何将SVM的思想用于Logistic Regression中呢?以下是一种做法:

我们先看原始Logistic Regression的交叉熵函数(误差函数):

再来对比使用SVM后的Logistic Regression的交叉熵函数:

我们先在原始数据中求出SVM的\(w_{SVM}, b_{SVM}\),然后再添加一个缩放因子\(A\),平移因子\(B\),然后通过梯度下降或者随机梯度下降求出\(A, B\),最后得到最终的结果:

Kernel Logistic Regression

我们首先介绍表示定理(Representer Theorem):

即解任意一个L2 Regularization的问题,其最佳\(w_*\)都可以用\(\beta_n\)与\(Z_n\)线性组合得到。

证明如下:

如果\(w_*=w_∥+w_⊥\),\(w_∥∈span(z_n)\),\(w_⊥⊥span(z_n)\),证明\(w_⊥=0\)

考虑一个最优\(w_*\),使得\(err(y_n, (w_∥+w_⊥)^Tz_n\)),

则\(w^T_{*}w_{*}=w^T_∥w_∥+2w^T_∥w_⊥+w^T_⊥w_⊥>w^T_∥w_∥\)

与\(w_*\)为最优解矛盾,所以\(w_⊥=0\)

所以任意一个L2 Regularization的问题,其最佳\(w_*\)都可以用\(\beta_n\)与\(Z_n\)线性组合得到,即他们都可以使用Kernel Function。

所以我们终于可以将Kernel Function用于L2 Regularization的Logistic Regression:

以下是Kernel Logistic Regression的一般做法:

使用Kernel Function后,上式可以改写为以下形式:

然后可以使用GD/SGD等方法求解:

以上是对Kernel Logistic Regression在台湾大学机器学习技法课程的笔记总结。

《机器学习技法笔记 – Kernel Logistic Regression (核逻辑回归)》上有2条评论

评论已关闭。