欧美日韩国产综合在线,99精品热线在线观看免费视频,日韩a无v码在线播放

如果在我們的分類問題中，輸入特征$x$是連續(xù)型隨機變量，高斯判別模型(Gaussian Discriminant Analysis,GDA)就可以派上用場了。

以二分類問題為例進行說明，模型建立如下：

樣本輸入特征為$x\in\mathbb{R}^n$,其類別$y\in\{0,1\}$；
樣本類別$y$服從參數(shù)為$\phi$的伯努力分布，即$y\sim Bernoulli(\phi)$；
兩類樣本分別服從不同的高斯分布，即$x|y=0\sim\mathcal{N}(\mu_0,\Sigma),x|y=1\sim\mathcal{N}(\mu_1,\Sigma)$；

對應(yīng)的概率分布形式如下：
\begin{equation}
p(y)=\phi^y(1-\phi)^{1-y}
\end{equation}
\begin{equation}
p(x|y=0)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}\exp(-\frac{1}{2}(x-\mu_0)^T\Sigma^{-1}(x-\mu_0))
\end{equation}
\begin{equation}
p(x|y=1)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}\exp(-\frac{1}{2}(x-\mu_1)^T\Sigma^{-1}(x-\mu_1))
\end{equation}
\begin{equation}
p(x|y)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}\exp(-\frac{1}{2}(x-\mu_y)^T\Sigma^{-1}(x-\mu_y))
\end{equation}

我們模型的參數(shù)包括$\phi,\mu_0,\mu_1,\Sigma$。這里的兩個高斯分布具有不同的均值$\mu_0$和$\mu_1$，但在實際應(yīng)用中一般取相同的方差$\Sigma$。

給定包含$m$個樣本的訓練集$\mathcal{S}=\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(m)},y^{(m)})\}$，似然函數(shù)形式如下：
\begin{equation}
\begin{array}{ll}
&\quad\mathcal{L}(\phi,\mu_0,\mu_1,\Sigma)\\
&=\log\prod_{i=1}^m p(x^{(i)},y^{(i)};\phi,\mu_0,\mu_1,\Sigma)\\
&=\log\prod_{i=1}^m p(x^{(i)}|y^{(i)};\mu_0,\mu_1,\Sigma)p(y^{(i)};\phi)\\
&=\sum_{i=1}^m\log p(x^{(i)}|y^{(i)};\mu_0,\mu_1,\Sigma)+\log p(y^{(i)};\phi)\\
&=\sum_{i=1}^m\left[-\frac{1}{2}(x^{(i)}-\mu_{y^{(i)}})^T\Sigma^{-1}(x^{(i)}-\mu_{y^{(i)}})\right.\\
&\quad\left.-\frac{n}{2}\log(2\pi)-\frac{1}{2}\log|\Sigma^{-1}|+y^{(i)}\log\phi\right.\\
&\quad\left.+(1-y^{(i)})\log(1-\phi)\right]
\end{array}
\end{equation}

通過最大似然進行參數(shù)估計，用似然函數(shù)$\mathcal{L}$對各個參數(shù)求偏導：
\begin{equation}
\begin{array}{ll}
&\quad\frac{\partial\mathcal{L}(\phi,\mu_0,\mu_1,\Sigma)}{\partial\phi}\\
&=\frac{\partial}{\partial\phi}\sum_{i=1}^m\left[y^{(i)}\log\phi+(1-y^{(i)})\log(1-\phi)\right]\\
&=\sum_{i=1}^m\frac{y^{(i)}}{\phi}-\frac{1-y^{(i)}}{1-\phi}\\
&=\sum_{i=1}^m\frac{y^{(i)}-\phi}{\phi(1-\phi)}=0\\
&\Rightarrow \phi=\frac{\sum_{i=1}^my^{(i)}}{m}=\frac{\sum_{i=1}^m1\{y^{(i)}=1\}}{m}
\end{array}
\end{equation}
\begin{equation}
\begin{array}{ll}
&\quad\frac{\partial\mathcal{L}(\phi,\mu_0,\mu_1,\Sigma)}{\partial\mu_0}\\
&=\frac{\partial}{\partial\phi}\sum_{i=1}^m\left[-\frac{1}{2}1\{y^{(i)}=0\}(x^{(i)}-\mu_{0})^T\Sigma^{-1}(x^{(i)}-\mu_{0})\right]\\
&=\frac{\partial}{\partial\mu_0}\sum_{i=1}^m-\frac{1}{2}1\{y^{(i)}=0\}\\
&\quad\cdot Tr[\mu_0^T\Sigma^{-1}\mu_0-\mu_0^T\Sigma^{-1}x^{(i)}-(x^{(i)})^T\Sigma^{-1}\mu_0]\\
&=\sum_{i=1}^m1\{y^{(i)}=0\}\Sigma^{-1}(x^{(i)}-\mu_0)=0\\
&\Rightarrow \mu_0=\frac{\sum_{i=1}^m1\{y^{(i)}=0\}x^{(i)}}{\sum_{i=1}^m1\{y^{(i)}=0\}}
\end{array}
\end{equation}
同理，可得
\begin{equation}
\mu_1=\frac{\sum_{i=1}^m1\{y^{(i)}=1\}x^{(i)}}{\sum_{i=1}^m1\{y^{(i)}=1\}}
\end{equation}
\begin{equation}
\begin{array}{ll}
&\quad\frac{\partial\mathcal{L}(\phi,\mu_0,\mu_1,\Sigma)}{\partial\Sigma}\\
&=\frac{\partial}{\partial\Sigma}[-\frac{1}{2}(x^{(i)}-\mu_{y^{(i)}})^T\Sigma^{-1}(x^{(i)}-\mu_{y{(i)}})-\frac{1}{2}\log|\Sigma|]\\
&=\sum_{i=1}^m\frac{1}{2}[\left(\Sigma^{-1}(x^{(i)}-\mu_{y^{(i)}})(x^{(i)}-\mu_{y^{(i)}})^T\Sigma^{-1}\right)^T-(\Sigma^{-1})^T]\\
&=\frac{1}{2}\sum_{i=1}^m(x^{(i)}-\mu_{y^{(i)}})(x^{(i)}-\mu_{y^{(i)}})^T-\Sigma=0\\
&\Rightarrow \Sigma=\frac{1}{m}(x^{(i)}-\mu_{y^{(i)}})(x^{(i)}-\mu_{y^{(i)}})^T
\end{array}
\end{equation}

仔細分析一下估計出的四個參數(shù)，我們會發(fā)現(xiàn)$\phi$就是在訓練集上統(tǒng)計出的$y=1$的樣本出現(xiàn)的概率，$\mu_0$和$\mu_1$則分別為兩類樣本各自的均值，$\Sigma$為整個訓練集上的樣本方差。

有了這些參數(shù)，我們怎樣進行預(yù)測呢？這就很簡單了，將各參數(shù)帶入$p(x|y)$和$p(y)$，利用$p(x|y)p(y)=p(x,y)$可導出聯(lián)合概率，我們?nèi)∈孤?lián)合概率$p(x,y)$最大的類別$y$即可
\begin{equation}
\underset{y\in\{0,1\}}{arg\max}{\;p(x|y)p(y)}
\end{equation}

最后，我們來分析高斯判別模型和Logistic回歸之間的情緣。如果$x|y$服從高斯分布$\mathcal{N}(\mu,\Sigma)$(只針對$y$取兩個離散值的情況)，則$p(y|x)$具有l(wèi)ogistic函數(shù)的形式；反過來，$p(y|x)$形式上為logistic函數(shù)并不能說明$x|y\sim\mathcal{N}(\mu,\Sigma)$。實際上，有很多組假設(shè)都能使$p(y|x)$有l(wèi)ogistic函數(shù)的形式，只要假設(shè)滿足$x|y$服從指數(shù)族分布(Exponential Family Distribution)。例如，$x|y=0\sim Poisson(\lambda_0)$和$x|y=1\sim Poisson(\lambda_1)$，則$p(y|x)$在形式上同樣為logistic函數(shù)。以高斯判別分析為例，簡單證明一下：
\begin{equation}
\begin{array}{ll}
&p(y=1|x)\\
=&\frac{p(x|y=1)p(y=1)}{p(x|y=1)p(y=1)+p(x|y=0)p(y=0)}\\
=&\frac{\exp\left(-\frac{1}{2}(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)\right)\phi}{\exp\left(-\frac{1}{2}(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)\right)\phi+\exp\left(-\frac{1}{2}(x-\mu_0)^T\Sigma^{-1}(x-\mu_0)\right)(1-\phi)}\\
=&\frac{1}{1+\exp\left(\frac{1}{2}(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)-\frac{1}{2}(x-\mu_0)^T\Sigma^{-1}(x-\mu_0)\right)\frac{1-\phi}{\phi}}\\
=&\frac{1}{1+\exp\left(x^T\Sigma^{-1}(\mu_0-\mu_1)+\frac{1}{2}\mu_1^T\Sigma^{-1}\mu_1-\frac{1}{2}\mu_0^T\Sigma^{-1}\mu_0+\log(1-\phi)-\log\phi\right)}
\end{array}
\end{equation}

高斯判別分析在建模時提出了很強的假設(shè)，那就是各個類別的數(shù)據(jù)服從高斯分布。當建模的假設(shè)近似正確時，高斯判別分析對數(shù)據(jù)的應(yīng)用更高效，因為模型知道數(shù)據(jù)服從高斯分布，并且直接獲取了高斯分布的均值和方差，因此在數(shù)據(jù)量較少的情形下能有較好效果。如果數(shù)據(jù)的實際分布與假設(shè)相悖時，效果往往會比較差。Logistic回歸做出的模型假設(shè)相比之下很弱，因此對模型的假設(shè)具有更好的魯棒性。舉個例子，如果數(shù)據(jù)呈現(xiàn)的不是高斯分布而是Poisson分布，但是我們?nèi)匀患僭O(shè)$x|y$服從高斯分布，這時logistic回歸的性能仍然會很好。原因很簡單，不管$x|y$是服從高斯分布還是Poisson分布，$p(y=1|x)$最終都可以簡化成logistic函數(shù)的形式。但如果我們采用GDA在非高斯分布的數(shù)據(jù)上用高斯模型擬合，就無法保證能取得較好的結(jié)果。在我們不確定$x|y$的概率分布的情況下，用logistic回歸更穩(wěn)妥，也是基于這個原因，logistic回歸實際上用得更多一些。

以下是GDA相關(guān)實驗的一個小Demo截圖和簡要說明，實驗代碼在這里下載。實驗中用兩個均值不同但方差相同的高斯模型隨機生成了400個1維的樣本點，其中兩類樣本之比為$3:2$，而且兩類樣本見存在重疊;將整個數(shù)據(jù)集拆分成容量為$9:1$的兩部分，前者作為訓練集，后者作為測試集。橫坐標上的藍色和綠色點表示兩類樣本；藍色和綠色曲線標明了整個訓練集屬于兩類的概率；紅色曲線則表明了$p(y=1|x)$的值，從實驗角度證明$p(y=1|x)$形式上為logistic函數(shù)。在生成下圖的這次運行實例中，正確分類率為$0.975$。

Gaussian Discriminant Analysis

更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索：z360901061

微信掃一掃加我為好友

QQ號聯(lián)系： 360901061

您的支持是博主寫作最大的動力，如果您喜歡我的文章，感覺我的文章對您有幫助，請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧，狠狠點擊下面給點支持吧，站長非常感激您！手機微信長按不能支付解決辦法：請將微信支付二維碼保存到相冊，切換到微信，然后點擊微信右上角掃一掃功能，選擇支付二維碼完成支付。

【本文對您有幫助就好】元

2元

5元

10元

20元

自定義

亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频