亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

Gaussian Discriminant Analysis

系統(tǒng) 2326 0

?

如果在我們的分類問題中,輸入特征$x$是連續(xù)型隨機變量,高斯判別模型(Gaussian Discriminant Analysis,GDA)就可以派上用場了。

以二分類問題為例進行說明,模型建立如下:

  1. 樣本輸入特征為\(x\in\mathbb{R}^n\),其類別\(y\in\{0,1\}\);
  2. 樣本類別\(y\)服從參數(shù)為\(\phi\)的伯努力分布,即\(y\sim Bernoulli(\phi)\);
  3. 兩類樣本分別服從不同的高斯分布,即\(x|y=0\sim\mathcal{N}(\mu_0,\Sigma),x|y=1\sim\mathcal{N}(\mu_1,\Sigma)\);

對應(yīng)的概率分布形式如下:
\begin{equation}
p(y)=\phi^y(1-\phi)^{1-y}
\end{equation}
\begin{equation}
p(x|y=0)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}\exp(-\frac{1}{2}(x-\mu_0)^T\Sigma^{-1}(x-\mu_0))
\end{equation}
\begin{equation}
p(x|y=1)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}\exp(-\frac{1}{2}(x-\mu_1)^T\Sigma^{-1}(x-\mu_1))
\end{equation}
\begin{equation}
p(x|y)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}\exp(-\frac{1}{2}(x-\mu_y)^T\Sigma^{-1}(x-\mu_y))
\end{equation}

我們模型的參數(shù)包括\(\phi,\mu_0,\mu_1,\Sigma\)。這里的兩個高斯分布具有不同的均值\(\mu_0\)和\(\mu_1\),但在實際應(yīng)用中一般取相同的方差\(\Sigma\)。

給定包含\(m\)個樣本的訓練集\(\mathcal{S}=\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(m)},y^{(m)})\}\),似然函數(shù)形式如下:
\begin{equation}
\begin{array}{ll}
&\quad\mathcal{L}(\phi,\mu_0,\mu_1,\Sigma)\\
&=\log\prod_{i=1}^m p(x^{(i)},y^{(i)};\phi,\mu_0,\mu_1,\Sigma)\\
&=\log\prod_{i=1}^m p(x^{(i)}|y^{(i)};\mu_0,\mu_1,\Sigma)p(y^{(i)};\phi)\\
&=\sum_{i=1}^m\log p(x^{(i)}|y^{(i)};\mu_0,\mu_1,\Sigma)+\log p(y^{(i)};\phi)\\
&=\sum_{i=1}^m\left[-\frac{1}{2}(x^{(i)}-\mu_{y^{(i)}})^T\Sigma^{-1}(x^{(i)}-\mu_{y^{(i)}})\right.\\
&\quad\left.-\frac{n}{2}\log(2\pi)-\frac{1}{2}\log|\Sigma^{-1}|+y^{(i)}\log\phi\right.\\
&\quad\left.+(1-y^{(i)})\log(1-\phi)\right]
\end{array}
\end{equation}

通過最大似然進行參數(shù)估計,用似然函數(shù)\(\mathcal{L}\)對各個參數(shù)求偏導:
\begin{equation}
\begin{array}{ll}
&\quad\frac{\partial\mathcal{L}(\phi,\mu_0,\mu_1,\Sigma)}{\partial\phi}\\
&=\frac{\partial}{\partial\phi}\sum_{i=1}^m\left[y^{(i)}\log\phi+(1-y^{(i)})\log(1-\phi)\right]\\
&=\sum_{i=1}^m\frac{y^{(i)}}{\phi}-\frac{1-y^{(i)}}{1-\phi}\\
&=\sum_{i=1}^m\frac{y^{(i)}-\phi}{\phi(1-\phi)}=0\\
&\Rightarrow \phi=\frac{\sum_{i=1}^my^{(i)}}{m}=\frac{\sum_{i=1}^m1\{y^{(i)}=1\}}{m}
\end{array}
\end{equation}
\begin{equation}
\begin{array}{ll}
&\quad\frac{\partial\mathcal{L}(\phi,\mu_0,\mu_1,\Sigma)}{\partial\mu_0}\\
&=\frac{\partial}{\partial\phi}\sum_{i=1}^m\left[-\frac{1}{2}1\{y^{(i)}=0\}(x^{(i)}-\mu_{0})^T\Sigma^{-1}(x^{(i)}-\mu_{0})\right]\\
&=\frac{\partial}{\partial\mu_0}\sum_{i=1}^m-\frac{1}{2}1\{y^{(i)}=0\}\\
&\quad\cdot Tr[\mu_0^T\Sigma^{-1}\mu_0-\mu_0^T\Sigma^{-1}x^{(i)}-(x^{(i)})^T\Sigma^{-1}\mu_0]\\
&=\sum_{i=1}^m1\{y^{(i)}=0\}\Sigma^{-1}(x^{(i)}-\mu_0)=0\\
&\Rightarrow \mu_0=\frac{\sum_{i=1}^m1\{y^{(i)}=0\}x^{(i)}}{\sum_{i=1}^m1\{y^{(i)}=0\}}
\end{array}
\end{equation}
同理,可得
\begin{equation}
\mu_1=\frac{\sum_{i=1}^m1\{y^{(i)}=1\}x^{(i)}}{\sum_{i=1}^m1\{y^{(i)}=1\}}
\end{equation}
\begin{equation}
\begin{array}{ll}
&\quad\frac{\partial\mathcal{L}(\phi,\mu_0,\mu_1,\Sigma)}{\partial\Sigma}\\
&=\frac{\partial}{\partial\Sigma}[-\frac{1}{2}(x^{(i)}-\mu_{y^{(i)}})^T\Sigma^{-1}(x^{(i)}-\mu_{y{(i)}})-\frac{1}{2}\log|\Sigma|]\\
&=\sum_{i=1}^m\frac{1}{2}[\left(\Sigma^{-1}(x^{(i)}-\mu_{y^{(i)}})(x^{(i)}-\mu_{y^{(i)}})^T\Sigma^{-1}\right)^T-(\Sigma^{-1})^T]\\
&=\frac{1}{2}\sum_{i=1}^m(x^{(i)}-\mu_{y^{(i)}})(x^{(i)}-\mu_{y^{(i)}})^T-\Sigma=0\\
&\Rightarrow \Sigma=\frac{1}{m}(x^{(i)}-\mu_{y^{(i)}})(x^{(i)}-\mu_{y^{(i)}})^T
\end{array}
\end{equation}

仔細分析一下估計出的四個參數(shù),我們會發(fā)現(xiàn)$\phi$就是在訓練集上統(tǒng)計出的\(y=1\)的樣本出現(xiàn)的概率,\(\mu_0\)和\(\mu_1\)則分別為兩類樣本各自的均值,\(\Sigma\)為整個訓練集上的樣本方差。

有了這些參數(shù),我們怎樣進行預(yù)測呢?這就很簡單了,將各參數(shù)帶入\(p(x|y)\)和\(p(y)\),利用\(p(x|y)p(y)=p(x,y)\)可導出聯(lián)合概率,我們?nèi)∈孤?lián)合概率\(p(x,y)\)最大的類別\(y\)即可
\begin{equation}
\underset{y\in\{0,1\}}{arg\max}{\;p(x|y)p(y)}
\end{equation}

最后,我們來分析高斯判別模型和Logistic回歸之間的情緣。如果\(x|y\)服從高斯分布\(\mathcal{N}(\mu,\Sigma)\)(只針對\(y\)取兩個離散值的情況),則\(p(y|x)\)具有l(wèi)ogistic函數(shù)的形式;反過來,\(p(y|x)\)形式上為logistic函數(shù)并不能說明\(x|y\sim\mathcal{N}(\mu,\Sigma)\)。實際上,有很多組假設(shè)都能使\(p(y|x)\)有l(wèi)ogistic函數(shù)的形式,只要假設(shè)滿足\(x|y\)服從指數(shù)族分布(Exponential Family Distribution)。例如,\(x|y=0\sim Poisson(\lambda_0)\)和\(x|y=1\sim Poisson(\lambda_1)\),則\(p(y|x)\)在形式上同樣為logistic函數(shù)。以高斯判別分析為例,簡單證明一下:
\begin{equation}
\begin{array}{ll}
&p(y=1|x)\\
=&\frac{p(x|y=1)p(y=1)}{p(x|y=1)p(y=1)+p(x|y=0)p(y=0)}\\
=&\frac{\exp\left(-\frac{1}{2}(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)\right)\phi}{\exp\left(-\frac{1}{2}(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)\right)\phi+\exp\left(-\frac{1}{2}(x-\mu_0)^T\Sigma^{-1}(x-\mu_0)\right)(1-\phi)}\\
=&\frac{1}{1+\exp\left(\frac{1}{2}(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)-\frac{1}{2}(x-\mu_0)^T\Sigma^{-1}(x-\mu_0)\right)\frac{1-\phi}{\phi}}\\
=&\frac{1}{1+\exp\left(x^T\Sigma^{-1}(\mu_0-\mu_1)+\frac{1}{2}\mu_1^T\Sigma^{-1}\mu_1-\frac{1}{2}\mu_0^T\Sigma^{-1}\mu_0+\log(1-\phi)-\log\phi\right)}
\end{array}
\end{equation}

高斯判別分析在建模時提出了很強的假設(shè),那就是各個類別的數(shù)據(jù)服從高斯分布。當建模的假設(shè)近似正確時,高斯判別分析對數(shù)據(jù)的應(yīng)用更高效,因為模型知道數(shù)據(jù)服從高斯分布,并且直接獲取了高斯分布的均值和方差,因此在數(shù)據(jù)量較少的情形下能有較好效果。如果數(shù)據(jù)的實際分布與假設(shè)相悖時,效果往往會比較差。Logistic回歸做出的模型假設(shè)相比之下很弱,因此對模型的假設(shè)具有更好的魯棒性。舉個例子,如果數(shù)據(jù)呈現(xiàn)的不是高斯分布而是Poisson分布,但是我們?nèi)匀患僭O(shè)\(x|y\)服從高斯分布,這時logistic回歸的性能仍然會很好。原因很簡單,不管\(x|y\)是服從高斯分布還是Poisson分布,\(p(y=1|x)\)最終都可以簡化成logistic函數(shù)的形式。但如果我們采用GDA在非高斯分布的數(shù)據(jù)上用高斯模型擬合,就無法保證能取得較好的結(jié)果。在我們不確定\(x|y\)的概率分布的情況下,用logistic回歸更穩(wěn)妥,也是基于這個原因,logistic回歸實際上用得更多一些。

以下是GDA相關(guān)實驗的一個小Demo截圖和簡要說明, 實驗代碼在這里下載 。實驗中用兩個均值不同但方差相同的高斯模型隨機生成了400個1維的樣本點,其中兩類樣本之比為\(3:2\),而且兩類樣本見存在重疊;將整個數(shù)據(jù)集拆分成容量為\(9:1\)的兩部分,前者作為訓練集,后者作為測試集。橫坐標上的藍色和綠色點表示兩類樣本;藍色和綠色曲線標明了整個訓練集屬于兩類的概率;紅色曲線則表明了\(p(y=1|x)\)的值,從實驗角度證明\(p(y=1|x)\)形式上為logistic函數(shù)。在生成下圖的這次運行實例中,正確分類率為\(0.975\)。

Gaussian Discriminant Analysis_第1張圖片

Gaussian Discriminant Analysis


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯(lián)系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發(fā)表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 中文精品久久久久国产网址 | 亚洲日产 | 国产成人8x视频一区二区 | 欧美亚洲国产日韩一区二区三区 | 性大特级毛片视频 | 操操干| 久久做 | 亚洲精品日本一区二区在线 | 狠狠色香婷婷久久亚洲精品 | 狠狠色噜狠狠狠狠色综合久 | 国产日韩网站 | 天天干天天射天天爽 | 福利视频网| 米奇777第四久久久99 | 97久久精品国产成人影院 | 国产精品一区二区在线播放 | 国产精品欧美日韩视频一区 | 午夜影院福利 | 97久久精品| 久久er热这里只有精品23 | 91精品国产综合久久久久久 | 中文字幕色婷婷在线视频 | 亚洲成精品动漫久久精久 | 亚洲在线视频播放 | 亚洲午夜片子大全精品 | 中文字幕在线欧美 | 国产亚洲欧美在在线人成 | bbw老妇xxx | 亚洲一区二区三区视频 | 欧美区一区二区三 | 青青青免费手机版视频在线观看 | 欧美久久精品 | 久久精品视频免费观看 | 精品久久久久久中文字幕无碍 | 欧美一欧美一区二三区性 | 四虎影视在线看免费观看 | 嫩草影院麻豆久久视频 | 视频在线观看91 | 欧美精品久久久久久久免费观看 | 成人黄性视频 | 老子影院午夜伦手机不四虎 |