損失函數(shù)(loss function)用來表示當(dāng)前的神經(jīng)網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)不擬合的程度。這個(gè)損失函數(shù)有很多,但是一般使用均方誤差和交叉熵誤差等。
1.均方誤差(mean squared error)
先來看一下表達(dá)式:
用于將
的求導(dǎo)結(jié)果變成
,
是神經(jīng)網(wǎng)絡(luò)的輸出,
是訓(xùn)練數(shù)據(jù)的標(biāo)簽值,k表示數(shù)據(jù)的維度。
用python實(shí)現(xiàn):
def MSE(y, t):
return 0.5 * np.sum((y - t)**2)
使用這個(gè)函數(shù)來具體計(jì)算以下:
t = [0, 1, 0, 0]
y = [0.1, 0.05, 0.05, 0.8]
print(MSE(np.array(y), np.array(t)))
t = [0, 1, 0, 0]
y = [0.1, 0.8, 0.05, 0.05]
print(MSE(np.array(y), np.array(t)))
輸出結(jié)果為:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
這里正確標(biāo)簽用one-hot編碼,y用softmax輸出表示。第一個(gè)例子的正確標(biāo)簽為2,對應(yīng)的概率為0.05,第二個(gè)例子對應(yīng)標(biāo)簽為0.8.可以發(fā)現(xiàn)第二個(gè)例子的損失函數(shù)的值更小,和訓(xùn)練數(shù)據(jù)更吻合。
2.交叉熵誤差(cross entropy error)
除了均方誤差之外,交叉熵誤差也常被用做損失函數(shù)。表達(dá)式為:
這里,log表示以e為底的自然對數(shù)(
)。
是神經(jīng)網(wǎng)絡(luò)的輸出,
是訓(xùn)練數(shù)據(jù)的標(biāo)簽值。并且,
中只有正確解標(biāo)簽的索引為1,其他均為0(one-hot)表示。因此這個(gè)式子實(shí)際上只計(jì)算對應(yīng)正確解標(biāo)簽的輸出的自然對數(shù)。
自然對數(shù)的圖像為:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
所以輸出的概率越大對應(yīng)損失函數(shù)的值越低。
代碼實(shí)現(xiàn)交叉熵誤差:
def cross_entropy_error(y, t):
delta = 1e-7
return -np.sum(t * np.log(y + delta))
這里設(shè)置delta,是因?yàn)楫?dāng)出現(xiàn)log(0)時(shí),np.log(0)會(huì)變?yōu)樨?fù)無窮大。所以添加一個(gè)微小值可以防止負(fù)無窮大的發(fā)生。
還用剛剛那個(gè)例子:
t = [0, 1, 0, 0]
y = [0.1, 0.05, 0.05, 0.8]
print(cross_entropy_error(np.array(y), np.array(t)))
t = [0, 1, 0, 0]
y = [0.1, 0.8, 0.05, 0.05]
print(cross_entropy_error(np.array(y), np.array(t)))
輸出為:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
可以看出輸出值的概率越大損失值就越小。
?
-
交叉熵誤差的改進(jìn):
前面介紹了損失函數(shù)的實(shí)現(xiàn)都是針對單個(gè)數(shù)據(jù)。如果要求所有訓(xùn)練數(shù)據(jù)的損失函數(shù)的總和,以交叉熵為例,可以寫成下面的式子:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
這里,假設(shè)數(shù)據(jù)有N個(gè),
表示第n個(gè)數(shù)據(jù)的第k個(gè)元素的值。式子雖然看起來復(fù)雜,其實(shí)只是把求單個(gè)數(shù)據(jù)的損失函數(shù)擴(kuò)大到了N份數(shù)據(jù),不過最后要除以N進(jìn)行正規(guī)化。
通過除以N,可以求單個(gè)數(shù)據(jù)的“平均損失函數(shù)”。通過這樣的平均化,可以獲得和訓(xùn)練數(shù)據(jù)的數(shù)量無關(guān)的統(tǒng)一指標(biāo)。比如,即使訓(xùn)練數(shù)據(jù)有100或1000個(gè),也可以求得單個(gè)數(shù)據(jù)的平均損失函數(shù)。
所以對之前計(jì)算單個(gè)數(shù)據(jù)交叉熵進(jìn)行改進(jìn),可以同時(shí)處理單個(gè)數(shù)據(jù)和批量數(shù)據(jù):
def cross_entropy_error(y, t):
if y.ndim == 1:
t = t.reshape(1, t.size)
y = y.reshape(1, y.size)
batch_size = y.shape[0]
delta = 1e-7
return -np.sum(t * np.log(y + delta)) / batch_size
但是,對于訓(xùn)練數(shù)據(jù)不是one-hot表示,而是普通標(biāo)簽表示怎么辦呢(例如一批處理5個(gè)數(shù)據(jù)的 標(biāo)簽值 為[2,5,7,3,4])。輸出的數(shù)組是5行N列的,這里以手寫數(shù)字識別為例所以N=10。 所以我們計(jì)算的交叉熵誤差其實(shí)計(jì)算的是對應(yīng)每一行,其中某一列的對數(shù)之和 。例如標(biāo)簽值[2,5,7,3,4],選擇的是 輸出結(jié)果 的第一行第2個(gè),第二行第5個(gè),第三行第7個(gè)...可能表達(dá)的不是很清楚,看下代碼實(shí)現(xiàn)應(yīng)該好多了。
def cross_entropy_error(y, t):
if y.ndim == 1:
t = t.reshape(1, t.size)
y = y.reshape(1, y.size)
batch_size = y.shape[0]
delta = 1e-7
return -np.sum(np.log(y[np.arange(batch_size), t] + delta)) / batch_size
也就是說,這里的標(biāo)簽值是作為輸出數(shù)組的索引,用于定位。
?
?
?
?
?
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯(lián)系: 360901061
您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
