亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

基于統計的中文分詞

系統 1605 0

分詞方法

目前的分詞方法歸納起來有3 類:

  第一類是基于語法和規則的分詞法。其基本思想就是在分詞的同時進行句法、語義分析, 利用句法信息和語義信息來進行詞性標注, 以解決分詞歧義現象。因為現有的語法知識、句法規則十分籠統、復雜, 基于語法和規則的分詞法所能達到的精確度遠遠還不能令人滿意, 目前這種分詞系統還處在試驗階段。

  第二類是機械式分詞法(即基于詞典)。機械分詞的原理是將文檔中的字符串與詞典中的詞條進行逐一匹配, 如果詞典中找到某個字符串, 則匹配成功, 可以切分, 否則不予切分。基于詞典的機械分詞法, 實現簡單, 實用性強, 但機械分詞法的最大的缺點就是詞典的完備性不能得到保證。據統計, 用一個含有70 000 個詞的詞典去切分含有15 000 個詞的語料庫, 仍然有30% 以上的詞條沒有被分出來, 也就是說有4500 個詞沒有在詞典中登錄。

  第三類是基于統計的方法。基于統計的分詞法的基本原理是根據字符串在語料庫中出現的統計頻率來決定其是否構成詞。詞是字的組合, 相鄰的字同時出現的次數越多, 就越有可能構成一個詞。因此字與字相鄰共現的頻率或概率能夠較好的反映它們成為詞的可信度。

基于統計分詞

1.什么是基于統計的分詞模型
  令C=C1C2...Cm.C 是待切分的漢字串,W=W1W2...Wn.W 是切分的結果。
  設P(WlC)是漢字串C切分為W的某種估計概率。
  Wa,Wb,?.Wk是C的所有可能的切分方案。那么,基于統計的切分模型就是這樣的一種分詞模型,它能夠找到目的詞串W ,使得W 滿足:
  P(W|C)=MAX(P(Wa|C),P(Wb|C)...P(Wk|C)),
  即估計概率為最大之詞串。我們稱函數P(W|C)為評價函數。一般的基于統計的分詞模型的評價函數,都是根據貝葉斯公式.同時結合系統本身的資源限制,經過一定的簡化,近似得來的。

  2.P(W|C)在不同資源需求下的近似方法

  根據貝葉斯公式, 有:P(W|C)=P(W) P(C|W)/P(C),對于C的多種切分方案,P(C)是一常數,而P(C|W)是在給定詞串的條件下出現字串C的概率,故P(C|W)=1。所以 ,我們用P(W)來代替P(W|C)。那么,如何估計P(W)呢?最直接的估計P(W)的方法利用詞的n-gram,即:
  P(W)=P(W1) P(W2lW1) P(W3|W1W2)?P(Wk|W1,W2...Wk-1)

  但是,由于當前的計算機技術和我們現有的語料資源所限,這種方法存在致命的缺陷:

  ①對于有6萬詞的詞典而言,僅詞和詞的bigram就可能需要60000 x 60000=3600M的統計空間,這是當前的計算機硬件水平所難以接受的,更不要說更大的n-gram 了。
  ②需要與上述空間相當的熟語料,否則就會產生訓練語料不足所產生的數據稀疏問題。
  ③由于不同領域的語料庫的用詞有所差異,針對某一個領域的語料庫統計出來的n-gram,若用于其它領域,其效果難以預料,而目前通過語料庫搭配來克服領域差民間的方法尚未成熟。

  因此,利用詞的n-gram 直接估計P(W)的方法,在目前是不可行的。基于上述的原因,大多數基于統計的分詞模型都沒有直接采用上述公式,而是采用各種各樣的估計方法,從不同的角度,實現對P(W)的近似。

  3.馬爾可夫假設

  馬爾可夫假設任意一個詞Wi出現的概率只同它前面的詞Wi-1有關,于是把上面的公式簡化成:

P(W)=P(W1) P(W2lW1) P(W3|W2)?P(Wk|Wk-1)

  這里對應的統計語言模型是二元模型。也可以假設一個詞由前面n-1個詞決定,對應的模型稱為n元模型。

  接著估算條件概率:

  P(Wi|Wi-1)=P(Wi-1,Wi)/P(Wi-1)

  而計算聯合概率P(Wi-1,Wi)和邊緣概率P(Wi-1),只要通過語料庫數一數Wi-1,Wi這對詞在統計的文本中前后相鄰出現了多少次#(Wi-1,Wi),以及Wi-1本身在同樣的文本中出現了多少次#(Wi-1),然后用兩個數分別除以語料庫的大小#,即可得到這些詞或二元組的相對頻度,再根據大數定理,只要統計量足夠,相對頻度就等于概率:

  P(Wi-1,Wi)~f(Wi-1,Wi)=#(Wi-1,Wi)/#? ;? p(Wi-1)~f(Wi-1)=#(Wi-1)/#

  所以最后:

P(Wi|Wi-1)=#(Wi-1,Wi)/#(Wi-1)

?

  參考文獻:

  <基于統計的漢語分詞模型及實現方法>

  <基于統計的無詞典分詞方法>

  <數學之美>

?

基于統計的中文分詞


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 久青草国产手机在线观 | 亚洲 另类色区 欧美日韩 | 九九免费视频 | 日本 a| 99热这里只有精品7 99热这里只有精品8 | 69精品 | 97在线观看免费观看高清 | 成人国产在线观看 | 国产成人精品男人免费 | 亚洲一区二区三区免费观看 | 在线视频不卡国产在线视频不卡 | 久久www免费人成_看片美女图 | 国产一区a| 日本中文字幕在线观看视频 | 在线视频不卡国产在线视频不卡 | 日韩成人精品视频 | 久久午夜剧场 | 五月婷婷精品 | 咪咪爱在线视频 | 久久综合色之久久综合 | 日本特黄一级午夜剧场毛片 | 久久精品在线观看 | 日本一区二区网站 | 欧美一区三区 | 亚洲视频在线观看免费视频 | 欧美影院一区二区三区 | 香蕉视频在线免费看 | 欧美高清一区二区三区欧美 | 久久精品国产亚洲网址 | 欧美日韩一区二区三区毛片 | 天堂一区二区在线观看 | 亚洲成人免费观看 | 日产国产精品久久久久久 | 在线观看日本免费视频大片一区 | 亚洲精品高清久久 | 老司机午夜精品视频在线观看免费 | 亚洲国产成人资源在线桃色 | 天天做天天爱天天综合网 | 四虎在线视频观看 | 成人欧美一区二区三区 | 欧美特黄aaaaaa |