一、 中文分詞方式:
中文分詞幾種常用的方式:
A. 單字分詞
單字分詞,顧名思義,就是按照中文一個字一個字地進行分詞。如:我們是中國人,效果:我 \ 們 \ 是 \ 中 \ 國 \ 人。
B. 二分法
二分法,就是按兩個字進行切分。如:我們是中國人,效果:我們 \ 們是 \ 是中 \ 中國 \ 國人。
C. 詞庫分詞
詞庫分詞,就是按某種算法構造詞然后去匹配已建好的詞庫集合,如果匹配到就切分出來成為詞語。通常詞庫分詞被認為是最理想的中文分詞算法如:我們是中國人,通成效果為:我們 \ 是 \ 中國 \ 中國人。
二、 Lucene.net 中五種中文分詞效果探究
在 Lucene.net 中有很多種分詞器,不同分詞器使用了不同的分詞算法,有不同的分詞效果,滿足不同的需求!在這里主要是看看其中五中分詞器用來對中文切詞的效果。五中分詞器分 別為: StandardTokenizer , CJKTokenizer , ChinessTokenizer , LowerCaseTokenizer , WhitespaceTokenizer;
?? 下面就來測試一下它們切詞的效果:
??
測試目標:是否支持中文詞語,英文單詞,郵件,
IP
地址,標點符號,數字,數學表達式的切割。
??
測試文字:“我們是中國人
;
我們 是 人
;we are chiness; 172.16.34.172;youpeizun@126.com;#$*;85*34;58 <st1:chmetcnv tcsc="0" hasspace="False" sourcevalue="69" numbertype="1" negative="False" unitname="”" w:st="on">69
”
</st1:chmetcnv>
測試 StandardTokenizer 的分詞情況如下: 我 / 們 / 是 / 中 / 國 / 人 / 我 / 們 / 是 / 人 / we/ are/ chiness/ 172.16.34.172/ youpeizun@126.com/ 85/ 34/ 58/ 69/ 測試 CJKTokenizer 的分詞情況如下: 我們 / 們是 / 是中 / 中國 / 國人 / 我們 / 是 / 人 / we/ chiness/ 172/ 16/ 34/ 172/ youpe izun/ 126/ com/ #/ 85/ 34/ 58/ 69/ 測試 ChinessTokenizer 的分詞情況如下: 我 / 們 / 是 / 中 / 國 / 人 / 我 / 們 / 是 / 人 / we/ are/ chiness/ 172/ 16/ 34/ 172/ youp eizun/ 126/ com/ 85/ 34/ 58/ 69/ 測試 LowerCaseTokenizer 的分詞情況如下: 我們是中國人 / 我們 / 是 / 人 /we/are/chiness/youpeizun/com/ 測試 WhitespaceTokenizer 的分詞情況如下: 我們是中國人 ;/ 我們 / 是 / 人 ;we/are/chiness;/172.16.34.172;youpeizun@126.com;#$*;85* 34;58/69/ |
測試代碼:
一、
中文分詞方式:

<!---->









































































































?
中文分詞幾種常用的方式:
A. 單字分詞
單字分詞,顧名思義,就是按照中文一個字一個字地進行分詞。如:我們是中國人,效果:我 \ 們 \ 是 \ 中 \ 國 \ 人。
B. 二分法
二分法,就是按兩個字進行切分。如:我們是中國人,效果:我們 \ 們是 \ 是中 \ 中國 \ 國人。
C. 詞庫分詞
詞庫分詞,就是按某種算法構造詞然后去匹配已建好的詞庫集合,如果匹配到就切分出來成為詞語。通常詞庫分詞被認為是最理想的中文分詞算法如:我們是中國人,通成效果為:我們 \ 是 \ 中國 \ 中國人。
二、 Lucene.net 中五種中文分詞效果探究
在 Lucene.net 中有很多種分詞器,不同分詞器使用了不同的分詞算法,有不同的分詞效果,滿足不同的需求!在這里主要是看看其中五中分詞器用來對中文切詞的效果。五中分詞器分 別為: StandardTokenizer , CJKTokenizer , ChinessTokenizer , LowerCaseTokenizer , WhitespaceTokenizer;
?? 下面就來測試一下它們切詞的效果:
??
測試目標:是否支持中文詞語,英文單詞,郵件,
IP
地址,標點符號,數字,數學表達式的切割。
??
測試文字:“我們是中國人
;
我們 是 人
;we are chiness; 172.16.34.172;youpeizun@126.com;#$*;85*34;58 <st1:chmetcnv tcsc="0" hasspace="False" sourcevalue="69" numbertype="1" negative="False" unitname="”" w:st="on">69
”
</st1:chmetcnv>
測試 StandardTokenizer 的分詞情況如下: 我 / 們 / 是 / 中 / 國 / 人 / 我 / 們 / 是 / 人 / we/ are/ chiness/ 172.16.34.172/ youpeizun@126.com/ 85/ 34/ 58/ 69/ 測試 CJKTokenizer 的分詞情況如下: 我們 / 們是 / 是中 / 中國 / 國人 / 我們 / 是 / 人 / we/ chiness/ 172/ 16/ 34/ 172/ youpe izun/ 126/ com/ #/ 85/ 34/ 58/ 69/ 測試 ChinessTokenizer 的分詞情況如下: 我 / 們 / 是 / 中 / 國 / 人 / 我 / 們 / 是 / 人 / we/ are/ chiness/ 172/ 16/ 34/ 172/ youp eizun/ 126/ com/ 85/ 34/ 58/ 69/ 測試 LowerCaseTokenizer 的分詞情況如下: 我們是中國人 / 我們 / 是 / 人 /we/are/chiness/youpeizun/com/ 測試 WhitespaceTokenizer 的分詞情況如下: 我們是中國人 ;/ 我們 / 是 / 人 ;we/are/chiness;/172.16.34.172;youpeizun@126.com;#$*;85* 34;58/69/ |
測試代碼:
測試代代碼下載

<!---->






























更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
