互聯網文本處理挑戰巨大 中文分詞系統設計如何
系統
2038 0
互聯網文本處理挑戰巨大 中文分詞系統設計如何面對? - Linux環境編程 - ChinaUnix.net -
-
空間積分
-
0
-
信譽積分
-
371
-
UID
-
25203957
-
閱讀權限
-
100
-
積分
-
2979
-
帖子
-
874
-
精華
-
1
-
可用積分
-
2981
-
專家積分
-
10
-
在線時間
-
1481 小時
-
注冊時間
-
2011-04-11
-
最后登錄
-
2012-06-05
?
-
帖子
-
874
-
主題
-
41
-
精華
-
1
-
可用積分
-
2981
-
專家積分
-
10
-
在線時間
-
1481 小時
-
注冊時間
-
2011-04-11
-
最后登錄
-
2012-06-05
-
論壇徽章:
-
0
|
? ?? ?互聯網文本處理挑戰巨大 中文分詞系統設計如何面對?互聯網的發展為文本處理提出了巨大需求和挑戰。因為漢語的詞語之間沒有明顯的分隔符,中文文本處理的首要問題往往是中文分詞問題。
? ?? ?很多網站很想開展一些基于文本處理的應用,但首先就會被中文分詞這個任務卡住。中文分詞被視為一個很復雜的任務。網上有一些開源的算法,比如基于詞典算法,比如最大匹配算法,十分簡單,但是基本無法處理未登錄詞。國內比較好的中科院的ICTCLAS系統,只有一個月的試用期,無法直接嵌入到我們自己的系統中。而且,那種系統十分復雜,對其進行擴展和修改是一個比較艱巨的任務。所以我們組織了這一次中文分詞系統的設計話題討論活動
? ?? ? 我們將首先向大家介紹一種十分簡單而有效的新的分詞方法。這種分詞方法基于一個由我們提出的字串成詞概率,是我們獨創的。這個系統很容易掌握,分詞效果逼近于目前較好的較復雜的分詞系統,完全能夠滿足很多實用要求。因為其簡單易用,便于新手入門學習;也便于在一些小規模系統中進行應用。我們可以提供完整的源代碼和成型的系統。大家可以下載安裝后,對源代碼進行修改,補充詞語資源,實踐應用等。
? ?? ? 其次,我們還將介紹并與大家一起討論一種具有學術前瞻性的中文分詞的新的方法。這個方法是為目前最流行的基于字標注的分詞方法引入了一種新的特征。這種方法較為復雜,理論性更強,可與對中文分詞這個話題有深入興趣的朋友一起討論交流。
? ?? ? 中文分詞仍是一個開放性的問題,最近學術界仍不斷有新的成果出現。我們希望與您不受限制地討論這個話題,可以是各種方法,各種已出現的源碼或系統。
本期討論話題:
話題1: 一種基于字串成詞概率的簡單有效的中文分詞方案
話題2: 一種引入新的字標注特征的中文分詞方案
話題3: 關于中文分詞方法的開放討論
本期嘉賓:
huihui_2012??專業從事自然語言領域研究,目前正要在CU推廣自己研制的中文分詞相關系統,材料整理中。
crazyhadoop Linux環境編程版版主
活動時間
:5月28日-6月18日
活動規則:
1. 請針對上述問題跟貼回復,分享你的觀點和看法;
2. 貼子觀點鮮明、理由充分、邏輯清晰、有理有據;
3. 要求原創,盡可能結合自身實踐來談,抄襲、轉載貼不能評選優秀回復貼;
4. 字數不少于50字。
活動獎勵:
1、精彩討論獎,選取1名優秀回復者將獲得價值100元的《數據挖掘:實用機器學習工具與技術》(英文版.第3版)一書;
2、優秀討論獎,選取3名優秀回復者將獲得價值50元的《數據挖掘:實用機器學習工具與技術》(中文版.第2版)一書;
3、積極參與獎,凡參與回復討論著將獲得20 CU積分。
|
|
互聯網文本處理挑戰巨大 中文分詞系統設計如何面對? - Linux環境編程 - ChinaUnix.net -
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061
微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元