1. OpenCC介紹
Open Chinese Convert(OpenCC)是一個開源的中文簡繁轉換項目,致力于制作高質量的基于統計預料的簡繁轉換詞庫。還提供函數庫(libopencc)、命令行簡繁轉換工具、人工校對工具、詞典生成程序、在線轉換服務及圖形用戶界面。
OpenCC具體如下特點
- 嚴格區分「一簡對多繁」、「一簡對多異」和「地域用詞差別」。
- 支持異體字轉換,兼容陸港澳臺等不同地區用字差別。
-
嚴格審校一簡對多繁詞條,原則為「能分則不合」,用戶可自定義合并。
支持中國大陸、臺灣、香港異體字和地區習慣用詞轉換,如「裏」「裡」、「鼠標」「滑鼠」。 - 詞庫和函數庫完全分離,可以自由修改、導入、擴展。
- 支持C、C++、Python、PHP、Node.js等多種語言API,提供命令行直接調用,以及圖形界面。
- 兼容Windows、Linux、Mac等多種平臺。
2. OpenCC-python
用法請詳細參考OpenCC-python in pypi
2.1 安裝
pip install opencc-python
2.2 使用示例
#!/usr/bin/env python
#-*- coding: utf8 -*-
import opencc
cc = opencc.OpenCC('t2s')
print cc.convert(u'Open Chinese Convert(OpenCC)「開放中文轉換」,是一個致力於中文簡繁轉換的項目,提供高質量詞庫和函數庫(libopencc)。')
OpenCC有4種轉換模式
- t2s - 繁體轉簡體
- s2t - 簡體轉繁體
- mix2t - 混合體轉繁體
- mix2s - 混合體轉簡體
3. Shell用法
opencc-python的文本處理效率很低。另外一種提高轉換效率的方式是直接在linux下安裝OpenCC,處理效率會有飛一般的提升。
3.1 OpenCC安裝
安裝過程及問題主要參考: CentOS安裝OpenCC
3.1.1 檢查下linux環境下是否已經安裝cmake以及git,如果沒有,那就通過yum安裝好。
$ yum install cmake
$ yum install git
3.1.2 克隆下OpennCC開源項目OpennCC開源項目。
git clone https://github.com/BYVoid/OpenCC
3.1.3 編譯OpenCC
$ cd OpenCC
$ make
$ make install
3.1.4 創建libopencc.so.2鏈接
如果不知道libopencc.so.2的路徑,可以通過find / -name libopencc.so.2查找。
$ ln -s /usr/lib/libopencc.so.2 /usr/lib64/libopencc.so.2
3.1.5 通過查看 OpenCC 版本,檢查OpenCC是否已經安裝成功
$ opencc --version
3.2 OpenCC使用
#繁體轉簡體
$ echo '歐幾里得 西元前三世紀的希臘數學家' | opencc -c t2s
歐幾里得 西元前三世紀的希臘數學家
#簡體轉繁體
$ echo '歐幾里得 西元前三世紀的希臘數學家' | opencc -c s2t
歐幾里得 西元前三世紀的希臘數學家
#可以通過以下方式直接對文件進行繁簡轉換
$ opencc -i zhwiki_raw.txt -o zhwiki_t2s.txt -c t2s.json
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
