word2vec介紹
word2vec官網:https://code.google.com/p/word2vec/
- word2vec是google的一個開源工具,能夠根據輸入的詞的集合計算出詞與詞之間的距離。
- 它將term轉換成向量形式,可以把對文本內容的處理簡化為向量空間中的向量運算,計算出向量空間上的相似度,來表示文本語義上的相似度。
- word2vec計算的是余弦值,距離范圍為0-1之間,值越大代表兩個詞關聯度越高。
- 詞向量:用Distributed Representation表示詞,通常也被稱為“Word Representation”或“Word Embedding(嵌入)”。
簡言之:詞向量表示法讓相關或者相似的詞,在距離上更接近。
具體使用(處理中文)
收集語料
本文:亞馬遜中文書評語料,12萬+句子文本。
語料以純文本形式存入txt文本。
注意:
理論上語料越大越好
理論上語料越大越好
理論上語料越大越好
重要的事情說三遍。
因為太小的語料跑出來的結果并沒有太大意義。
分詞
中文分詞工具還是很多的,我自己常用的:
- 中科院NLPIR
- 哈工大LTP
- 結巴分詞
注意:分詞文本將作為word2vec的輸入文件。
分詞文本示例
word2vec使用
python,利用gensim模塊。
win7系統下在通常的python基礎上gensim模塊不太好安裝,所以建議使用anaconda,具體參見: python開發之anaconda【以及win7下安裝gensim】
運行結果
【不錯】和【好】的相似度為: 0.790186663972
--------和【書】最相關的詞有:
書籍 0.675163209438
書本 0.633386790752
確實 0.568059504032
教材 0.551493048668
正品 0.532882153988
沒得說 0.529319941998
好 0.522468209267
據說 0.51004421711
圖書 0.508755385876
挺 0.497194319963
新書 0.494331330061
很 0.490583062172
不錯 0.476392805576
正版 0.460161447525
紙張 0.454929769039
可惜 0.450752496719
工具書 0.449723362923
的確 0.448629021645
商品 0.444284260273
紙質 0.443040698767
--------書-不錯,質量-
精美 0.507958948612
總的來說 0.496103972197
材質 0.493623793125
--------不合群的詞: 很
以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
