摘 要
隨著互聯(lián)網(wǎng)的快速發(fā)展,各類社交媒體平臺(tái)如微信、QQ等也與日俱增,而微博更是集成了傳統(tǒng)網(wǎng)站、論壇、博客等的優(yōu)點(diǎn),并加上了人與人之間的互動(dòng)性、關(guān)系親密程度等多種智能算法,并以簡(jiǎn)練的形式讓數(shù)據(jù)爆發(fā)性的傳播,促進(jìn)了人與人之間的交流。網(wǎng)民可以通過(guò)微博來(lái)分享自己的生活,同時(shí)抒發(fā)自己的喜怒哀樂(lè)。因此對(duì)微博每天產(chǎn)生的信息量的分析和利用的需求顯得更為迫切。
情感分析,也稱傾向性分析、意見(jiàn)抽取和意見(jiàn)挖掘。主要是通過(guò)對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納然后進(jìn)行推理的過(guò)程。而微博,人口基數(shù)大,涉及的話題廣泛,對(duì)人們的日常生活產(chǎn)生了不可估量的影響,而對(duì)微博的情感分析,更是有著十分重要的意義。為此,本文針對(duì)了微博文本的情感分析進(jìn)行了如下幾個(gè)工作。
首先,使用微博官方的API對(duì)微博進(jìn)行抓取,進(jìn)行分類標(biāo)注。然后,對(duì)微博文本進(jìn)行預(yù)處理,主要包括去掉無(wú)意義,對(duì)微博文本沒(méi)有影響的詞語(yǔ)。其次,使用SVM算法對(duì)文本進(jìn)行初步的篩選,主要是去除特別明顯的廣告等無(wú)關(guān)性的微博。最后使用樸素貝葉斯對(duì)微博進(jìn)行情感分析,將微博分為積極、消極、客觀三類,同時(shí)使用AdaBoost算法對(duì)樸素貝葉斯算法進(jìn)行加強(qiáng)。
這些帶有情感信息的微博是非常寶貴的資源,通過(guò)情感分析可以獲取網(wǎng)民的此時(shí)的心情,對(duì)某個(gè)事件或事物的看法,可以挖掘其潛在的商業(yè)價(jià)值,還能對(duì)社會(huì)的穩(wěn)定做出一定的貢獻(xiàn)。
關(guān)鍵詞:情感分析; AdaBoost; 樸素貝葉斯; 文本分類; 數(shù)據(jù)挖掘
點(diǎn)擊此處下載文檔和源碼
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號(hào)聯(lián)系: 360901061
您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對(duì)您有幫助就好】元
