&
編寫者
|
日期
|
關鍵詞
|
鄭昀
|
<chsdate isrocdate="False" islunardate="False" day="15" month="6" year="2007" w:st="on"><span lang="EN-US" style="COLOR: gray; FONT-FAMILY: Verdana; mso-bidi-font-family: Arial">2007-6-15</span></chsdate>
|
Meme 熱點 引爆點 techmeme
|
2005 年 9 月, techmeme 的前身 memeOrandum 橫空出世,在當時北美也算是刮起了一陣旋風,大家把它和 slashdot 、 digg 這些成名站點相提并論,并提出了 slashdot 效應類似的 memeOrandum 效應。
techmeme 這款 由 Gabe Rivera 主導的熱點計算引擎,對由他自己定義 的 blog 列表進行實時監測,通過追尋 blog 、新聞媒體 的 url 鏈接來挖掘 blogger 之間的對話線索,并以對話的形式展現在 首頁上,成為一個非常有效的內容過濾器, Tells us what's hot and what's not 。
這種鏈接挖掘熱點的算法在中國并不適用,原因很簡單:
中國博客很少在博文正文里嵌入 URL 鏈接 。
同樣原因, Google 的 PageRank 算法在博客上也發揮不了太大價值。
實際上,從 2006 年下半年開始,我們一直都在秘密研發 Content Engine( 內容引擎 ) ,其中“ 熱點自動發現 (hot point) ”就涵蓋了 techmeme 的方向。
轉眼進入 2007 年,最近媒體上屢屢提及 techmeme 。
如 <chsdate isrocdate="False" islunardate="False" day="25" month="5" year="2007" w:st="on"><span lang="EN-US" style="FONT-SIZE: 12pt; COLOR: black; LINE-HEIGHT: 200%; FONT-FAMILY: Verdana; mso-bidi-font-family: 宋體; mso-font-kerning: 0pt; mso-bidi-font-weight: bold">5</span><span style="FONT-SIZE: 12pt; COLOR: black; LINE-HEIGHT: 200%; FONT-FAMILY: 宋體; mso-ascii-font-family: Verdana; mso-hansi-font-family: Verdana; mso-bidi-font-family: 宋體; mso-font-kerning: 0pt; mso-bidi-font-weight: bold">月</span><span lang="EN-US" style="FONT-SIZE: 12pt; COLOR: black; LINE-HEIGHT: 200%; FONT-FAMILY: Verdana; mso-bidi-font-family: 宋體; mso-font-kerning: 0pt; mso-bidi-font-weight: bold">25</span><span style="FONT-SIZE: 12pt; COLOR: black; LINE-HEIGHT: 200%; FONT-FAMILY: 宋體; mso-ascii-font-family: Verdana; mso-hansi-font-family: Verdana; mso-bidi-font-family: 宋體; mso-font-kerning: 0pt; mso-bidi-font-weight: bold">日</span></chsdate> ,新浪翻譯 Read/Write Web 的文章《 美著名科技博客:谷歌新聞與 Techmeme 大比拼 》。
如經濟觀察報 2007 年 6 月出版的 CEO 經觀商業評論刊載了《 網絡社區這些年 》,其中說道“ 在第一輪互聯網泡沫破滅之后, Slashdot 的影響力開始逐漸變弱。近年來,新興的 Techmeme 開始取代前者的地位。 ”
曾經獲評為 Microsoft 十大最熱 Blogger 的 Alex Barnett 也于 <chsdate isrocdate="False" islunardate="False" day="23" month="5" year="2007" w:st="on"><span lang="EN-US" style="FONT-SIZE: 12pt; COLOR: black; LINE-HEIGHT: 200%; FONT-FAMILY: Verdana; mso-bidi-font-family: 宋體; mso-font-kerning: 0pt; mso-bidi-font-weight: bold">5</span><span style="FONT-SIZE: 12pt; COLOR: black; LINE-HEIGHT: 200%; FONT-FAMILY: 宋體; mso-ascii-font-family: Verdana; mso-hansi-font-family: Verdana; mso-bidi-font-family: 宋體; mso-font-kerning: 0pt; mso-bidi-font-weight: bold">月</span><span lang="EN-US" style="FONT-SIZE: 12pt; COLOR: black; LINE-HEIGHT: 200%; FONT-FAMILY: Verdana; mso-bidi-font-family: 宋體; mso-font-kerning: 0pt; mso-bidi-font-weight: bold">23</span><span style="FONT-SIZE: 12pt; COLOR: black; LINE-HEIGHT: 200%; FONT-FAMILY: 宋體; mso-ascii-font-family: Verdana; mso-hansi-font-family: Verdana; mso-bidi-font-family: 宋體; mso-font-kerning: 0pt; mso-bidi-font-weight: bold">日</span></chsdate> 發表文章《 How I find stuff I like 》說 techmeme 是他的三個內容過濾器之一: “ The three main methods I use to find content I'll be interested in are: 2. Techmeme - two or three times daily. Tells me what's hot and what's not. ”
引子
2006 年 1 月,我撰寫并發布了《 MemeEngine 討論集 一 、 二 、 三 》 ( 點擊 此處下載 完整 PDF 文檔 ) 。當時也注意到有幾個人在媒體上宣布說要復制 techmeme ,但隨后便沒有了下文。也許正是因為 techmeme 的鏈接分析算法根本 無法搬到中國來。
一直在路上
2006 年 3 月,我開始尋找符合中國特色的 meme engine 之路,很快發現只有文本挖掘算法才能做這件事情。
博客內容的文本挖掘,在中國還有一個大問題要解決。博客比新聞要復雜得多得多:
l 文字風格:博客風格迥異,往往不按牌理出牌,天馬行空,遠遠比規范書寫的新聞要難分析。
l 涉及的范圍:博客什么都談論,大到國家大事,小到個人情感,甚至流水帳。
l 信息源分散:國內大大小小數百家 BSP ,數以百萬計個博客發布文章,很難在第一時間收集起來并迅速展開大規模計算。
2006 年 9 月,我和中科院軟件所的 張俊林張博士 等一起創建了 玩聚網 ,瞄準信息過濾器和人過濾器的未來大方向。
2006 年 10 月, 張博士 推出了 “熱點自動發現”算法 。但這時候,算法還不太成熟,在非事件驅動、非新聞驅動的分類中表現不佳,比如: 互聯網 、 兩性 ,在新聞驅動的 明星 、 社會 表現則不錯 。這種情況下還不能對外開放。
在我們為了內容引擎而研發了“主題聚類聚合”“話題時間脈絡”算法之后, 又回過頭來重新優化了熱點自動發現算法。這次的精度就上升到了一個新高度,真正可以做到:
從爬蟲抓取到輸出各個領域的熱點,整個流程不用任何人工、不用編輯審核就能直接放出來給普通用戶看。
鄭昀
“ 我們上星期優化了互聯網熱點新發現算法,確實精度提高了很多,基本可以直接放出來給普通用戶看了。 ”
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
