?
作者題記:? 沒(méi)有你,我永遠(yuǎn)也不可能知道語(yǔ)言還能被機(jī)器處理。
?
?
語(yǔ)音和語(yǔ)言處理大師——Fred Jelinek
?
轉(zhuǎn)載? 《數(shù)學(xué)之美 系列八-- 賈里尼克的故事和現(xiàn)代語(yǔ)言處理》
作者:Google 研究員,吳軍
?
?
弗萊德里克.賈里尼克(Fred Jelinek)出生于捷克一個(gè)富有的猶太家庭。他的父母原本打算送他去英國(guó)的公學(xué)(私立學(xué)校)讀書(shū)。為了教他德語(yǔ),還專(zhuān)門(mén)請(qǐng)的一位德國(guó)的家庭女教師,但是第二次世界大戰(zhàn)完全打碎了他們的夢(mèng)想。他們先是被從家中趕了出去,流浪到布拉格。他的父親死在了集中營(yíng),弗萊德自己成天在街上玩耍,完全荒廢了學(xué)業(yè)。二戰(zhàn)后,當(dāng)他再度回到學(xué)校時(shí),他的成績(jī)一塌糊涂, 全部是 D,但是很快他就趕上了班上的同學(xué)。不過(guò),他在小學(xué)時(shí)從來(lái)沒(méi)有得過(guò) A。1949年,他的母親帶領(lǐng)全家移民美國(guó)。在美國(guó),賈里尼克一家生活非常貧困,全家基本是靠母親做點(diǎn)心賣(mài)錢(qián)為生,弗萊德自己十四五歲就進(jìn)工廠打工補(bǔ)助全家。
賈里尼克最初想成為一個(gè)律師,為他父親那樣的冤屈者辯護(hù),但他很快意識(shí)到他那濃厚的外國(guó)口音將使他在法庭上的辯護(hù)很吃力。賈里尼克的第二個(gè)理想是成為醫(yī)生,他想進(jìn)哈佛大學(xué)醫(yī)學(xué)院,但經(jīng)濟(jì)上他無(wú)法承擔(dān)醫(yī)學(xué)院 8 年高昂的學(xué)費(fèi)。與此同時(shí)麻省理工學(xué)院給于了他一份(為東歐移民設(shè)的)全額獎(jiǎng)學(xué)金。賈里尼克決定到麻省理工學(xué)電機(jī)工程。在那里,他遇到了信息論的鼻祖香農(nóng)博士,和語(yǔ)言學(xué)大師賈格布森 Roman Jakobson (他提出了著名的通信六功能)[注釋一],后來(lái)賈里尼克又陪著太太聽(tīng)最偉大的語(yǔ)言學(xué)家喬姆斯基(Noam Chomsky)的課。這三位大師對(duì)賈里尼克今后的研究方向--利用信息論解決語(yǔ)言問(wèn)題產(chǎn)生的重要影響。
賈里尼克從麻省理工獲得博士學(xué)位后,在哈佛大學(xué)教了一年書(shū),然后到康乃爾大學(xué)任教。他之所以選擇康乃爾大學(xué),是因?yàn)檎夜ぷ鲿r(shí)和那里的一位語(yǔ)言學(xué)家談得頗為投機(jī)。當(dāng)時(shí)那位教授表示愿意和賈里尼克在利用信息論解決語(yǔ)言問(wèn)題上合作。但是,等賈里尼克到康乃爾以后,那位教授表示對(duì)語(yǔ)言學(xué)在沒(méi)有興趣而轉(zhuǎn)向?qū)懜鑴×恕YZ里尼克對(duì)語(yǔ)言學(xué)家的壞印象從此開(kāi)始。加上后來(lái)他在 IBM 時(shí)發(fā)現(xiàn)語(yǔ)言學(xué)家們嘴上頭頭是道,干起活來(lái)高不成低不就,對(duì)語(yǔ)言學(xué)家從此深?lèi)和唇^。他甚至說(shuō):"我每開(kāi)除一名語(yǔ)言學(xué)家,我的語(yǔ)音識(shí)別系統(tǒng)錯(cuò)誤率就降低一個(gè)百分點(diǎn)。" 這句話(huà)后來(lái)在業(yè)界廣為流傳,為每一個(gè)搞語(yǔ)音識(shí)別和語(yǔ)言處理的人所熟知。
賈里尼克在康乃爾十年磨一劍,潛心研究信息論,終于悟出了自然語(yǔ)言處理的真諦。1972年,賈里尼克到IBM華生實(shí)驗(yàn)室(IBM T.G.Watson Labs)做學(xué)術(shù)休假,無(wú)意中領(lǐng)導(dǎo)了語(yǔ)音識(shí)別實(shí)驗(yàn)室,兩年后他在康乃爾和IBM之間選擇了留在IBM。在那里,賈里尼克組建了陣容空前絕后強(qiáng)大的研究隊(duì)伍,其中包括他的著名搭檔波爾(Bahl),著名的語(yǔ)音識(shí)別 Dragon 公司的創(chuàng)始人貝克夫婦,解決最大熵迭代算法的達(dá)拉皮垂(Della Pietra)孿生兄弟,BCJR 算法的另外兩個(gè)共同提出者庫(kù)克(Cocke)和拉維夫(Raviv),以及第一個(gè)提出機(jī)器翻譯統(tǒng)計(jì)模型的布朗。
七十年代的 IBM 有點(diǎn)像九十年代的微軟和今天的 Google, 給于杰出科學(xué)家作任何有興趣研究的自由。在那種寬松的環(huán)境里,賈里尼克等人提出了統(tǒng)計(jì)語(yǔ)音識(shí)別的框架結(jié)構(gòu)。在賈里尼克以前,科學(xué)家們把語(yǔ)音識(shí)別問(wèn)題當(dāng)作人工智能問(wèn)題和模式匹配問(wèn)題。而賈里尼克把它當(dāng)成通信問(wèn)題,并用兩個(gè)隱含馬爾可夫模型(聲學(xué)模型和語(yǔ)言模型)把語(yǔ)音識(shí)別概括得清清楚楚。這個(gè)框架結(jié)構(gòu)對(duì)至今的語(yǔ)音和語(yǔ)言處理有著深遠(yuǎn)的影響,它從根本上使得語(yǔ)音識(shí)別有實(shí)用的可能。賈里尼克本人后來(lái)也因此當(dāng)選美國(guó)工程院院士。
賈里尼克和波爾,庫(kù)克以及拉維夫?qū)θ祟?lèi)的另一大貢獻(xiàn)是 BCJR 算法,這是今天數(shù)字通信中應(yīng)用的最廣的兩個(gè)算法之一(另一個(gè)是維特比算法)。有趣的是,這個(gè)算法發(fā)明了二十年后,才得以廣泛應(yīng)用。IBM 于是把它列為了 IBM 有史以來(lái)對(duì)人類(lèi)最大貢獻(xiàn)之一,并貼在加州 Amaden 實(shí)現(xiàn)室墻上。遺憾的是 BCJR 四個(gè)人已經(jīng)全部離開(kāi) IBM,有一次IBM 的通信部門(mén)需要用這個(gè)算法,還得從斯坦福大學(xué)請(qǐng)一位專(zhuān)家去講解,這位專(zhuān)家看到 IBM 櫥窗里的成就榜,感慨萬(wàn)分。
賈里尼克和 IBM 一批最杰出的科學(xué)家在九十年代初離開(kāi)了 IBM,他們大多數(shù)在華爾街取得了巨大的成功。賈里尼克的書(shū)生氣很濃,于是去約翰霍普金斯大學(xué)建立了世界著名的 CLSP 實(shí)驗(yàn)室。每年夏天,賈里尼克邀請(qǐng)世界上 20-30 名頂級(jí)的科學(xué)家和學(xué)生到 CLSP 一起工作,使得 CLSP 成為世界上語(yǔ)音和語(yǔ)言處理的中心之一。
賈里尼克治學(xué)極為嚴(yán)謹(jǐn),對(duì)學(xué)生要求也極嚴(yán)。他淘汰學(xué)生的比例極高,即使留下來(lái)的,畢業(yè)時(shí)間也極長(zhǎng)。但是,另一方面,賈里尼克也千方百計(jì)利用自己的影響力為學(xué)生的學(xué)習(xí)和事業(yè)創(chuàng)造方便。賈里尼克為組里的每一位學(xué)生提供從進(jìn)組第一天到離開(kāi)組最后一天全部的學(xué)費(fèi)和生活費(fèi)。他還為每一位學(xué)生聯(lián)系實(shí)習(xí)機(jī)會(huì),并保證每位學(xué)生在博士生階段至少在大公司實(shí)習(xí)一次。從他那里拿到博士學(xué)位的學(xué)生,全部任職于著名實(shí)驗(yàn)室,比如IBM, 微軟,AT&T 和 Google 的實(shí)驗(yàn)室。為了提高外國(guó)人的英語(yǔ)水平,賈里尼克用自己的經(jīng)費(fèi)為他們請(qǐng)私人英語(yǔ)教師。
賈里尼克生活儉樸,一輛老式豐田車(chē)開(kāi)了二十多年,比組里學(xué)生的車(chē)都破。他每年都邀請(qǐng)組里的學(xué)生和教授到家里做客,很多畢業(yè)了的學(xué)生也專(zhuān)程趕來(lái)聚會(huì)。在那里,他不再談?wù)搶W(xué)術(shù)問(wèn)題,而會(huì)談些鞏俐的電影(他太太是哥倫比亞大學(xué)電影專(zhuān)業(yè)的教授),或是某著名教授被拉斯韋加斯的賭館定為不受歡迎的人等等。但是他聚會(huì)的食物實(shí)在難吃,無(wú)非是些生胡蘿卜和芹菜。后來(lái)賈里尼克掏錢(qián)讓系里另一個(gè)教授承辦聚會(huì),那個(gè)教授每次請(qǐng)專(zhuān)業(yè)大廚在家作出極豐盛的晚宴,并準(zhǔn)備許多美酒,從此這種聚會(huì)就轉(zhuǎn)移到那個(gè)教授家了。
除了鞏俐的電影,賈里尼克對(duì)中國(guó)的了解就是清華大學(xué)和青島啤酒了。他有時(shí)會(huì)把兩個(gè)名字搞混,有兩次被香港科技大學(xué)的 Pascale 馮教授抓住。
賈里尼克說(shuō)話(huà)心直口快,不留余地。在他面前談?wù)搶W(xué)術(shù)一定要十分嚴(yán)謹(jǐn),否則很容易被他抓住辮子。除了剛才提到的對(duì)語(yǔ)言學(xué)家略有偏見(jiàn)的評(píng)論,他對(duì)許多世界級(jí)的大師都有過(guò)很多“刻薄”但又實(shí)事求是的評(píng)論,這些評(píng)論在業(yè)界廣為流傳。賈里尼克在四十多年的學(xué)術(shù)生涯中居然沒(méi)有得罪太多的人 ,可以說(shuō)是一個(gè)奇跡。
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號(hào)聯(lián)系: 360901061
您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對(duì)您有幫助就好】元
