星球Google - 獨步天下的谷歌算法（12）

如果你所從事的是將全世界的信息組織起來的職業(yè)，那么，在某個領(lǐng)域?qū)W到的東西總會在另一個領(lǐng)域里得到實際應(yīng)用。如果說谷歌的統(tǒng)計機器翻譯項目得益于谷歌旗下其他部門的工作，那么它也以各種方式回報了這些部門的恩惠。研發(fā)單一語言的統(tǒng)計技術(shù)模型轉(zhuǎn)過來為研發(fā)任一語言的發(fā)音監(jiān)測軟件提供了便利（這個軟件的監(jiān)測范圍包括了哪怕是新近出現(xiàn)的名人姓名的發(fā)音），它無需經(jīng)過人工編輯之手，也無需借助詞典，只要給“算法”輸入足夠分量的公開發(fā)表的文章，就絕對可以讓它掌握正確的發(fā)音。能使它做到這一步的技術(shù)保障就是對出現(xiàn)頻率的統(tǒng)計分析。

谷歌使用的搜索程序也得到了由研發(fā)團隊使用的計算部件的極大幫助。由該領(lǐng)域的許多學(xué)術(shù)研究者使用的一套數(shù)據(jù)（由語言數(shù)據(jù)聯(lián)盟Linguistic Data Consortium提供）有52億個單詞。但谷歌可以處理大得多的集合，如僅僅從它所索引的網(wǎng)頁中抽取出來的單詞就達到了2×1012個?！拔覀儧]有更好的算法，”谷歌的彼得?諾維奇說，“我們只是有更多的數(shù)據(jù)?！?/p>

為了給單句找到最好的譯文，谷歌的算法搜索了上百萬可能的短語組合。硬盤不適合作為保留數(shù)據(jù)隨時備查的中介，只有隨機存取內(nèi)存（RAM，random access memory）才最合適。隨機存取內(nèi)存存量巨大是非常必要的――谷歌供人隨時查考的正是這巨大的存量。統(tǒng)計機器翻譯很適合于分布在數(shù)千臺機器中進行，而谷歌的數(shù)據(jù)中心（雖然最初是為了其他目的而建）的設(shè)備就能承受這種計算上的負荷。

有了可以處理任何規(guī)模的計算問題的計算基礎(chǔ)設(shè)施，谷歌的研究者便擁有了一個可以傲視群雄的巨大優(yōu)勢。他們的程序運行之快，在2005年國家標準和技術(shù)研究所舉行的機器翻譯競賽中已經(jīng)得到了體現(xiàn)；在2006年的競賽中，他們又占據(jù)了領(lǐng)先地位。在參加阿－英翻譯的22個競賽者中，谷歌的整體成績排名第一；在參加漢－英翻譯的24個競賽者中，谷歌名列第二（被南加州大學(xué)著名的信息科學(xué)研究所險勝）。

ystran的主席兼CEO季米特里斯?沙巴塔卡基斯（Dimitris Sabatakakis）不能理解為何統(tǒng)計機器翻譯的結(jié)果總是超過他的規(guī)則基礎(chǔ)技術(shù)。2005年競賽結(jié)束后，他替以規(guī)則為基礎(chǔ)的方法作了些辯護，并建議沒有雇用以漢語為母語的人員的谷歌不要再玩弄類似花招。就Systran而言，“如果我們沒有中國人，我們的系統(tǒng)就可能出現(xiàn)嚴重的錯誤”。他不理解，如果沒有母語為漢語的人對譯文反復(fù)檢驗，谷歌為何能在2005年把Systran徹底打敗。但他沒有立即報名再次參加比賽：Systran從2006年的競賽中消失了。2007年沒有舉行比賽。所以尚不清楚Systran是否已經(jīng)決定永遠不再與統(tǒng)計機器翻譯直接較量。

谷歌沒有聲稱擁有最復(fù)雜的翻譯算法，但它的確擁有一些其他的機器翻譯團隊所不具備的東西：體量最大的訓(xùn)練數(shù)據(jù)。2007年，負責機器翻譯研究的工程師弗朗茨·奧奇（Franz Och）說：“在自然程序領(lǐng)域有一種著名的說法，‘更多的數(shù)據(jù)就是更好的數(shù)據(jù)’。”為什么谷歌一直使用那些從Web網(wǎng)頁中搜集的2×1012詞匯量的文本？原因就在于：寫作質(zhì)量無從擔保，但絕對海量的額外數(shù)據(jù)對翻譯算法質(zhì)量的改進卻是實實在在的。

日韩精品 中文字幕 动漫,91亚洲午夜一区,在线不卡日本v一区v二区丶,久久九九国产精品自在现拍

日韩精品中文字幕动漫,91亚洲午夜一区,在线不卡日本v一区v二区丶,久久九九国产精品自在现拍