谷歌在機(jī)器翻譯方面的成就還不能被說(shuō)成是獲得了足以養(yǎng)活自己的收益。谷歌在服務(wù)領(lǐng)域的拓展中所遇到的最復(fù)雜的問(wèn)題就是,許多拓展項(xiàng)目對(duì)公司毫無(wú)貢獻(xiàn),至少?zèng)]有直接貢獻(xiàn)。盡管如此,機(jī)器翻譯仍是一個(gè)恰當(dāng)?shù)捻?xiàng)目。谷歌并沒(méi)有急于將它的機(jī)器翻譯能力投入商業(yè)性應(yīng)用。它的機(jī)器翻譯團(tuán)隊(duì)還只是谷歌實(shí)驗(yàn)室的一部分,而且其主要精力都放在研究上。在實(shí)驗(yàn)的基礎(chǔ)上,團(tuán)隊(duì)在2007年為使用谷歌搜索引擎的用戶提供了三種語(yǔ)言――阿拉伯語(yǔ)、漢語(yǔ)、俄語(yǔ)――的英語(yǔ)翻譯服務(wù)。
隨著谷歌的翻譯工作不斷取得進(jìn)展,它的翻譯結(jié)果也遠(yuǎn)不止于經(jīng)過(guò)了潤(rùn)色和符合語(yǔ)言習(xí)慣。當(dāng)《華爾街日?qǐng)?bào)》的雙語(yǔ)(英語(yǔ)、阿拉伯語(yǔ))記者薩馬德?阿里(Sarmad Ali)于2007年12月在試用谷歌、Systran和另外兩個(gè)競(jìng)爭(zhēng)者的阿-英在線翻譯服務(wù)時(shí),他為這幾家公司的翻譯結(jié)果中的語(yǔ)法錯(cuò)誤和語(yǔ)義錯(cuò)誤列了一張表,按照錯(cuò)誤的程度排列順序,從“值得斟酌”到“荒唐可笑”都有。
那一年的早些時(shí)候,谷歌的奧奇在一個(gè)公開(kāi)的場(chǎng)合談及機(jī)器翻譯的結(jié)果時(shí),談到了谷歌最好的一面:這個(gè)組織致力于不斷開(kāi)拓信息傳播的廣度,看不出它對(duì)自己的商業(yè)利益的關(guān)心。他說(shuō),如果聽(tīng)眾中有人打算親手建設(shè)一個(gè)機(jī)器翻譯的算法,谷歌很愿意提供幫助。谷歌同非營(yíng)利性的賓夕法尼亞大學(xué)的語(yǔ)言數(shù)據(jù)聯(lián)盟(Linguistic Data Consortium)合作,一開(kāi)始就以運(yùn)費(fèi)的名義提供了一套包含必要的基礎(chǔ)訓(xùn)練數(shù)據(jù)的DVD,這套數(shù)據(jù)列舉了各種詞語(yǔ)組合――其長(zhǎng)度(技術(shù)術(shù)語(yǔ)表示為precounted n-grams)從1個(gè)詞到5個(gè)詞不等――的使用頻率,它們的基礎(chǔ)就是谷歌的爬行器從Web中搜集來(lái)的上萬(wàn)億個(gè)詞匯量的英語(yǔ)文獻(xiàn)。
統(tǒng)計(jì)機(jī)器翻譯依靠平行文本向“算法”輸入信息――奧奇說(shuō),至少要輸入1億字左右的平行數(shù)據(jù),才能建立一個(gè)能夠產(chǎn)生理性可以接受的結(jié)果的翻譯系統(tǒng)。對(duì)于平行文本的這種依賴,限制了適用于機(jī)器翻譯的語(yǔ)言配對(duì)的數(shù)量。目前,還沒(méi)有足夠的雙語(yǔ)文本可賴以創(chuàng)建一個(gè)(比如說(shuō))直接從希臘語(yǔ)翻譯為泰語(yǔ)的系統(tǒng),所以在這樣一個(gè)過(guò)渡時(shí)期,橋梁性語(yǔ)言――如英語(yǔ)――就必不可少。機(jī)器翻譯最終能否將任何語(yǔ)言的文本直接翻譯成任一其他語(yǔ)言?采用基于理解語(yǔ)言學(xué)和建立中介性源語(yǔ)言等方法有無(wú)必要?這些問(wèn)題都還沒(méi)有明確的答案。迄今為止,人們看到的是,似乎只要有了足夠大量的數(shù)據(jù),不可能的任務(wù)也會(huì)變?yōu)榭赡堋?/p>
谷歌程序的速度令人震驚,人們也有理由對(duì)它持樂(lè)觀的期待。它的統(tǒng)計(jì)機(jī)器翻譯所提供的服務(wù)從2007年春天的3種源語(yǔ)言增加到了13種,然后是23種,這都是在不到一年的時(shí)間內(nèi)取得的。公司不僅能提供從非英語(yǔ)到英語(yǔ)的翻譯,而且能在這23種源語(yǔ)言中的任兩個(gè)語(yǔ)言之間實(shí)現(xiàn)互譯。截至2008年5月,這些語(yǔ)言是:阿拉伯文、保加利亞文、中文(包括簡(jiǎn)體中文和繁體中文)、克羅地亞文、捷克文、丹麥文、英文、芬蘭文、法文、德文、希臘文、印地文、意大利文、韓文、日文、挪威文、波蘭文、羅馬尼亞文、俄文、西班牙文、瑞典文和葡萄牙文。
機(jī)器翻譯項(xiàng)目證明了谷歌是如何被“更多的數(shù)據(jù)是更好的數(shù)據(jù)”這一信條所驅(qū)動(dòng)的。在信息產(chǎn)業(yè),完全性――無(wú)論是就一個(gè)信息目錄的完整性而言還是就包括的目錄的窮盡性而言,都是至為關(guān)鍵的因素,因?yàn)閿?shù)據(jù)達(dá)到前所未有地多,只會(huì)使算法的智能化水平變得前所未有地高,這反過(guò)來(lái)又鞏固了谷歌的領(lǐng)先地位,把對(duì)手更遠(yuǎn)地甩在身后。
谷歌以免費(fèi)電話為基礎(chǔ)的信息服務(wù),1-800-GOOG-411就是一個(gè)很好的例證。這項(xiàng)服務(wù)運(yùn)用聲音識(shí)別軟件來(lái)提供本地企業(yè)的電話號(hào)碼咨詢。這項(xiàng)服務(wù)不收費(fèi),也不夾帶廣告。谷歌的瑪麗莎?梅耶爾在2007年10月的一次談話中承認(rèn),她也懷疑谷歌是不是會(huì)變成一個(gè)公益性機(jī)構(gòu)。但她并不擔(dān)心,因?yàn)楣雀枋抢眠@項(xiàng)服務(wù)搜集音素,而不是賺取利潤(rùn)。她說(shuō):“我們必須建成一個(gè)可用于各種不同事物(包括視頻搜索在內(nèi))的更大的從話語(yǔ)到文本的模型?!惫雀璧脑捳Z(yǔ)識(shí)別專(zhuān)家曾對(duì)她說(shuō):“如果你們要我們?nèi)ソ⒁粋€(gè)真正強(qiáng)有力的話語(yǔ)模型,我們就需要很多的音素……人們?cè)鯓咏徽?、怎樣說(shuō)事兒。有了這些,我們最終就可以訓(xùn)練軟件來(lái)掌握并應(yīng)用它們?!边€是那句話:“更多的數(shù)據(jù)是更好的數(shù)據(jù)?!?/p>
谷歌知道,算法的結(jié)果不是沒(méi)有瑕疵,但公司將算法的缺陷視為數(shù)據(jù)量不夠大而導(dǎo)致的局限,是其內(nèi)部工作有待完善而出現(xiàn)的微調(diào),絕不會(huì)將它當(dāng)作自動(dòng)化程序固有的問(wèn)題。公司已經(jīng)決定向算法輸入更多的信息,這些信息必須以前所未有的力量進(jìn)一步搜索才能得到。它已經(jīng)可以充滿自信地宣布,已經(jīng)擁有了所能找到的一切圖書(shū),擁有了它的用戶可能點(diǎn)擊的一切視頻,擁有了能夠覆蓋天空和大地的各類(lèi)地圖。
在這些額外添加到谷歌信息庫(kù)的東西中,有一些對(duì)它可能顯得無(wú)關(guān)緊要,因?yàn)樗暮诵呐d趣是網(wǎng)絡(luò)搜索及相關(guān)廣告;有些可能會(huì)被證明屬于浪費(fèi)性的實(shí)驗(yàn),有些可能會(huì)被證明為廣受歡迎卻最終無(wú)法得到回報(bào)的服務(wù)。它們或許會(huì)――或許不會(huì)――反過(guò)來(lái)對(duì)谷歌的前途產(chǎn)生重大影響。每一項(xiàng)都有自己的故事,但主題卻是共同的:谷歌對(duì)新的信息種類(lèi)的熱切追求沒(méi)有減退也沒(méi)有動(dòng)搖;即使在它的公眾形象被它的行動(dòng)所引起的爭(zhēng)論所損害的時(shí)候,也一如既往。
當(dāng)每一個(gè)展開(kāi)的故事都受到仔細(xì)檢查時(shí),谷歌這塊巨石的光滑表面就會(huì)消退,隨時(shí)調(diào)整決定的更加復(fù)雜的面目就會(huì)浮現(xiàn)。私人公司和小型團(tuán)隊(duì)在起步階段最為重視的企業(yè)文化就可以從這些故事中解讀出來(lái)。但這也有一個(gè)未經(jīng)調(diào)查的信任度,即谷歌的利益與其客戶的利益是完全一致的。在谷歌看來(lái),每個(gè)新的服務(wù)項(xiàng)目都是人類(lèi)的一個(gè)進(jìn)步。有一天,當(dāng)實(shí)驗(yàn)過(guò)程全部結(jié)束,它們便可以被視為谷歌“組織起全世界的信息”這一使命的精彩實(shí)現(xiàn),被視為有遠(yuǎn)見(jiàn)的幻想;但也可能完全相反,同樣的故事在某一天被讀作浪費(fèi)資源的紀(jì)錄,被讀作剛愎自用的鐵證。