日韩精品中文字幕动漫,91亚洲午夜一区,在线不卡日本v一区v二区丶,久久九九国产精品自在现拍

<menu id="cqiqe"></menu>

讀書(shū)網(wǎng)-DuShu.com

當(dāng)前位置：首頁(yè)在線讀書(shū)經(jīng)濟(jì)管理企業(yè)管理星球Google

正文

獨(dú)步天下的谷歌算法（13）

星球Google 作者：（美）蘭德?tīng)枴に固亓_斯

谷歌在機(jī)器翻譯方面的成就還不能被說(shuō)成是獲得了足以養(yǎng)活自己的收益。谷歌在服務(wù)領(lǐng)域的拓展中所遇到的最復(fù)雜的問(wèn)題就是，許多拓展項(xiàng)目對(duì)公司毫無(wú)貢獻(xiàn)，至少?zèng)]有直接貢獻(xiàn)。盡管如此，機(jī)器翻譯仍是一個(gè)恰當(dāng)?shù)捻?xiàng)目。谷歌并沒(méi)有急于將它的機(jī)器翻譯能力投入商業(yè)性應(yīng)用。它的機(jī)器翻譯團(tuán)隊(duì)還只是谷歌實(shí)驗(yàn)室的一部分，而且其主要精力都放在研究上。在實(shí)驗(yàn)的基礎(chǔ)上，團(tuán)隊(duì)在2007年為使用谷歌搜索引擎的用戶提供了三種語(yǔ)言――阿拉伯語(yǔ)、漢語(yǔ)、俄語(yǔ)――的英語(yǔ)翻譯服務(wù)。

隨著谷歌的翻譯工作不斷取得進(jìn)展，它的翻譯結(jié)果也遠(yuǎn)不止于經(jīng)過(guò)了潤(rùn)色和符合語(yǔ)言習(xí)慣。當(dāng)《華爾街日?qǐng)?bào)》的雙語(yǔ)（英語(yǔ)、阿拉伯語(yǔ)）記者薩馬德?阿里（Sarmad Ali）于2007年12月在試用谷歌、Systran和另外兩個(gè)競(jìng)爭(zhēng)者的阿－英在線翻譯服務(wù)時(shí)，他為這幾家公司的翻譯結(jié)果中的語(yǔ)法錯(cuò)誤和語(yǔ)義錯(cuò)誤列了一張表，按照錯(cuò)誤的程度排列順序，從“值得斟酌”到“荒唐可笑”都有。

那一年的早些時(shí)候，谷歌的奧奇在一個(gè)公開(kāi)的場(chǎng)合談及機(jī)器翻譯的結(jié)果時(shí)，談到了谷歌最好的一面：這個(gè)組織致力于不斷開(kāi)拓信息傳播的廣度，看不出它對(duì)自己的商業(yè)利益的關(guān)心。他說(shuō)，如果聽(tīng)眾中有人打算親手建設(shè)一個(gè)機(jī)器翻譯的算法，谷歌很愿意提供幫助。谷歌同非營(yíng)利性的賓夕法尼亞大學(xué)的語(yǔ)言數(shù)據(jù)聯(lián)盟（Linguistic Data Consortium）合作，一開(kāi)始就以運(yùn)費(fèi)的名義提供了一套包含必要的基礎(chǔ)訓(xùn)練數(shù)據(jù)的DVD，這套數(shù)據(jù)列舉了各種詞語(yǔ)組合――其長(zhǎng)度（技術(shù)術(shù)語(yǔ)表示為precounted n-grams）從1個(gè)詞到5個(gè)詞不等――的使用頻率，它們的基礎(chǔ)就是谷歌的爬行器從Web中搜集來(lái)的上萬(wàn)億個(gè)詞匯量的英語(yǔ)文獻(xiàn)。

統(tǒng)計(jì)機(jī)器翻譯依靠平行文本向“算法”輸入信息――奧奇說(shuō)，至少要輸入1億字左右的平行數(shù)據(jù)，才能建立一個(gè)能夠產(chǎn)生理性可以接受的結(jié)果的翻譯系統(tǒng)。對(duì)于平行文本的這種依賴，限制了適用于機(jī)器翻譯的語(yǔ)言配對(duì)的數(shù)量。目前，還沒(méi)有足夠的雙語(yǔ)文本可賴以創(chuàng)建一個(gè)（比如說(shuō)）直接從希臘語(yǔ)翻譯為泰語(yǔ)的系統(tǒng)，所以在這樣一個(gè)過(guò)渡時(shí)期，橋梁性語(yǔ)言――如英語(yǔ)――就必不可少。機(jī)器翻譯最終能否將任何語(yǔ)言的文本直接翻譯成任一其他語(yǔ)言？采用基于理解語(yǔ)言學(xué)和建立中介性源語(yǔ)言等方法有無(wú)必要？這些問(wèn)題都還沒(méi)有明確的答案。迄今為止，人們看到的是，似乎只要有了足夠大量的數(shù)據(jù)，不可能的任務(wù)也會(huì)變?yōu)榭赡堋?/p>

谷歌程序的速度令人震驚，人們也有理由對(duì)它持樂(lè)觀的期待。它的統(tǒng)計(jì)機(jī)器翻譯所提供的服務(wù)從2007年春天的3種源語(yǔ)言增加到了13種，然后是23種，這都是在不到一年的時(shí)間內(nèi)取得的。公司不僅能提供從非英語(yǔ)到英語(yǔ)的翻譯，而且能在這23種源語(yǔ)言中的任兩個(gè)語(yǔ)言之間實(shí)現(xiàn)互譯。截至2008年5月，這些語(yǔ)言是：阿拉伯文、保加利亞文、中文（包括簡(jiǎn)體中文和繁體中文）、克羅地亞文、捷克文、丹麥文、英文、芬蘭文、法文、德文、希臘文、印地文、意大利文、韓文、日文、挪威文、波蘭文、羅馬尼亞文、俄文、西班牙文、瑞典文和葡萄牙文。

機(jī)器翻譯項(xiàng)目證明了谷歌是如何被“更多的數(shù)據(jù)是更好的數(shù)據(jù)”這一信條所驅(qū)動(dòng)的。在信息產(chǎn)業(yè)，完全性――無(wú)論是就一個(gè)信息目錄的完整性而言還是就包括的目錄的窮盡性而言，都是至為關(guān)鍵的因素，因?yàn)閿?shù)據(jù)達(dá)到前所未有地多，只會(huì)使算法的智能化水平變得前所未有地高，這反過(guò)來(lái)又鞏固了谷歌的領(lǐng)先地位，把對(duì)手更遠(yuǎn)地甩在身后。

谷歌以免費(fèi)電話為基礎(chǔ)的信息服務(wù)，1-800-GOOG-411就是一個(gè)很好的例證。這項(xiàng)服務(wù)運(yùn)用聲音識(shí)別軟件來(lái)提供本地企業(yè)的電話號(hào)碼咨詢。這項(xiàng)服務(wù)不收費(fèi)，也不夾帶廣告。谷歌的瑪麗莎?梅耶爾在2007年10月的一次談話中承認(rèn)，她也懷疑谷歌是不是會(huì)變成一個(gè)公益性機(jī)構(gòu)。但她并不擔(dān)心，因?yàn)楣雀枋抢眠@項(xiàng)服務(wù)搜集音素，而不是賺取利潤(rùn)。她說(shuō)：“我們必須建成一個(gè)可用于各種不同事物（包括視頻搜索在內(nèi)）的更大的從話語(yǔ)到文本的模型?！惫雀璧脑捳Z(yǔ)識(shí)別專(zhuān)家曾對(duì)她說(shuō)：“如果你們要我們?nèi)ソ⒁粋€(gè)真正強(qiáng)有力的話語(yǔ)模型，我們就需要很多的音素……人們?cè)鯓咏徽?、怎樣說(shuō)事兒。有了這些，我們最終就可以訓(xùn)練軟件來(lái)掌握并應(yīng)用它們?！边€是那句話：“更多的數(shù)據(jù)是更好的數(shù)據(jù)?！?/p>

谷歌知道，算法的結(jié)果不是沒(méi)有瑕疵，但公司將算法的缺陷視為數(shù)據(jù)量不夠大而導(dǎo)致的局限，是其內(nèi)部工作有待完善而出現(xiàn)的微調(diào)，絕不會(huì)將它當(dāng)作自動(dòng)化程序固有的問(wèn)題。公司已經(jīng)決定向算法輸入更多的信息，這些信息必須以前所未有的力量進(jìn)一步搜索才能得到。它已經(jīng)可以充滿自信地宣布，已經(jīng)擁有了所能找到的一切圖書(shū)，擁有了它的用戶可能點(diǎn)擊的一切視頻，擁有了能夠覆蓋天空和大地的各類(lèi)地圖。

在這些額外添加到谷歌信息庫(kù)的東西中，有一些對(duì)它可能顯得無(wú)關(guān)緊要，因?yàn)樗暮诵呐d趣是網(wǎng)絡(luò)搜索及相關(guān)廣告；有些可能會(huì)被證明屬于浪費(fèi)性的實(shí)驗(yàn)，有些可能會(huì)被證明為廣受歡迎卻最終無(wú)法得到回報(bào)的服務(wù)。它們或許會(huì)――或許不會(huì)――反過(guò)來(lái)對(duì)谷歌的前途產(chǎn)生重大影響。每一項(xiàng)都有自己的故事，但主題卻是共同的：谷歌對(duì)新的信息種類(lèi)的熱切追求沒(méi)有減退也沒(méi)有動(dòng)搖；即使在它的公眾形象被它的行動(dòng)所引起的爭(zhēng)論所損害的時(shí)候，也一如既往。

當(dāng)每一個(gè)展開(kāi)的故事都受到仔細(xì)檢查時(shí)，谷歌這塊巨石的光滑表面就會(huì)消退，隨時(shí)調(diào)整決定的更加復(fù)雜的面目就會(huì)浮現(xiàn)。私人公司和小型團(tuán)隊(duì)在起步階段最為重視的企業(yè)文化就可以從這些故事中解讀出來(lái)。但這也有一個(gè)未經(jīng)調(diào)查的信任度，即谷歌的利益與其客戶的利益是完全一致的。在谷歌看來(lái)，每個(gè)新的服務(wù)項(xiàng)目都是人類(lèi)的一個(gè)進(jìn)步。有一天，當(dāng)實(shí)驗(yàn)過(guò)程全部結(jié)束，它們便可以被視為谷歌“組織起全世界的信息”這一使命的精彩實(shí)現(xiàn)，被視為有遠(yuǎn)見(jiàn)的幻想；但也可能完全相反，同樣的故事在某一天被讀作浪費(fèi)資源的紀(jì)錄，被讀作剛愎自用的鐵證。

上一章目錄下一章

Copyright ? 讀書(shū)網(wǎng) rgspecialties.com 2005-2020, All Rights Reserved.

鄂ICP備15019699號(hào)

鄂公網(wǎng)安備 42010302001612號(hào)

<nav id="eyue4"><input id="eyue4"></input></nav><cite id="eyue4"><dl id="eyue4"></dl></cite>