相似分?jǐn)?shù)也可以用于預(yù)測嗎?假設(shè)我們能夠確定有100名球員某一個年齡段的數(shù)據(jù)與佩德羅亞相同年齡段的數(shù)據(jù)極為相似,那么根據(jù)這100名球員的職業(yè)生涯的整體表現(xiàn)難道不能預(yù)示佩德羅亞的職業(yè)生涯走勢嗎?
為了驗證這個想法,2002年我還在畢馬威工作時就開始利用閑暇時間慢慢地推進(jìn)自己的計劃——創(chuàng)立PECOTA預(yù)測系統(tǒng)的雛形。這一系統(tǒng)是由五花八門、內(nèi)容豐富的Excel電子數(shù)據(jù)表格構(gòu)成,而表格正好也是我在畢馬威工作時使用的主要工具(所以每次那些老板經(jīng)過我的座位時,都以為我正在努力為客戶建立細(xì)致的表格呢)。
就這樣,上班時忙里偷閑每天抽出一兩個小時,晚上到家再奮斗幾個小時,我最終建成了一個數(shù)據(jù)庫,其中包含10 000多個賽季(包含了自第二次世界大戰(zhàn)開始后的所有大聯(lián)盟賽季)以及所有球員的對比演算數(shù)據(jù)。這一方法充分利用了棒球比賽無與倫比的豐富數(shù)據(jù),從某種程度上講,它比詹姆斯的方法更細(xì)致。在對比一組球員時,此法采用最近鄰體分析法,另外,考慮的因素外延更廣,甚至包括球探經(jīng)常關(guān)心的球員的身高、體重等因素。
PECOTA預(yù)測系統(tǒng)為不同類型的球員提供了不同的老化曲線,這一點(diǎn)與赫卡貝的系統(tǒng)相似,但PECOTA并不局限于26種曲線,相反的,它從棒球龐大的數(shù)據(jù)庫中識別出一組數(shù)據(jù)相似的球員,綜合分析后自然生成了這組老化曲線。如果與佩德羅亞數(shù)據(jù)相似的球員最后都成了大聯(lián)盟中的優(yōu)秀隊員,這就預(yù)示著他成功的概率也比較高。
但通常,那些擁有相似數(shù)據(jù)的球員各自又是一個復(fù)雜的混合體,其老化曲線也會在某個時間點(diǎn)開始相互偏離。之前提到,依據(jù)詹姆斯的相似分?jǐn)?shù)方法,佩德羅亞的數(shù)據(jù)先是與格林格和卡魯相似,后兩位球員在其漫長的職業(yè)生涯中戰(zhàn)績顯赫,入選了名人堂。但此后佩德羅亞的數(shù)據(jù)又與蒙特利爾博覽會隊實(shí)力平平的二壘手喬斯·維德羅極為相似了。
對小聯(lián)盟中的球員而言,這種差異更為明顯。2009年,PECOTA預(yù)測系統(tǒng)為亞特蘭大勇士隊19歲的“明日之星”杰森·海沃德識別出的最相似球員,竟包括從名人堂球星到謀殺犯球員。奇珀·瓊斯與海沃德的相似度排名第一,這位名人堂球星、前亞特蘭大最偉大的球員之一為俱樂部效力17個賽季,職業(yè)生涯里的平局擊球率為0.304,外加450次本壘打。而達(dá)奈爾·斯坦森是第二個與海沃德相似的球員,他的結(jié)局并不好,本來頗具潛力,卻在2003年結(jié)束了在發(fā)展聯(lián)盟亞利桑那隊的球員生涯后,因?qū)掖畏缸锒蛔凡叮髞黹_著一輛運(yùn)動型多用途汽車逃亡。