日韩精品 中文字幕 动漫,91亚洲午夜一区,在线不卡日本v一区v二区丶,久久九九国产精品自在现拍

注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)JAVA及其相關(guān)搜索引擎零距離:基于Ruby+Java搜索引擎原理與實(shí)現(xiàn)

搜索引擎零距離:基于Ruby+Java搜索引擎原理與實(shí)現(xiàn)

搜索引擎零距離:基于Ruby+Java搜索引擎原理與實(shí)現(xiàn)

定 價(jià):¥39.80

作 者: 王亮 編著
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: J2EE

ISBN: 9787302201472 出版時(shí)間: 2009-06-01 包裝: 平裝
開本: 16開 頁數(shù): 394 字?jǐn)?shù):  

內(nèi)容簡介

  《搜索引擎零距離:基于Ruby+Java搜索引擎原理與實(shí)現(xiàn)》的內(nèi)容中,既有教科書式的理論闡述,也有“七天入門”式的實(shí)例解析,還有《Linux內(nèi)核情景分析》風(fēng)格的細(xì)致的代碼分析,甚至還有一些英語文獻(xiàn)翻譯,從初學(xué)者到有一定經(jīng)驗(yàn)的搜索引擎開發(fā)人員,各個(gè)層次的讀者都能找到一些適合自己閱讀的章節(jié)。隨著網(wǎng)絡(luò)信息資源的急劇增長,人們越來越多地關(guān)注如何快速有效地從海量的網(wǎng)絡(luò)信息中,抽取出潛在的、有價(jià)值的信息,使之有效地在管理和決策中發(fā)揮作用。搜索引擎技術(shù)解決了用戶檢索網(wǎng)絡(luò)信息的困難,目前搜索引擎技術(shù)正成為計(jì)算機(jī)科學(xué)界和信息產(chǎn)業(yè)界爭相研究、開發(fā)的對象?!端阉饕媪憔嚯x:基于Ruby+Java搜索引擎原理與實(shí)現(xiàn)》的作者是一位資深的搜索引擎開發(fā)人員,書中對數(shù)據(jù)獲取(網(wǎng)絡(luò)信息挖掘)與數(shù)據(jù)檢索(搜索引擎)兩個(gè)方面作了深入的介紹。《搜索引擎零距離:基于Ruby+Java搜索引擎原理與實(shí)現(xiàn)》首先提出了一套“網(wǎng)絡(luò)數(shù)據(jù)挖掘”的完整理論,并給出一個(gè)實(shí)際的智能爬蟲系統(tǒng),通過理論與實(shí)際的完整呈現(xiàn),使讀者能夠?qū)Α熬W(wǎng)絡(luò)數(shù)據(jù)挖掘”有一個(gè)比較具體的認(rèn)識,然后介紹了一個(gè)專用程序語言IRS,并給出了這個(gè)語言的編譯器以及虛擬機(jī)的實(shí)現(xiàn)方法?!端阉饕媪憔嚯x:基于Ruby+Java搜索引擎原理與實(shí)現(xiàn)》還通過對多個(gè)開源搜索引擎項(xiàng)目抽絲剝繭的細(xì)致分析,引出搜索引擎的一些基本原理與開發(fā)方法,并介紹了一個(gè)商業(yè)化搜索引擎的實(shí)例?!端阉饕媪憔嚯x:基于Ruby+Java搜索引擎原理與實(shí)現(xiàn)》的最后還結(jié)合一個(gè)Java框架介紹了一些軟件設(shè)計(jì)思想?!端阉饕媪憔嚯x:基于Ruby+Java搜索引擎原理與實(shí)現(xiàn)》涉及網(wǎng)絡(luò)數(shù)據(jù)挖掘、搜索引擎原理、編譯原理、數(shù)據(jù)庫原理、正則表達(dá)式、軟件工程、設(shè)計(jì)模式、Ruby語言、HTTP協(xié)議等計(jì)算機(jī)科學(xué)與技術(shù)的知識,適合搜索引擎開發(fā)人員作為參考,也適合有一定計(jì)算機(jī)基礎(chǔ)的讀者閱讀,以擴(kuò)展視野。

作者簡介

  王亮,主持或參與過多個(gè)大中型索引擎開發(fā)與運(yùn)營,具有豐富的搜索引擎算法理論知識與實(shí)際開發(fā)運(yùn)營經(jīng)驗(yàn)。曾任職于愛立信、Smarter.com、上海網(wǎng)村、上海邁眾,2009年創(chuàng)立上海睿驛信息技術(shù)有限公司并任CEO,致力于提供搜索引擎相關(guān)的產(chǎn)品和服務(wù)。

圖書目錄

第1章 網(wǎng)頁數(shù)據(jù)挖掘.1
1.1 網(wǎng)頁數(shù)據(jù)挖掘定義1
1.2 Web數(shù)據(jù)挖掘面臨的問題1
1.3 Web數(shù)據(jù)挖掘的分類1
1.4 網(wǎng)頁數(shù)據(jù)的結(jié)構(gòu)與特點(diǎn)3
1.4.1 HTML超文本標(biāo)記語言3
1.4.2 WML無線標(biāo)記語言4
1.5 網(wǎng)頁數(shù)據(jù)挖掘的基本方法6
1.5.1 預(yù)備知識7
1.5.2 變量模板匹配方法8
1.5.3 樹節(jié)點(diǎn)直接標(biāo)識方法10
1.5.4 語義規(guī)則識別方法13
第2章 智能網(wǎng)絡(luò)爬蟲14
2.1 智能網(wǎng)絡(luò)爬蟲的定義與特點(diǎn)14
2.2 抓取入口定義14
2.3 次級頁面自動發(fā)現(xiàn)14
2.4 次級頁面地址拼接16
2.5 已爬地址處理17
2.6 信息采集強(qiáng)度控制19
2.7 模擬用戶登錄19
2.8 驗(yàn)證碼識別20
2.9 代理服務(wù)器設(shè)置20
2.10 JavaScript解析控制21
第3章 網(wǎng)頁信息挖掘?qū)S贸绦蛟O(shè)計(jì)語言IRS23
3.1 IRS語言的簡介與設(shè)計(jì)原則23
3.2 IRS腳本語法結(jié)構(gòu)23
3.2.1 頁面配置塊23
3.2.2 頁面名語句23
3.2.3 爬蟲配置聲明語句24
3.2.4 入口聲明語句24
3.2.5 編碼配置26
3.2.6 步長配置26
3.2.7 重試次數(shù)配置27
3.2.8 正則模式匹配語句27
3.2.9 匹配名聲明28
3.2.10 IEE表達(dá)式28
3.2.11 模式匹配修飾符29
3.2.12 節(jié)點(diǎn)模式匹配語句32
3.2.13 次級頁面入口語句..3 3
3.2.14 保存語句35
3.2.15 Ruby控制語句35
3.2.16 爬蟲配置語句37
3.2.17 系統(tǒng)配置語句37
3.2.18 外部配置文件38
3.2.19 執(zhí)行語句塊39
3.2.20 IRQL存儲語句40
3.2.21 IRQL語言中的數(shù)據(jù)表44
3.2.22 IRQL內(nèi)部函數(shù)49
3.2.23 實(shí)例解析55
第4章 IRS虛擬機(jī)及編譯器實(shí)現(xiàn)原理69
4.1 Ruby基本語法70
4.1.1 字句構(gòu)造和表達(dá)式70
4.1.2 字面值71
4.1.3 控制結(jié)構(gòu)74
4.1.4 類和方法的定義80
4.1.5 運(yùn)算符表達(dá)式84
4.1.6 變量和常量89
4.1.7 方法調(diào)用91
4.2 Java與JRuby的整合93
4.2.1 Java中的Ruby運(yùn)行庫環(huán)境93
4.2.2 IRSReflectionCallback類實(shí)現(xiàn)94
4.2.3 在Java中編譯執(zhí)行Ruby腳本99
4.2.4 Java內(nèi)嵌Ruby
方法總結(jié)100
4.3 詞法分析和語法分析101
4.3.1 定義與簡介101
4.3.2 SableCC103
4.4 IRS語言的語義分析137
4.5 IRVM虛擬機(jī)主類146
4.5.1 generateEntrance()147
4.5.2 getContent()149
4.5.3 match()160
4.5.4 Save()174
4.5.5 compileAndRun()198
第5章 搜索引擎設(shè)計(jì)原理200
5.1 概述200
5.2 Lucene搜索引擎的原理205
5.2.1 工作方式205
5.2.2 基本概念206
5.2.3 包結(jié)構(gòu)207
5.2.4 索引操作208
5.2.5 搜索210
5.2.6 分析器214
5.2.7 性能優(yōu)化215
5.2.8 并行集群216
5.3 Hadoop搜索引擎的原理220
5.3.1 組成結(jié)構(gòu)220
5.3.2 開發(fā)與使用222
5.4 Nutch搜索引擎的原理226
5.4.1 簡介226
5.4.2 插件體系226
5.4.3 數(shù)據(jù)獲取與分析228
5.5 Compass搜索引擎的原理264
5.5.1 功能增強(qiáng)264
5.5.2 API簡化265
5.5.3 編程方式265
5.6 Solr搜索引擎的原理266
5.6.1 概述266
5.6.2 使用Solr269
第6章 搜索引擎的商業(yè)化實(shí)現(xiàn)275
6.1 索引275
6.1.1 Solr實(shí)現(xiàn)275
6.1.2 MySE實(shí)現(xiàn)279
6.1.3 總結(jié)317
6.2 查詢317
6.2.1 Solr實(shí)現(xiàn)317
6.2.2 MySE實(shí)現(xiàn)318
6.2.3 總結(jié)358
第7章 Hivemind359
7.1 模塊(Modules)359
7.2 子模塊與依賴性(SubModules&Dependency)360
7.3 服務(wù)點(diǎn)(ServicePoints)361
7.4 攔截器(Interceptor)362
7.5 配置點(diǎn)(ConfigurationPoints)363
7.6 符號資源(SymbolSources)364
7.7 轉(zhuǎn)換器(Translators)365
7.8 對象提供器(ObjectProviders)368
7.9 服務(wù)模型(ServiceModels)370
7.10 啟動&預(yù)加載(Startup&EagerLoad)373
7.11 服務(wù)構(gòu)造器376
后記與感謝393

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) rgspecialties.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號