日韩精品 中文字幕 动漫,91亚洲午夜一区,在线不卡日本v一区v二区丶,久久九九国产精品自在现拍

注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡數(shù)據(jù)庫斯坦福數(shù)據(jù)挖掘教程(第3版)

斯坦福數(shù)據(jù)挖掘教程(第3版)

斯坦福數(shù)據(jù)挖掘教程(第3版)

定 價:¥129.00

作 者: [美] 尤雷·萊斯科夫,阿南德·拉賈拉曼,杰弗里·大衛(wèi)·厄爾曼 著,王斌,王達侃 譯
出版社: 人民郵電出版社
叢編項:
標 簽: 暫缺

ISBN: 9787115556691 出版時間: 2021-03-01 包裝: 平裝
開本: 16開 頁數(shù): 452 字數(shù):  

內(nèi)容簡介

  本書由斯坦福大學“Web挖掘”課程的內(nèi)容總結(jié)而成,主要關注極大規(guī)模數(shù)據(jù)的挖掘。書中包括分布式文件系統(tǒng)、相似性搜索、搜索引擎技術(shù)、頻繁項集挖掘、聚類算法、廣告管理及推薦系統(tǒng)、社會網(wǎng)絡圖挖掘和大規(guī)模機器學習等主要內(nèi)容。第3 版新增了決策樹、神經(jīng)網(wǎng)絡和深度學習等內(nèi)容。幾乎每節(jié)都有對應的習題,以此來鞏固所講解的內(nèi)容。讀者還可以從網(wǎng)上獲取相關拓展資料。

作者簡介

  【作者簡介】尤雷.萊斯科夫(Jure Leskovec)Pinterest公司首席科學家,斯坦福大學計算機科學系副教授,研究方向為大型社交和信息網(wǎng)絡的數(shù)據(jù)挖掘。他的研究成果獲得了很多獎項,如Microsoft Research Faculty Fellowship、Alfred P. Sloan Fellowship和Okawa Foundation Fellowship,還獲得了很多最佳論文獎,同時也被《紐約時報》《華爾街日報》《華盛頓郵報》《連線》、NBC、BBC和CBC等流行的社會媒體刊載。他還創(chuàng)建了斯坦福網(wǎng)絡分析平臺(SNAP)。阿南德.拉賈拉曼(Anand Rajaraman)數(shù)據(jù)庫和Web技術(shù)領域領軍者,硅谷連續(xù)創(chuàng)業(yè)者和風險投資人,斯坦福大學計算機科學系助理教授。自1996年起創(chuàng)立過多家公司,這些公司先后被亞馬遜、谷歌和沃爾瑪集團收購,而他本人歷任亞馬遜技術(shù)總監(jiān)、沃爾瑪負責全球電子商務業(yè)務的副總裁。之后創(chuàng)立了風投公司Milliways Ventures和Rocketship VC,投資過Facebook、Lyft等眾多公司。作為學者,他主要研究數(shù)據(jù)庫系統(tǒng)、Web和社交媒體,他的研究論文在學術(shù)會議上獲得了多個獎項,他在2012年被Fast Company雜志列入“商界Z具創(chuàng)造力100人”。杰弗里.大衛(wèi).厄爾曼(Jeffrey David Ullman)計算機科學家,美國國家工程院院士,2020年圖靈獎得主。早年在貝爾實驗室工作,之后任教于普林斯頓大學,十年后加入斯坦福大學直至退休,一生的科研、著書和育人成果卓著。他是ACM會員,曾獲SIGMOD創(chuàng)新獎、高德納獎、馮諾依曼獎等多項科研大獎;合著有“龍書”《編譯原理》、數(shù)據(jù)庫名著《數(shù)據(jù)庫系統(tǒng)實現(xiàn)》等多部經(jīng)典著作;培養(yǎng)的多名學生已成為數(shù)據(jù)庫領域的專家,其中包括谷歌聯(lián)合創(chuàng)始人Sergey Brin,本書第二作者也是他的得意弟子。目前擔任Gradiance公司CEO?!咀g者簡介】王斌博士小米AI實驗室主任,NLP首席科學家。中國中文信息學會理事,《中文信息學報》編委。加入小米公司之前,是中科院研究員、博導及中科院大學教授。譯有《信息檢索導論》《大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理》和《機器學習實戰(zhàn)》等書。王達侃優(yōu)刻得AI部門負責人,曾任WeWork Research & Applied Science中國區(qū)負責人,并曾在LinkedIn、Twitter和微軟亞洲研究院負責AI以及大數(shù)據(jù)方向的研發(fā)工作。碩士畢業(yè)于美國斯坦福大學計算機系,本科畢業(yè)于上海交通大學ACM班。

圖書目錄

第 1章 數(shù)據(jù)挖掘基本概念  1

1.1 數(shù)據(jù)挖掘的定義 1

1.1.1 建?!?

1.1.2 統(tǒng)計建?!?

1.1.3 機器學習 2

1.1.4 建模的計算方法 3

1.1.5 數(shù)據(jù)概括 3

1.1.6 特征抽取 4

1.2 數(shù)據(jù)挖掘的統(tǒng)計限制 5

1.2.1 整體情報預警 5

1.2.2 邦弗朗尼原理 5

1.2.3 邦弗朗尼原理的一個例子 6

1.2.4 習題 7

1.3 相關知識 7

1.3.1 詞語在文檔中的重要性 7

1.3.2 哈希函數(shù) 8

1.3.3 索引 9

1.3.4 二級存儲器 10

1.3.5 自然對數(shù)的底e 11

1.3.6 冪定律 12

1.3.7 習題 13

1.4 本書概要 14

1.5 小結(jié) 15

1.6 參考文獻 16

第 2章 MapReduce和新軟件?!?7

2.1 分布式文件系統(tǒng) 18

2.1.1 計算節(jié)點的物理結(jié)構(gòu) 18

2.1.2 大規(guī)模文件系統(tǒng)的結(jié)構(gòu) 19

2.2 MapReduce 20

2.2.1 Map任務 21

2.2.2 按鍵分組 21

2.2.3 Reduce任務 22

2.2.4 組合器 22

2.2.5 MapReduce的執(zhí)行細節(jié) 23

2.2.6 節(jié)點故障的處理 24

2.2.7 習題 24

2.3 使用MapReduce的算法 24

2.3.1 基于MapReduce的矩陣—向量乘法實現(xiàn) 25

2.3.2 向量v無法放入內(nèi)存時的處理 26

2.3.4 基于MapReduce的選擇運算 28

2.3.5 基于MapReduce的投影運算 28

2.3.6 基于MapReduce的并、交和差運算 29

2.3.7 基于MapReduce的自然連接運算 29

2.3.8 基于MapReduce的分組和聚合運算 30

2.3.9 矩陣乘法 30

2.3.10 基于單步MapReduce的矩陣乘法 31

2.3.11 習題 32

2.4 MapReduce的擴展 32

2.4.1 工作流系統(tǒng) 33

2.4.2 Spark 34

2.4.3 Spark實現(xiàn) 36

2.4.4 TensorFlow 37

2.4.5 MapReduce的遞歸擴展版本 38

2.4.6 整體同步系統(tǒng) 40

2.4.7 習題 41

2.5 通信開銷模型 41

2.5.1 任務網(wǎng)絡的通信開銷 42

2.5.2 時鐘時間 43

2.5.3 多路連接 43

2.5.4 習題 46

2.6 MapReduce復雜性理論 47

2.6.1 Reducer規(guī)模及復制率 47

2.6.2 一個例子:相似性連接 48

2.6.3 MapReduce問題的一個圖模型 51

2.6.5 并非所有輸入都存在時的處理 52

2.6.7 案例分析:矩陣乘法 54

2.6.8 習題 57

2.7 小結(jié) 58

2.8 參考文獻 59

第3章 相似項發(fā)現(xiàn) 61

3.1 集合相似度的應用 62

3.1.1 集合的Jaccard相似度 62

3.1.2 文檔的相似度 62

3.1.3 協(xié)同過濾——一個集合相似問題 63

3.1.4 習題 64

3.2 文檔的shingling 65

3.2.1 k-shingle 65

3.2.2 shingle大小的選擇 65

3.2.3 對shingle進行哈?!?6

3.2.4 基于詞的shingle 66

3.2.5 習題 67

3.3 保持相似度的集合摘要表示 67

3.3.1 集合的矩陣表示 67

3.3.2 最小哈希 68

3.3.3 最小哈希和Jaccard相似度 69

3.3.4 最小哈希簽名 69

3.3.5 最小哈希簽名的計算 70

3.3.6 對最小哈希加速 72

3.3.7 使用哈希加速 73

3.3.8 習題 75

3.4 文檔的局部敏感哈希算法 76

3.4.1 面向最小哈希簽名的LSH 76

3.4.2 行條化策略的分析 77

3.4.3 上述技術(shù)的綜合 79

3.4.4 習題 79

3.5 距離測度 80

3.5.1 距離測度的定義 80

3.5.2 歐氏距離 80

3.5.3 Jaccard 距離 81

3.5.4 余弦距離 81

3.5.5 編輯距離 82

3.5.6 海明距離 83

3.5.7 習題 83

3.6 局部敏感函數(shù)理論 85

3.6.1 局部敏感函數(shù) 85

3.6.2 面向Jaccard距離的局部敏感函數(shù)族 86

3.6.3 局部敏感函數(shù)族的放大處理 87

3.6.4 習題 89

3.7 面向其他距離測度的LSH函數(shù)族 89

3.7.1 面向海明距離的LSH函數(shù)族 89

3.7.2 隨機超平面和余弦距離 90

3.7.3 梗概 91

3.7.4 面向歐氏距離的LSH函數(shù)族 91

3.7.5 面向歐氏空間的更多LSH函數(shù)族 92

3.7.6 習題 93

3.8 LSH函數(shù)的應用 93

3.8.1 實體關聯(lián) 94

3.8.2 一個實體關聯(lián)的例子 94

3.8.3 記錄匹配的驗證 95

3.8.4 指紋匹配 96

3.8.5 適用于指紋匹配的LSH函數(shù)族 98

3.8.7 習題 99

3.9 面向高相似度的方法 99

3.9.1 相等項發(fā)現(xiàn) 99

3.9.2 集合的字符串表示方法 100

3.9.3 基于長度的過濾 100

3.9.4 前綴索引 101

3.9.5 位置信息的使用 102

3.9.6 使用位置和長度信息的索引 103

3.9.7 習題 105

3.10 小結(jié) 106

3.11 參考文獻 108

第4章 數(shù)據(jù)流挖掘 109

4.1 流數(shù)據(jù)模型 109

4.1.1 一個數(shù)據(jù)流管理系統(tǒng) 109

4.1.2 流數(shù)據(jù)源的例子 110

4.1.3 流查詢 111

4.1.4 流處理中的若干問題 112

4.2 流當中的數(shù)據(jù)抽樣 112

4.2.1 一個富有啟發(fā)性的例子 112

4.2.2 代表性樣本的獲取 113

4.2.3 一般的抽樣問題 114

4.2.4 樣本規(guī)模的變化 114

4.2.5 習題 115

4.3 流過濾 115

4.3.1 一個例子 115

4.3.2 布隆過濾器 116

4.3.3 布隆過濾方法的分析 116

4.3.4 習題 117

4.4 流中獨立元素的數(shù)目統(tǒng)計 118

4.4.1 獨立元素計數(shù)問題 118

4.4.2 FM算法 118

4.4.3 組合估計 119

4.4.4 空間需求 120

4.4.5 習題 120

4.5 矩估計 120

4.5.1 矩定義 120

4.5.2 二階矩估計的AMS算法 121

4.5.3 AMS算法有效的原因 122

4.5.4 更高階矩的估計 122

4.5.5 無限流的處理 123

4.5.6 習題 124

4.6 窗口內(nèi)的計數(shù)問題 124

4.6.1 精確計數(shù)的開銷 125

4.6.2 DGIM算法 125

4.6.3 DGIM算法的存儲需求 127

4.6.4 DGIM算法中的查詢應答 127

4.6.5 DGIM條件的保持 127

4.6.6 降低錯誤率 128

4.6.7 窗口內(nèi)計數(shù)問題的擴展 129

4.6.8 習題 130

4.7 衰減窗口 130

4.7.1 最常見元素問題 130

4.7.2 衰減窗口的定義 130

4.7.3 最流行元素的發(fā)現(xiàn) 131

4.8 小結(jié) 132

4.9 參考文獻 133

第5章 鏈接分析 134

5.1 PageRank 134

5.1.1 早期的搜索引擎及詞項作弊 134

5.1.2 PageRank的定義 136

5.1.3 Web結(jié)構(gòu) 138

5.1.4 避免終止點 140

5.1.5 采集器陷阱和“抽稅”法 142

5.1.6 PageRank在搜索引擎中的使用 144

5.1.7 習題 144

5.2 PageRank的快速計算 145

5.2.1 轉(zhuǎn)移矩陣的表示 146

5.2.2 基于MapReduce的PageRank迭代計算 146

5.2.3 結(jié)果向量合并時的組合器使用 147

5.2.4 轉(zhuǎn)移矩陣中塊的表示 148

5.2.5 其他高效的PageRank迭代方法 149

5.2.6 習題 150

5.3 面向主題的PageRank 150

5.3.1 動機 150

5.3.2 有偏的隨機游走模型 151

5.3.3 面向主題的PageRank的使用 153

5.3.5 習題 153

5.4 鏈接作弊 153

5.4.1 垃圾農(nóng)場的架構(gòu) 154

5.4.2 垃圾農(nóng)場的分析 155

5.4.3 與鏈接作弊的斗爭 156

5.4.4 TrustRank 156

5.4.5 垃圾質(zhì)量 156

5.4.6 習題 157

5.5 導航頁和權(quán)威頁 157

5.5.1 HITS的直觀意義 158

5.5.2 導航度和權(quán)威度的形式化 158

5.5.3 習題 161

5.6 小結(jié) 161

5.7 參考文獻 164

第6章 頻繁項集 165

6.1 購物籃模型 165

6.2 購物籃和A-Priori算法 171

6.3 更大數(shù)據(jù)集在內(nèi)存中的處理 178

6.4 有限掃描算法 185

6.5 流中的頻繁項計數(shù) 190

6.6 小結(jié) 192

6.7 參考文獻 194

第7章 聚類 195

7.1 聚類技術(shù)介紹 195

7.2 層次聚類 198

7.3 k-均值算法 206

7.4 CURE算法 212

7.5 非歐空間下的聚類 215

7.6 流聚類及并行化 218

7.7 小結(jié) 222

7.8 參考文獻 224

第8章 Web廣告 226

8.1 在線廣告相關問題 226

8.2 在線算法 228

8.3 廣告匹配問題 231

8.4 adwords問題 233

8.5 adwords的實現(xiàn) 240

8.6 小結(jié) 243

8.7 參考文獻 245

第9章 推薦系統(tǒng) 246

9.1 推薦系統(tǒng)的模型 246

9.2 基于內(nèi)容的推薦 249

9.3 協(xié)同過濾 257

9.4 降維處理 262

9.5 Netflix競賽 270

9.6 小結(jié) 271

9.7 參考文獻 272

第 10章 社會網(wǎng)絡圖挖掘 273

10.1 將社會網(wǎng)絡看成圖 273

10.2 社會網(wǎng)絡圖的聚類 277

10.3 社區(qū)的直接發(fā)現(xiàn) 283

10.4 圖劃分 287

10.5 重疊社區(qū)的發(fā)現(xiàn) 293

10.6 Simrank 299

10.7 三角形計數(shù)問題. 306

10.8 圖的鄰居性質(zhì) 311

10.9 小結(jié) 324

10.10 參考文獻 326

第 11章 降維處理 328

11.1 特征值和特征向量 328

11.2 主成分分析 334

11.3 奇異值分解 339

11.4 CUR分解 347

11.5 小結(jié) 352

11.6 參考文獻 353

第 12章 大規(guī)模機器學習 354

12.1 機器學習模型 354

12.2 感知機 360

12.3 支持向量機 371

12.4 近鄰學習 381

12.5 決策樹 387

12.6 各種學習方法的比較 397

12.7 小結(jié) 397

12.8 參考文獻 399

第 13章 神經(jīng)網(wǎng)絡與深度學習 400

13.1 神經(jīng)網(wǎng)絡簡介 400

13.2 密集型前饋網(wǎng)絡 405

13.3 反向傳播與梯度下降 413

13.4 卷積神經(jīng)網(wǎng)絡 420

13.5 循環(huán)神經(jīng)網(wǎng)絡 427

13.6 正則化 433

13.7 小結(jié) 435

13.8 參考文獻 436

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) rgspecialties.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號