日韩精品 中文字幕 动漫,91亚洲午夜一区,在线不卡日本v一区v二区丶,久久九九国产精品自在现拍

注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)數(shù)據(jù)庫數(shù)據(jù)庫設(shè)計/管理Spark高級數(shù)據(jù)分析

Spark高級數(shù)據(jù)分析

Spark高級數(shù)據(jù)分析

定 價:¥59.00

作 者: (美)里扎(Sandy Ryza)(美)萊瑟森(Uri Laserson)(英)歐文(Sean Owen)(美)威爾斯(Josh Wills)
出版社: 人民郵電出版社
叢編項:
標(biāo) 簽: 計算機/網(wǎng)絡(luò) 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 數(shù)據(jù)庫

ISBN: 9787115404749 出版時間: 2015-11-01 包裝: 平裝
開本: 16開 頁數(shù): 226 字數(shù):  

內(nèi)容簡介

  本書是使用Spark進行大規(guī)模數(shù)據(jù)分析的實戰(zhàn)寶典,由大數(shù)據(jù)公司Cloudera的數(shù)據(jù)科學(xué)家撰寫。四位作者首先結(jié)合數(shù)據(jù)科學(xué)和大數(shù)據(jù)分析的廣闊背景講解了Spark,然后介紹了用Spark和Scala進行數(shù)據(jù)處理的基礎(chǔ)知識,接著討論了如何將Spark用于機器學(xué)習(xí),同時介紹了常見應(yīng)用中幾個常用的算法。此外還收集了一些更加新穎的應(yīng)用,比如通過文本隱含語義關(guān)系來查詢Wikipedia或分析基因數(shù)據(jù)。

作者簡介

  Sandy Ryza是Cloudera公司數(shù)據(jù)科學(xué)家,Apache Spark項目的活躍代碼貢獻者。領(lǐng)導(dǎo)了Cloudera公司的Spark開發(fā)工作。他還是Hadoop項目管理委員會委員。Uri Laserson是Cloudera公司數(shù)據(jù)科學(xué)家,專注于Hadoop生態(tài)系統(tǒng)中的Python部分。Sean Owen是Cloudera公司EMEA地區(qū)的數(shù)據(jù)科學(xué)總監(jiān),也是Apache Spark項目的代碼提交者。他創(chuàng)立了基于Spark、Spark Streaming和Kafka的Hadoop實時大規(guī)模學(xué)習(xí)項目Oryx(之前稱為Myrrix)。Josh Wills是Cloudera公司的高級數(shù)據(jù)科學(xué)總監(jiān),Apache Crunch項目的發(fā)起者和副總裁。

圖書目錄

推薦序 ix
譯者序 xi
序 xiii
前言 xv
第1 章 大數(shù)據(jù)分析 1
1.1 數(shù)據(jù)科學(xué)面臨的挑戰(zhàn) 2
1.2 認識Apache Spark 4
1.3 關(guān)于本書 5
第2 章 用Scala 和Spark 進行數(shù)據(jù)分析 7
2.1 數(shù)據(jù)科學(xué)家的Scala 8
2.2 Spark 編程模型 9
2.3 記錄關(guān)聯(lián)問題 9
2.4 小試牛刀:Spark shell 和SparkContext 10
2.5 把數(shù)據(jù)從集群上獲取到客戶端 15
2.6 把代碼從客戶端發(fā)送到集群 18
2.7 用元組和case class 對數(shù)據(jù)進行結(jié)構(gòu)化 19
2.8 聚合 23
2.9 創(chuàng)建直方圖 24
2.10 連續(xù)變量的概要統(tǒng)計 25
2.11 為計算概要信息創(chuàng)建可重用的代碼 26
2.12 變量的選擇和評分簡介 30
2.13 小結(jié) 31
第3 章 音樂推薦和Audioscrobbler 數(shù)據(jù)集 33
3.1 數(shù)據(jù)集 34
3.2 交替*小二乘推薦算法 35
3.3 準(zhǔn)備數(shù)據(jù) 37
3.4 構(gòu)建**個模型 39
3.5 逐個檢查推薦結(jié)果 42
3.6 評價推薦質(zhì)量 43
3.7 計算AUC 44
3.8 選擇超參數(shù) 46
3.9 產(chǎn)生推薦 48
3.10 小結(jié) 49
第4 章  用決策樹算法預(yù)測森林植被 51
4.1 回歸簡介 52
4.2 向量和特征 52
4.3 樣本訓(xùn)練 53
4.4 決策樹和決策森林 54
4.5 Covtype 數(shù)據(jù)集 56
4.6 準(zhǔn)備數(shù)據(jù) 57
4.7 **棵決策樹 58
4.8 決策樹的超參數(shù) 62
4.9 決策樹調(diào)優(yōu) 63
4.10 重談類別型特征 65
4.11 隨機決策森林 67
4.12 進行預(yù)測 69
4.13 小結(jié) 69
第5 章 基于K 均值聚類的網(wǎng)絡(luò)流量異常檢測 71
5.1 異常檢測 72
5.2 K 均值聚類 72
5.3 網(wǎng)絡(luò)入侵 73
5.4 KDD Cup 1999 數(shù)據(jù)集 73
5.5 初步嘗試聚類 74
5.6 K 的選擇 76
5.7 基于R 的可視化 79
5.8 特征的規(guī)范化 81
5.9 類別型變量 83
5.10 利用標(biāo)號的熵信息 84
5.11 聚類實戰(zhàn) 85
5.12 小結(jié) 86
第6 章 基于潛在語義分析算法分析維基百科 89
6.1 詞項- 文檔矩陣 90
6.2 獲取數(shù)據(jù) 91
6.3 分析和準(zhǔn)備數(shù)據(jù) 92
6.4 詞形歸并 93
6.5 計算TF-IDF 94
6.6 奇異值分解 97
6.7 找出重要的概念 98
6.8 基于低維近似的查詢和評分 101
6.9 詞項- 詞項相關(guān)度 102
6.10 文檔- 文檔相關(guān)度 103
6.11 詞項- 文檔相關(guān)度 105
6.12 多詞項查詢 106
6.13 小結(jié) 107
第7 章 用GraphX 分析伴生網(wǎng)絡(luò) 109
7.1 對MEDLINE 文獻引用索引的網(wǎng)絡(luò)分析 110
7.2 獲取數(shù)據(jù) 111
7.3 用Scala XML 工具解析XML 文檔 113
7.4 分析MeSH 主要主題及其伴生關(guān)系 114
7.5 用GraphX 來建立一個伴生網(wǎng)絡(luò) 116
7.6 理解網(wǎng)絡(luò)結(jié)構(gòu) 119
7.6.1 連通組件 119
7.6.2 度的分布 122
7.7 過濾噪聲邊 124
7.7.1 處理EdgeTriplet 125
7.7.2 分析去掉噪聲邊的子圖 126
7.8 小世界網(wǎng)絡(luò) 127
7.8.1 系和聚類系數(shù) 128
7.8.2 用Pregel 計算平均路徑長度 129
7.9 小結(jié) 133
第8 章 紐約出租車軌跡的空間和時間數(shù)據(jù)分析 135
8.1 數(shù)據(jù)的獲取 136
8.2 基于Spark 的時間和空間數(shù)據(jù)分析 136
8.3 基于JodaTime 和NScalaTime 的時間數(shù)據(jù)處理 137
8.4 基于Esri Geometry API 和Spray 的地理空間數(shù)據(jù)處理 138
8.4.1 認識Esri Geometry API 139
8.4.2 GeoJSON 簡介 140
8.5 紐約市出租車客運數(shù)據(jù)的預(yù)處理 142
8.5.1 大規(guī)模數(shù)據(jù)中的非法記錄處理 143
8.5.2 地理空間分析 147
8.6 基于Spark 的會話分析 149
8.7 小結(jié) 153
第9 章 基于蒙特卡羅模擬的金融風(fēng)險評估 155
9.1 術(shù)語 156
9.2 VaR 計算方法 157
9.2.1 方差- 協(xié)方差法 157
9.2.2 歷史模擬法 157
9.2.3 蒙特卡羅模擬法 157
9.3 我們的模型 158
9.4 獲取數(shù)據(jù) 158
9.5 數(shù)據(jù)預(yù)處理 159
9.6 確定市場因素的權(quán)重 162
9.7 采樣 164
9.8 運行試驗 167
9.9 回報分布的可視化 170
9.10 結(jié)果的評估 171
9.11 小結(jié) 173
第10 章 基因數(shù)據(jù)分析和BDG 項目 175
10.1 分離存儲與模型 176
10.2 用ADAM CLI 導(dǎo)入基因?qū)W數(shù)據(jù) 178
10.3 從ENCODE 數(shù)據(jù)預(yù)測轉(zhuǎn)錄因子結(jié)合位點 185
10.4 查詢1000 Genomes 項目中的基因型 191
10.5 小結(jié) 193
第11 章 基于PySpark 和Thunder 的神經(jīng)圖像數(shù)據(jù)分析 195
11.1 PySpark 簡介 196
11.2 Thunder 工具包概況和安裝 199
11.3 用Thunder 加載數(shù)據(jù) 200
11.4 用Thunder 對神經(jīng)元進行分類 207
11.5 小結(jié) 211
附錄A Spark 進階 213
附錄B 即將發(fā)布的MLlib Pipelines API 221
作者介紹 226
封面介紹 226

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) rgspecialties.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號