日韩精品 中文字幕 动漫,91亚洲午夜一区,在线不卡日本v一区v二区丶,久久九九国产精品自在现拍

注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)網(wǎng)絡(luò)與數(shù)據(jù)通信網(wǎng)絡(luò)服務(wù)大規(guī)模數(shù)據(jù)分析和建模:基于Spark與R

大規(guī)模數(shù)據(jù)分析和建模:基于Spark與R

大規(guī)模數(shù)據(jù)分析和建模:基于Spark與R

定 價(jià):¥89.00

作 者: [美] 哈維爾·盧拉辛(Javier Luraschi),凱文·郭(Kevin,Kuo 著,魏博譯 譯
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787111661016 出版時(shí)間: 2020-07-01 包裝: 平裝
開本: 16開 頁數(shù): 260 字?jǐn)?shù):  

內(nèi)容簡介

  這本書的目的是幫助所有人通過R使用Apache Spark。第1章~第5章,簡單地介紹了如何大規(guī)模執(zhí)行數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)項(xiàng)目。第6~9章介紹了使用Spark進(jìn)行集群計(jì)算中令人激動(dòng)的基本概念。第10章~第13章涵蓋一些高級(jí)主題,包括分布式R、Streaming和社區(qū)貢獻(xiàn)等。

作者簡介

  Javier Luraschi是大規(guī)模數(shù)據(jù)科學(xué)諸多庫的發(fā)明者,包括sparklyr、r2d3、pins和cloudml。 Kevin Kuo構(gòu)建了機(jī)器學(xué)習(xí)庫,并領(lǐng)導(dǎo)了Kasa AI的開放保險(xiǎn)研究。 Edgar Ruiz構(gòu)建了企業(yè)級(jí)的數(shù)據(jù)解決方案工具,包括dbplot、tidypredict和modeldb。

圖書目錄

序言1
前言3
第1章 引言9
11 概述10
12 Hadoop10
13 Spark12
14 R16
15 sparklyr19
16 小結(jié)20
第2章 開始21
21 概述21
22 預(yù)備操作22
221 安裝sparklyr23
222 安裝Spark23
23 連接24
24 使用Spark25
241 網(wǎng)絡(luò)接口25
242 分析28
243 建模28
244 數(shù)據(jù)30
245 擴(kuò)展30
246 分布式R31
247 流式數(shù)據(jù)31
248 日志32
25 斷開連接33
26 使用RStudio33
27 資源35
28 小結(jié)36
第3章 分析37
31 概述37
32 數(shù)據(jù)導(dǎo)入40
33 數(shù)據(jù)整理41
331 內(nèi)置函數(shù)42
332 相關(guān)性43
34 可視化45
341 使用ggplot246
342 使用dbplot47
35 建模49
36 溝通51
37 小結(jié)54
第4章 建模56
41 概述56
42 探索性數(shù)據(jù)分析58
43 特征工程65
44 監(jiān)督式學(xué)習(xí)68
441 廣義線性回歸72
442 其他模型73
45 非監(jiān)督式學(xué)習(xí)73
451 數(shù)據(jù)準(zhǔn)備74
452 主題建模75
46 小結(jié)77
第5章 管道操作78
51 概述78
52 創(chuàng)建工作80
53 用例81
54 操作模式83
55 交互性84
56 部署86
561 批打分87
562 實(shí)時(shí)打分88
57 小結(jié)90
第6章 集群92
61 概述92
62 本地化94
621 管理器94
622 發(fā)行版98
63 云端100
631 亞馬遜101
632 Databricks102
633 谷歌103
634 IBM105
635 微軟106
636 Qubole107
64 Kubernetes107
65 工具108
651 RStudio108
652 Jupyter109
653 Livy110
66 小結(jié)111
第7章 連接112
71 概述112
711 邊緣節(jié)點(diǎn)114
712 Spark主目錄114
72 本地模式115
73 單機(jī)模式116
74 YARN116
741 YARN客戶端117
742 YARN集群117
75 Livy118
76 Mesos120
77 Kubernetes121
78 云模式121
79 批量模式122
710 工具123
711 多次連接123
712 故障排除124
7121 記錄日志124
7122 Spark Submit124
7123 Windows126
713 小結(jié)126
第8章 數(shù)據(jù)127
81 概述127
82 讀取數(shù)據(jù)129
821 路徑129
822 模式130
823 內(nèi)存131
824 列132
83 寫入數(shù)據(jù)133
84 復(fù)制數(shù)據(jù)134
85 文件格式135
851 CSV136
852 JSON137
853 Parquet138
854 其他139
86 文件系統(tǒng)140
87 存儲(chǔ)系統(tǒng)140
871 Hive141
872 Cassandra142
873 JDBC142
88 小結(jié)143
第9章 調(diào)試144
91 概述144
911 計(jì)算圖146
912 時(shí)間線148
92 配置148
921 連接設(shè)置150
922 提交設(shè)置151
923 運(yùn)行時(shí)設(shè)置152
924 sparklyr設(shè)置153
93 分區(qū)156
931 隱式分區(qū)156
932 顯式分區(qū)157
94 緩存158
941 檢查點(diǎn)159
942 內(nèi)存159
95 重洗160
96 序列化161
97 配置文件161
98 小結(jié)162
第10章 擴(kuò)展163
101 概述163
102 H2O165
103 圖模型169
104 XGBoost173
105 深度學(xué)習(xí)176
106 基因組學(xué)179
107 空間數(shù)據(jù)181
108 故障排除183
109 小結(jié)183
第11章 分布式R185
111 概述185
112 用例187
1121 定制解析器188
1122 分區(qū)建模189
1123 網(wǎng)格搜索191
1124 Web API192
1125 模擬193
113 分區(qū)194
114 分組195
115 列196
116 context參數(shù)197
117 函數(shù)198
118 程序包199
119 集群需求200
1191 安裝R200
1192 Apache Arrow201
1110 故障排除203
11101 工作節(jié)點(diǎn)日志204
11102 解決超時(shí)205
11103 檢查分區(qū)206
11104 調(diào)試工作節(jié)點(diǎn)206
1111 小結(jié)207
第12章 數(shù)據(jù)流208
121 概述208
122 轉(zhuǎn)換211
1221 分析212
1222 建模213
1223 管道214
1224 分布式R215
123 Kafka216
124 Shiny218
125 小結(jié)220
第13章 社區(qū)貢獻(xiàn)221
131 概述221
132 Spark API223
133 Spark擴(kuò)展224
134 使用Scala代碼226
135 小結(jié)228
附錄A 補(bǔ)充參考代碼229

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) rgspecialties.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)