日韩精品 中文字幕 动漫,91亚洲午夜一区,在线不卡日本v一区v二区丶,久久九九国产精品自在现拍

注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件大數(shù)據(jù)采集與處理

大數(shù)據(jù)采集與處理

大數(shù)據(jù)采集與處理

定 價(jià):¥128.00

作 者: 張雪萍 著
出版社: 電子工業(yè)出版社
叢編項(xiàng): 大數(shù)據(jù)及人工智能產(chǎn)教融合系列叢書
標(biāo) 簽: 暫缺

ISBN: 9787121420115 出版時(shí)間: 2021-09-01 包裝: 平裝
開本: 16開 頁數(shù): 492 字?jǐn)?shù):  

內(nèi)容簡介

  本書是一本專門論述大數(shù)據(jù)采集與處理相關(guān)技術(shù)及應(yīng)用的著作,也是一線研發(fā)工程師的實(shí)戰(zhàn)經(jīng)驗(yàn)結(jié)晶。本書依次介紹了大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)與計(jì)算、大數(shù)據(jù)安全等相關(guān)內(nèi)容,并結(jié)合大數(shù)據(jù)應(yīng)用各行業(yè)背景,介紹了電商、煤炭、教育、醫(yī)療、電信、交通等行業(yè)的大數(shù)據(jù)采集與處理。最后,本書以某電商網(wǎng)站數(shù)據(jù)分析為背景,介紹一個(gè)完整的數(shù)據(jù)采集、清洗、處理的離線數(shù)據(jù)分析案例,以期給讀者展示一個(gè)系統(tǒng)的實(shí)踐操作過程。與本書所述技術(shù)相關(guān)的論著較少,所著內(nèi)容新穎、系統(tǒng)全面、實(shí)踐指導(dǎo)性強(qiáng)。

作者簡介

  張雪萍,博士,教授,教育部新世紀(jì)優(yōu)秀人才,河南省高校科技創(chuàng)新人才,河南省教育廳學(xué)術(shù)技術(shù)帶頭人。長期從事計(jì)算機(jī)科學(xué)與技術(shù)、地理信息系統(tǒng)領(lǐng)域的的教學(xué)與科研工作,主要研究興趣包括空間數(shù)據(jù)挖掘與信息共享、數(shù)據(jù)庫版權(quán)保護(hù)、軟件測試、大數(shù)據(jù)與人工智能技術(shù)及應(yīng)用等。近年來完成國家八五”、十五”科技攻關(guān)、十一五”科技支撐計(jì)劃、教育部新世紀(jì)優(yōu)秀人才支持計(jì)劃等20余項(xiàng)科研項(xiàng)目,其中獲地廳級(jí)科學(xué)技術(shù)進(jìn)步一等獎(jiǎng)4項(xiàng)、二等獎(jiǎng)3項(xiàng)、三等獎(jiǎng)1項(xiàng);在LNAI、LNCS等國內(nèi)外重要學(xué)術(shù)期刊上發(fā)表論文60余篇,其中被EI收錄30余篇;出版學(xué)術(shù)著作6部,其中獲河南省信息技術(shù)優(yōu)秀一等獎(jiǎng)1項(xiàng),二等獎(jiǎng)1項(xiàng)。

圖書目錄

第1章 大數(shù)據(jù)基礎(chǔ) 1
1.1 大數(shù)據(jù)概念及特征 1
1.2 大數(shù)據(jù)采集與處理基本流程 2
1.2.1 大數(shù)據(jù)采集 3
1.2.2 大數(shù)據(jù)預(yù)處理 3
1.2.3 大數(shù)據(jù)處理 4
1.3 大數(shù)據(jù)分析 5
1.4 大數(shù)據(jù)應(yīng)用 6
1.4.1 大數(shù)據(jù)應(yīng)用行業(yè)分類 6
1.4.2 大數(shù)據(jù)分析在商業(yè)上的應(yīng)用 7
習(xí)題 9
參考文獻(xiàn) 9
第2章 開源Hadoop 10
2.1 Hadoop概述 10
2.1.1 Hadoop簡介 10
2.1.2 Hadoop起源及發(fā)展史 11
2.1.3 Hadoop發(fā)行版本 12
2.1.4 Hadoop特性 13
2.2 Hadoop生態(tài)系統(tǒng) 13
2.2.1 HDFS 14
2.2.2 MapReduce 15
2.2.3 Hive 15
2.2.4 ZooKeeper 16
2.2.5 Flume 17
2.2.6 Kafka 17
2.2.7 Spark 18
2.2.8 Storm 19
2.2.9 Flink 20
2.2.10 YARN 20
2.3 Hadoop的安裝與使用 21
2.3.1 環(huán)境準(zhǔn)備 22
2.3.2 單機(jī)模式 24
2.3.3 偽分布式 25
2.3.4 完全分布式安裝 38
習(xí)題 44
參考文獻(xiàn) 45
第3章 大數(shù)據(jù)采集 46
3.1 數(shù)據(jù)采集與大數(shù)據(jù)采集 46
3.1.1 數(shù)據(jù)采集 47
3.1.2 大數(shù)據(jù)采集及數(shù)據(jù)來源 47
3.1.3 傳統(tǒng)數(shù)據(jù)采集與大數(shù)據(jù)采集的區(qū)別 48
3.1.4 大數(shù)據(jù)采集分類 48
3.2 大數(shù)據(jù)采集方法 49
3.2.1 數(shù)據(jù)庫采集 50
3.2.2 系統(tǒng)日志采集 50
3.2.3 網(wǎng)絡(luò)數(shù)據(jù)采集 51
3.2.4 傳感器采集 51
3.2.5 眾包采集 51
3.3 常用采集工具及平臺(tái) 52
3.3.1 Flume 52
3.3.2 Fluentd 53
3.3.3 Logstash 55
3.3.4 Chukwa 56
3.3.5 Scribe 57
3.3.6 Splunk 58
3.3.7 Scrapy 59
3.4 網(wǎng)絡(luò)爬蟲 61
3.4.1 網(wǎng)絡(luò)爬蟲分類 61
3.4.2 網(wǎng)絡(luò)爬蟲發(fā)展現(xiàn)狀 62
3.4.3 網(wǎng)絡(luò)爬蟲使用技術(shù) 63
3.5 實(shí)戰(zhàn) 64
3.5.1 項(xiàng)目準(zhǔn)備 64
3.5.2 架構(gòu)設(shè)計(jì) 65
3.5.3 代碼實(shí)現(xiàn) 66
3.5.4 結(jié)果展示 73
習(xí)題 78
參考文獻(xiàn) 78
第4章 日志采集 79
4.1 日志采集概述 79
4.1.1 系統(tǒng)日志分類 79
4.1.2 日志分析系統(tǒng)架構(gòu)及日志采集方式 80
4.1.3 日志采集應(yīng)用場景與日志分析應(yīng)用場景 81
4.1.4 日志采集系統(tǒng)關(guān)鍵技術(shù) 82
4.2 Scribe 83
4.2.1 Scribe概述 83
4.2.2 Scribe全局配置 83
4.2.3 Scribe的存儲(chǔ)類型配置 84
4.3 Chukwa 88
4.3.1 Chukwa概述 88
4.3.2 Chukwa架構(gòu) 88
4.3.3 Chukwa數(shù)據(jù)收集應(yīng)用 89
4.4 Kafka 90
4.4.1 Kafka概述 90
4.4.2 Kafka架構(gòu) 91
4.4.3 Kafka日志采集 93
4.5 Flume 94
4.5.1 Flume概述 94
4.5.2 Flume架構(gòu) 95
4.5.3 Flume的優(yōu)勢 95
4.6 實(shí)戰(zhàn) 95
4.6.1 Flume安裝部署 96
4.6.2 環(huán)境測試 98
4.6.3 采集目錄到HDFS 99
4.6.4 采集文件到HDFS 100
習(xí)題 101
參考文獻(xiàn) 101
第5章 大數(shù)據(jù)預(yù)處理 102
5.1 為什么要進(jìn)行數(shù)據(jù)預(yù)處理 102
5.2 大數(shù)據(jù)預(yù)處理總體架構(gòu) 104
5.3 大數(shù)據(jù)預(yù)處理方法 105
5.3.1 數(shù)據(jù)清洗 105
5.3.2 數(shù)據(jù)集成 108
5.3.3 數(shù)據(jù)轉(zhuǎn)換 109
5.3.4 數(shù)據(jù)消減 110
5.4 ETL工具Kettle 116
5.4.1 ETL介紹 116
5.4.2 Kettle介紹 119
5.4.3 Kettle安裝與配置 142
5.5 實(shí)戰(zhàn) 151
5.5.1 基于Python的數(shù)據(jù)預(yù)處理 151
5.5.2 基于Hadoop生態(tài)圈的Kettle應(yīng)用 155
習(xí)題 179
參考文獻(xiàn) 180
第6章 大數(shù)據(jù)存儲(chǔ) 182
6.1 大數(shù)據(jù)存儲(chǔ)概述 183
6.1.1 大數(shù)據(jù)存儲(chǔ)面臨的問題 183
6.1.2 大數(shù)據(jù)存儲(chǔ)方式 184
6.1.3 大數(shù)據(jù)存儲(chǔ)技術(shù)路線 184
6.2 HDFS 185
6.2.1 HDFS架構(gòu) 186
6.2.2 HDFS存儲(chǔ)機(jī)制 187
6.2.3 NameNode和DataNode工作機(jī)制 190
6.3 NoSQL 193
6.3.1 NoSQL數(shù)據(jù)庫概述 193
6.3.2 HBase 198
6.3.3 MongoDB 206
6.3.4 Redis 214
6.4 ElasticSearch 220
6.4.1 ElasticSearch概述 220
6.4.2 ElasticSearch基本概念 221
6.4.3 ElasticSearch工作原理 223
6.4.4 ElasticSearch存儲(chǔ)機(jī)制 224
6.4.5 ElasticSearch分布式存儲(chǔ) 226
6.4.6 ElasticSearch安裝與運(yùn)行 229
6.5 實(shí)戰(zhàn) 231
6.5.1 主從模式搭建 231
6.5.2 Sentinel模式搭建 235
6.5.3 Cluster模式搭建 238
習(xí)題 245
參考文獻(xiàn) 245
第7章 MapReduce 246
7.1 概述 246
7.2 MapReduce計(jì)算框架 247
7.2.1 MapReduce模型 247
7.2.2 MapReduce函數(shù) 249
7.2.3 MapReduce資源管理 250
7.2.4 MapReduce生命周期管理 251
7.3 MapReduce工作流程及原理 253
7.3.1 MapReduce工作流程 253
7.3.2 MapReduce工作原理 254
7.4 深入Shuffle過程 255
7.4.1 Map端Shuffle 256
7.4.2 Reduce端Shuffle 260
7.5 實(shí)戰(zhàn) 262
7.5.1 任務(wù)準(zhǔn)備 262
7.5.2 編寫Map程序 262
7.5.3 編寫Reduce 程序 263
7.5.4 編寫main函數(shù) 265
7.5.5 核心代碼包 265
7.5.6 運(yùn)行代碼 266
習(xí)題 266
參考文獻(xiàn) 267
第8章 Hive數(shù)據(jù)倉庫 268
8.1 數(shù)據(jù)倉庫簡介 269
8.1.1 數(shù)據(jù)倉庫概念 269
8.1.2 數(shù)據(jù)倉庫的結(jié)構(gòu) 269
8.1.3 傳統(tǒng)數(shù)據(jù)倉庫的問題 271
8.1.4 數(shù)據(jù)倉庫的發(fā)展 271
8.2 Hive 272
8.2.1 Hive簡介 272
8.2.2 Hive與傳統(tǒng)數(shù)據(jù)庫的對比 273
8.2.3 Hive系統(tǒng)架構(gòu) 275
8.2.4 Hive體系結(jié)構(gòu) 276
8.2.5 Hive工作原理 277
8.2.6 Hive的數(shù)據(jù)模型 283
8.2.7 Hive基本操作 284
8.3 Impala 288
8.3.1 Impala簡介 288
8.3.2 Impala架構(gòu) 290
8.3.3 Impala執(zhí)行過程 292
8.3.4 Impala與Hive比較 294
8.3.5 Impala基本操作 294
8.4 Spark SQL 296
8.4.1 Spark SQL簡介 296
8.4.2 Spark SQL系統(tǒng)架構(gòu) 297
8.4.3 HiveContext和SQLContext的運(yùn)行過程 298
8.4.4 Shark和Spark SQL 299
8.4.5 Spark SQL基本操作 303
8.5 案例 305
8.5.1 大數(shù)據(jù)倉庫設(shè)計(jì)案例 305
8.5.2 YouTuBe項(xiàng)目實(shí)戰(zhàn) 307
習(xí)題 318
參考文獻(xiàn) 318
第9章 流計(jì)算 319
9.1 流計(jì)算簡介 319
9.1.1 流計(jì)算的概念及特點(diǎn) 320
9.1.2 流計(jì)算的適用范圍與應(yīng)用場景 321
9.2 Spark Streaming 321
9.2.1 Spark Streaming 概述 321
9.2.2 Spark Streaming基本原理 322
9.2.3 Spark Streaming 運(yùn)行架構(gòu) 322
9.2.4 實(shí)戰(zhàn) 323
9.3 Storm 325
9.3.1 Storm概述 326
9.3.2 Storm基礎(chǔ)架構(gòu) 326
9.3.3 Storm運(yùn)行流程 327
9.3.4 實(shí)戰(zhàn) 328
9.4 Flink 332
9.4.1 Flink概述 333
9.4.2 Flink運(yùn)行架構(gòu) 335
9.4.3 實(shí)戰(zhàn) 336
9.5 案例 341
9.5.1 任務(wù)目標(biāo) 341
9.5.2 實(shí)驗(yàn)環(huán)境 341
9.5.3 數(shù)據(jù)準(zhǔn)備 341
9.5.4 業(yè)務(wù)(任務(wù))實(shí)現(xiàn) 344
9.5.5 結(jié)果展示 350
習(xí)題 351
參考文獻(xiàn) 351
第10章 Pregel圖計(jì)算 352
10.1 Pregel圖計(jì)算簡介 353
10.1.1 圖結(jié)構(gòu)數(shù)據(jù) 353
10.1.2 傳統(tǒng)圖計(jì)算解決方案的不足 353
10.1.3 圖計(jì)算通用軟件 353
10.1.4 Pregel簡介 354
10.2 Pregel圖計(jì)算模型 355
10.2.1 有向圖和頂點(diǎn) 355
10.2.2 頂點(diǎn)之間的消息傳遞 355
10.2.3 Pregel計(jì)算過程 356
10.3 Pregel工作原理 358
10.3.1 Pregel的C++ API 358
10.3.2 消息傳遞機(jī)制和Combiner 358
10.3.3 Aggregator機(jī)制 359
10.3.4 拓?fù)涓淖?360
10.3.5 輸入和輸出 360
10.4 Pregel體系結(jié)構(gòu) 360
10.4.1 Pregel的執(zhí)行過程 360
10.4.2 容錯(cuò)性 362
10.4.3 Worker 363
10.4.4 Master 363
10.4.5 Aggregator 364
10.5 Pregel應(yīng)用實(shí)例 365
10.5.1 單源最短路徑 365
10.5.2 PageRank算法實(shí)現(xiàn)及比較 367
10.6 Hama 371
10.6.1 Hama介紹 371
10.6.2 Hama體系結(jié)構(gòu) 371
10.6.3 Hama實(shí)現(xiàn)PageRank算法 372
習(xí)題 374
參考文獻(xiàn) 374
第11章 大數(shù)據(jù)安全技術(shù)及應(yīng)用 375
11.1 大數(shù)據(jù)安全概述 376
11.2 大數(shù)據(jù)安全威脅形式 376
11.2.1 大數(shù)據(jù)基礎(chǔ)設(shè)施安全威脅 376
11.2.2 大數(shù)據(jù)生命周期安全威脅 377
11.2.3 大數(shù)據(jù)隱私安全威脅 379
11.3 大數(shù)據(jù)安全關(guān)鍵路徑 380
11.3.1 大數(shù)據(jù)性能安全保障 380
11.3.2 大數(shù)據(jù)安全關(guān)鍵技術(shù) 387
11.4 大數(shù)據(jù)安全管理及應(yīng)用 391
11.4.1 大數(shù)據(jù)安全管理 392
11.4.2 大數(shù)據(jù)安全應(yīng)用 394
11.5 大數(shù)據(jù)安全案例分析 398
11.5.1 安全性能案例――如何自行搭建大數(shù)據(jù)計(jì)算平臺(tái) 398
11.5.2 生命周期安全分析案例――大數(shù)據(jù)內(nèi)網(wǎng)的硬件漏洞安全分析 400
習(xí)題 403
參考文獻(xiàn) 403
第12章 行業(yè)大數(shù)據(jù)采集與處理 404
12.1 電商大數(shù)據(jù)采集與處理 404
12.1.1 電商行業(yè)大數(shù)據(jù)概述 404
12.1.2 京東大數(shù)據(jù)采集與處理 404
12.1.3 某電商網(wǎng)站完整離線數(shù)據(jù)分析案例 410
12.2 煤炭大數(shù)據(jù)采集與處理 423
12.2.1 煤炭行業(yè)大數(shù)據(jù)概述 423
12.2.2 煤炭行業(yè)大數(shù)據(jù)采集與處理 424
12.2.3 煤炭行業(yè)大數(shù)據(jù)平臺(tái)案例 425
12.3 教育大數(shù)據(jù)采集與處理 432
12.3.1 總體技術(shù)架構(gòu) 432
12.3.2 Hadoop與Spark集成平臺(tái) 433
12.3.3 數(shù)據(jù)采集方案設(shè)計(jì) 434
12.3.4 數(shù)據(jù)清洗方案設(shè)計(jì) 435
12.3.5 數(shù)據(jù)存儲(chǔ)方案設(shè)計(jì) 436
12.3.6 學(xué)生學(xué)業(yè)預(yù)警系統(tǒng)需求分析 437
12.3.7 系統(tǒng)體系結(jié)構(gòu)設(shè)計(jì) 438
12.4 醫(yī)療大數(shù)據(jù)采集與處理 439
12.4.1 醫(yī)療大數(shù)據(jù)概述 439
12.4.2 醫(yī)療行業(yè)大數(shù)據(jù)采集與處理 441
12.4.3 醫(yī)療大數(shù)據(jù)采集與處理案例 443
12.5 電信大數(shù)據(jù)采集與處理 447
12.5.1 電信行業(yè)大數(shù)據(jù)概述 448
12.5.2 電信行業(yè)大數(shù)據(jù)采集與處理 450
12.5.3 電信行業(yè)大數(shù)據(jù)案例 452
12.6 交通大數(shù)據(jù)采集與處理 455
12.6.1 交通大數(shù)據(jù)概述 456
12.6.2 交通行業(yè)大數(shù)據(jù)采集與處理 461
12.6.3 交通大數(shù)據(jù)案例 466
習(xí)題 476
參考文獻(xiàn) 477

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) rgspecialties.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)