定 價:¥69.80
作 者: | 葛繼科,張曉琴,陳祖琴 |
出版社: | 人民郵電出版社 |
叢編項: | |
標 簽: | 暫缺 |
ISBN: | 9787115614353 | 出版時間: | 2023-07-01 | 包裝: | 平裝 |
開本: | 128開 | 頁數: | 字數: |
【章名目錄】
第 1章 大數據概述
第2章 Python程序設計
第3章 大數據采集
第4章 大數據預處理技術
第5章 Excel數據獲取與預處理
第6章 Python數據預處理
第7章 數據可視化技術
【詳細目錄】
第 1章 大數據概述
1.1 大數據時代 1
1.2 大數據的相關概念及特征 2
1.2.1 大數據的概念 2
1.2.2 大數據的發(fā)展歷程 3
1.2.3 大數據的特征 5
1.2.4 大數據的作用 6
1.2.5 大數據的應用領域 7
1.2.6 大數據的關鍵技術 8
1.3 大數據系統(tǒng)簡介 9
1.3.1 Hadoop生態(tài)系統(tǒng) 9
1.3.2 Spark生態(tài)系統(tǒng) 12
1.4 大數據思維 15
1.4.1 傳統(tǒng)思維方式 15
1.4.2 大數據思維方式 16
1.5 大數據倫理 17
1.5.1 大數據倫理的由來 17
1.5.2 大數據的倫理問題 18
1.5.3 大數據的倫理原則 21
1.6 大數據安全 22
1.6.1 數據全生命周期安全 22
1.6.2 大數據安全防護技術 23
1.7 本章小結 24
1.8 習題 24
第2章 Python程序設計
2.1 Python的安裝與運行 25
2.1.1 Python的特點 25
2.1.2 Python的下載與安裝 26
2.1.3 Python程序的運行 27
2.1.4 第三方軟件包的安裝 29
2.1.5 Python編程規(guī)范 31
2.2 數據類型與運算符 33
2.2.1 數字和字符串 33
2.2.2 列表和元組 38
2.2.3 字典和集合 42
2.2.4 運算符 44
2.3 程序控制結構 47
2.3.1 程序流程圖 47
2.3.2 順序結構 48
2.3.3 選擇結構 49
2.3.4 循環(huán)結構 51
2.4 函數與模塊 54
2.4.1 函數的使用 54
2.4.2 函數的參數傳遞 55
2.4.3 全局變量與局部變量 57
2.4.4 匿名函數 58
2.4.5 模塊 59
2.5 文件 60
2.5.1 文件的打開與關閉 60
2.5.2 文件的讀取與寫入 62
2.5.3 文件的定位 63
2.6 本章小結 63
2.7 習題 64
第3章 大數據采集
3.1 大數據采集概述 65
3.1.1 大數據采集的概念 65
3.1.2 大數據采集的數據源 66
3.1.3 大數據采集方法 67
3.1.4 大數據采集平臺 69
3.2 網絡爬蟲技術 71
3.2.1 網絡爬蟲概述 72
3.2.2 常用網絡爬蟲方法 72
3.2.3 網頁數據采集的實現 75
3.2.4 常用網絡爬蟲工具 78
3.2.5 電影評論爬取 82
3.3 數據抽取技術 85
3.3.1 數據抽取概述 85
3.3.2 Kettle簡介與其安裝 86
3.3.3 文本數據抽取 87
3.3.4 網頁數據抽取 89
3.4 案例:網絡租房信息采集 91
3.4.1 網絡爬蟲采集數據 91
3.4.2 抽取租房信息 94
3.5 本章小結 96
3.6 習題 96
第4章 大數據預處理技術
4.1 數據預處理概述 97
4.1.1 數據質量 97
4.1.2 數據預處理的主要任務 99
4.2 數據清洗 99
4.2.1 缺失值處理方法 99
4.2.2 噪聲數據處理方法 101
4.2.3 冗余數據處理方法 105
4.2.4 數據格式與內容處理方法 106
4.3 數據集成 106
4.3.1 實體識別問題 106
4.3.2 冗余問題 107
4.3.3 數據值沖突的檢測與處理 109
4.4 數據變換 110
4.4.1 數據規(guī)范化 110
4.4.2 通過離散化變換數據 112
4.5 數據歸約 113
4.5.1 過濾法 114
4.5.2 包裝法 115
4.5.3 嵌入法 116
4.6 數據脫敏 117
4.6.1 數據脫敏類型 117
4.6.2 數據脫敏方法 118
4.7 案例:汽車行駛工況數據預處理 119
4.7.1 案例背景 119
4.7.2 數據描述 119
4.7.3 數據預處理 120
4.8 本章小結 124
4.9 習題 125
第5章 Excel數據獲取與預處理
5.1 Excel數據獲取 126
5.1.1 獲取文本數據 126
5.1.2 獲取網站數據 128
5.1.3 獲取數據庫中的數據 130
5.2 Excel數據清洗與轉換 132
5.2.1 常用數據分析函數 132
5.2.2 刪除重復行 136
5.2.3 文本查找與替換 137
5.2.4 字符串截取 139
5.2.5 數據的轉置 140
5.2.6 數據的查詢和引用 140
5.2.7 字母與數字的轉換 142
5.3 Excel數據抽取與合并 143
5.3.1 值的抽取 144
5.3.2 數據合并 146
5.3.3 字段合并 147
5.4 案例:房價行情的對比分析 148
5.4.1 數據獲取 148
5.4.2 數據預處理與分析 149
5.5 本章小結 151
5.6 習題 151
第6章 Python數據預處理
6.1 Python數據預處理基礎 153
6.1.1 科學計算庫NumPy 153
6.1.2 數據分析庫pandas 160
6.2 數據的分組、分割、合并和變形 168
6.2.1 數據分組 168
6.2.2 數據分割 171
6.2.3 數據合并 172
6.2.4 數據變形 175
6.3 缺失值、異常值和重復值處理 177
6.3.1 缺失值處理 177
6.3.2 異常值處理 181
6.3.3 重復值處理 185
6.4 時間序列數據處理 185
6.4.1 時間序列的基本操作 186
6.4.2 固定頻率的時間序列 187
6.4.3 時間周期及其計算 188
6.5 文本數據分析 189
6.5.1 字符串處理方法 189
6.5.2 文本數據分析工具 191
6.5.3 正則表達式 194
6.5.4 文本預處理 196
6.6 案例:IMDb5000電影數據預處理 199
6.6.1 數據分析及代碼實現 199
6.6.2 完整代碼 201
6.7 本章小結 203
6.8 習題 203
第7章 數據可視化技術
7.1 數據可視化概述 205
7.1.1 數據可視化的定義 205
7.1.2 數據可視化的發(fā)展歷程 206
7.1.3 數據可視化的作用 211
7.2 數據可視化的理論基礎 212
7.2.1 數據可視化的流程 212
7.2.2 數據可視化的設計要素 213
7.2.3 數據可視化的基礎圖表 216
7.2.4 數據可視化的常見工具 219
7.3 Python數據可視化方法 221
7.3.1 Matplotlib繪制基礎圖表 221
7.3.2 seaborn繪制統(tǒng)計圖 229
7.3.3 wordcloud繪制詞云圖 254
7.3.4 NetworkX繪制網絡圖 257
7.3.5 案例:重慶公開庭審數據可視化 260
7.4 pyecharts數據可視化方法 265
7.4.1 pyecharts簡介 265
7.4.2 pyecharts應用 266
7.4.3 案例:2020年東京奧運會獎牌看板 267
7.5 本章小結 278
7.6 習題 279
參考文獻 280