日韩精品 中文字幕 动漫,91亚洲午夜一区,在线不卡日本v一区v二区丶,久久九九国产精品自在现拍

注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡數(shù)據(jù)庫Pandas數(shù)據(jù)分析

Pandas數(shù)據(jù)分析

Pandas數(shù)據(jù)分析

定 價:¥169.00

作 者: [美]斯蒂芬妮·莫林 著,李強 譯
出版社: 清華大學出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787302631354 出版時間: 2023-06-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字數(shù):  

內(nèi)容簡介

  《Pandas數(shù)據(jù)分析》詳細闡述了與Pandas數(shù)據(jù)分析相關的基本解決方案,主要包括數(shù)據(jù)分析導論、使用Pandas DataFrame、使用Pandas進行數(shù)據(jù)整理、聚合Pandas DataFrame、使用Pandas和Matplotlib可視化數(shù)據(jù)、使用Seaborn和自定義技術繪圖、金融分析、基于規(guī)則的異常檢測、Python機器學習入門、做出更好的預測、機器學習異常檢測等內(nèi)容。此外,本書還提供了相應的示例、代碼,以幫助讀者進一步理解相關方案的實現(xiàn)過程。 本書適合作為高等院校計算機及相關專業(yè)的教材和教學參考書,也可作為相關開發(fā)人員的自學用書和參考手冊。

作者簡介

  斯蒂芬妮·莫林是紐約彭博有限合伙企業(yè)(Bloomberg LP)的數(shù)據(jù)科學家和軟件工程師,負責解決信息安全方面的棘手問題,特別是圍繞異常檢測、構建數(shù)據(jù)收集工具和知識共享等方面的工作。她在數(shù)據(jù)科學、設計異常檢測解決方案以及在廣告技術(AdTech)和金融科技(FinTech)行業(yè)中利用R和Python的機器學習方面擁有豐富的經(jīng)驗。她擁有哥倫比亞大學傅氏基金工程和應用科學學院運籌學學士學位,輔修經(jīng)濟學、創(chuàng)業(yè)與創(chuàng)新。在閑暇時間,她喜歡環(huán)游世界、發(fā)明新食譜、學習人與計算機之間使用的新語言。

圖書目錄

第1篇  Pandas入門
第1章  數(shù)據(jù)分析導論 3
1.1  章節(jié)材料 3
1.2  數(shù)據(jù)分析基礎知識 5
1.2.1  數(shù)據(jù)收集 6
1.2.2  數(shù)據(jù)整理 7
1.2.3  探索性數(shù)據(jù)分析 8
1.2.4  得出結論 9
1.3  統(tǒng)計基礎知識 10
1.3.1  采樣 11
1.3.2  描述性統(tǒng)計 12
1.3.3  集中趨勢的度量 12
1.3.4  均值 12
1.3.5  中位數(shù) 13
1.3.6  眾數(shù) 13
1.3.7  數(shù)據(jù)散布的度量 14
1.3.8  全距 14
1.3.9  方差 15
1.3.10  標準差 15
1.3.11  變異系數(shù) 16
1.3.12  四分位距 17
1.3.13  四分位離散系數(shù) 17
1.3.14  匯總數(shù)據(jù) 18
1.3.15  常見分布 22
1.3.16  縮放數(shù)據(jù) 24
1.3.17  量化變量之間的關系 25
1.3.18  匯總統(tǒng)計的陷阱 27
1.3.19  預測 28
1.3.20  推論統(tǒng)計 32
1.4  設置虛擬環(huán)境 35
1.4.1  虛擬環(huán)境 35
1.4.2  使用venv 36
1.4.3  Windows中的操作 37
1.4.4  Linux/macOS中的操作 37
1.4.5  使用conda 38
1.4.6  安裝所需的Python包 40
1.4.7  關于Pandas 40
1.4.8  Jupyter Notebook 41
1.4.9  啟動JupyterLab 41
1.4.10  驗證虛擬環(huán)境 43
1.4.11  關閉JupyterLab 45
1.5  小結 45
1.6  練習 46
1.7  延伸閱讀 47
第2章  使用Pandas DataFrame 49
2.1  章節(jié)材料 49
2.2  Pandas數(shù)據(jù)結構 50
2.2.1  Series 55
2.2.2  Index 56
2.2.3  DataFrame 57
2.3  創(chuàng)建Pandas DataFrame 60
2.3.1  從Python對象中創(chuàng)建DataFrame 61
2.3.2  從文件中創(chuàng)建DataFrame 65
2.3.3  從數(shù)據(jù)庫中創(chuàng)建DataFrame 69
2.3.4  從API中獲取數(shù)據(jù)以創(chuàng)建DataFrame 71
2.4  檢查DataFrame對象 74
2.4.1  檢查數(shù)據(jù) 74
2.4.2  描述數(shù)據(jù) 77
2.5  抓取數(shù)據(jù)的子集 80
2.5.1  選擇列 81
2.5.2  切片 84
2.5.3  索引 86
2.5.4  過濾 88
2.6  添加和刪除數(shù)據(jù) 95
2.6.1  創(chuàng)建新數(shù)據(jù) 96
2.6.2  刪除不需要的數(shù)據(jù) 104
2.7  小結 106
2.8  練習 107
2.9  延伸閱讀 107
第2篇  使用Pandas進行數(shù)據(jù)分析
第3章  使用Pandas進行數(shù)據(jù)整理 111
3.1  章節(jié)材料 112
3.2  關于數(shù)據(jù)整理 113
3.2.1  數(shù)據(jù)清洗 114
3.2.2  數(shù)據(jù)轉(zhuǎn)換 114
3.2.3  寬數(shù)據(jù)格式 116
3.2.4  長數(shù)據(jù)格式 118
3.2.5  數(shù)據(jù)充實 121
3.3  探索API以查找和收集溫度數(shù)據(jù) 122
3.4  清洗數(shù)據(jù) 132
3.4.1  重命名列 133
3.4.2  類型轉(zhuǎn)換 134
3.4.3  按值排序 140
3.4.4  索引排序 143
3.4.5  設置索引 144
3.4.6  重置索引 145
3.4.7  重新索引 146
3.5  重塑數(shù)據(jù) 153
3.5.1  轉(zhuǎn)置DataFrame 155
3.5.2  旋轉(zhuǎn)DataFrame 155
3.5.3  融合DataFrame 161
3.6  處理重復、缺失或無效的數(shù)據(jù) 164
3.6.1  查找有問題的數(shù)據(jù) 164
3.6.2  處理潛在的問題 171
3.7  小結 180
3.8  練習 180
3.9  延伸閱讀 182
第4章  聚合Pandas DataFrame 183
4.1  章節(jié)材料 183
4.2  在DataFrame上執(zhí)行數(shù)據(jù)庫風格的操作 185
4.2.1  查詢DataFrame 186
4.2.2  合并DataFrame 187
4.3  使用DataFrame操作充實數(shù)據(jù) 197
4.3.1  算術和統(tǒng)計 198
4.3.2  分箱 200
4.3.3  應用函數(shù) 205
4.3.4  窗口計算 207
4.3.5  滾動窗口 207
4.3.6  擴展窗口 210
4.3.7  指數(shù)加權移動窗口 211
4.3.8  管道 212
4.4  聚合數(shù)據(jù) 215
4.4.1  匯總DataFrame 217
4.4.2  按組聚合 218
4.4.3  數(shù)據(jù)透視表和交叉表 224
4.5  處理時間序列數(shù)據(jù) 227
4.5.1  基于日期選擇和過濾數(shù)據(jù) 228
4.5.2  基于時間選擇和過濾數(shù)據(jù) 230
4.5.3  移動滯后數(shù)據(jù) 234
4.5.4  差分數(shù)據(jù) 235
4.5.5  重采樣 236
4.5.6  合并時間序列 240
4.6  小結 242
4.7  練習 243
4.8  延伸閱讀 245
第5章  使用Pandas和Matplotlib可視化數(shù)據(jù) 247
5.1  章節(jié)材料 247
5.2  Matplotlib簡介 249
5.2.1  基礎知識 249
5.2.2  繪圖組件 255
5.2.3  其他選項 258
5.3  使用Pandas繪圖 260
5.3.1  隨時間演變 262
5.3.2  變量之間的關系 269
5.3.3  分布 275
5.3.4  計數(shù)和頻率 283
5.4  pandas.plotting模塊 291
5.4.1  散點圖矩陣 291
5.4.2  滯后圖 294
5.4.3  自相關圖 296
5.4.4  自舉圖 297
5.5  小結 298
5.6  練習 299
5.7  延伸閱讀 299
第6章  使用Seaborn和自定義技術繪圖 301
6.1  章節(jié)材料 301
6.2  使用Seaborn進行高級繪圖 303
6.2.1  分類數(shù)據(jù) 304
6.2.2  相關性和熱圖 308
6.2.3  回歸圖 317
6.2.4  分面 321
6.3  使用Matplotlib格式化繪圖 323
6.3.1  標題和標簽 323
6.3.2  圖例 326
6.3.3  格式化軸 329
6.4  自定義可視化 336
6.4.1  添加參考線 336
6.4.2  區(qū)域著色 341
6.4.3  注解 344
6.4.4  顏色 346
6.4.5  顏色表 348
6.4.6  條件著色 355
6.4.7  紋理 357
6.5  小結 360
6.6  練習 360
6.7  延伸閱讀 361
第3篇  使用Pandas進行實際應用分析
第7章  金融分析 365
7.1  章節(jié)材料 366
7.2  構建Python包 367
7.2.1  封裝結構 368
7.2.2  stock_analysis包概述 369
7.2.3  UML圖 371
7.3  收集金融數(shù)據(jù) 372
7.3.1  StockReader類 373
7.3.2  從Yahoo!Finance中收集歷史數(shù)據(jù) 381
7.4  探索性數(shù)據(jù)分析 383
7.4.1  Visualizer類系列 388
7.4.2  可視化股票 394
7.4.3  可視化多個資產(chǎn) 407
7.5  金融工具的技術分析 413
7.5.1  StockAnalyzer類 414
7.5.2  AssetGroupAnalyzer類 421
7.5.3  比較資產(chǎn) 423
7.6  使用歷史數(shù)據(jù)建模 427
7.6.1  StockModeler類 427
7.6.2  時間序列分解 433
7.6.3  ARIMA 434
7.6.4  使用statsmodel進行線性回歸 436
7.6.5  比較模型 438
7.7  小結 440
7.8  練習 441
7.9  延伸閱讀 442
第8章  基于規(guī)則的異常檢測 445
8.1  章節(jié)材料 445
8.2  模擬登錄嘗試 446
8.2.1  假設 446
8.2.2  構建login_attempt_simulator包 447
8.2.3  輔助函數(shù) 448
8.2.4  構建LoginAttemptSimulator類 450
8.2.5  從命令行中進行模擬 461
8.3  探索性數(shù)據(jù)分析 467
8.3.1  讀入模擬數(shù)據(jù) 467
8.3.2  異常登錄行為的特點 468
8.3.3  檢查數(shù)據(jù) 469
8.3.4  比較登錄嘗試次數(shù) 470
8.3.5  比較登錄成功率 473
8.3.6  使用錯誤率指標 474
8.3.7  通過可視化找出異常值 476
8.4  實現(xiàn)基于規(guī)則的異常檢測 479
8.4.1  百分比差異 480
8.4.2  Tukey圍欄 485
8.4.3  Z分數(shù) 486
8.4.4  評估性能 488
8.5  小結 493
8.6  練習 493
8.7  延伸閱讀 494
第4篇  scikit-learn和機器學習
第9章  Python機器學習入門 499
9.1  章節(jié)材料 499
9.2  機器學習概述 501
9.2.1  機器學習的類型 502
9.2.2  常見任務 502
9.2.3  Python中的機器學習 503
9.3  探索性數(shù)據(jù)分析 504
9.3.1  紅酒品質(zhì)數(shù)據(jù) 505
9.3.2  白葡萄酒和紅葡萄酒化學性質(zhì)數(shù)據(jù) 508
9.3.3  行星和系外行星數(shù)據(jù) 511
9.4  預處理數(shù)據(jù) 517
9.4.1  訓練和測試集 518
9.4.2  縮放和居中數(shù)據(jù) 520
9.4.3  編碼數(shù)據(jù) 522
9.4.4  估算 525
9.4.5  附加轉(zhuǎn)換器 527
9.4.6  構建數(shù)據(jù)管道 529
9.5  聚類 531
9.5.1  k均值 532
9.5.2  按軌道特征對行星進行分組 532
9.5.3  使用肘點法確定k值 535
9.5.4  解釋質(zhì)心并可視化聚類空間 537
9.5.5  評估聚類結果 540
9.6  回歸 542
9.6.1  線性回歸 542
9.6.2  預測行星一年的長度 543
9.6.3  解釋線性回歸方程 544
9.6.4  做出預測 545
9.6.5  評估回歸結果 546
9.6.6  指標 548
9.7  分類 552
9.7.1  邏輯回歸 552
9.7.2  預測紅酒質(zhì)量 553
9.7.3  通過化學性質(zhì)確定葡萄酒類型 554
9.7.4  評估分類結果 555
9.7.5  混淆矩陣 555
9.7.6  分類指標 559
9.7.7  準確率和錯誤率 559
9.7.8  精確率和召回率 560
9.7.9  F分數(shù) 562
9.7.10  敏感性和特異性 563
9.7.11  ROC曲線 564
9.7.12  精確率-召回率曲線 568
9.8  小結 571
9.9  練習 572
9.10  延伸閱讀 574
第10章  做出更好的預測 577
10.1  章節(jié)材料 577
10.2  使用網(wǎng)格搜索調(diào)整超參數(shù) 580
10.2.1  拆分驗證集 580
10.2.2  使用交叉驗證 582
10.2.3  使用RepeatedStratifiedKFold 585
10.3  特征工程 588
10.3.1  交互項和多項式特征 589
10.3.2  降維 592
10.3.3  特征聯(lián)合 601
10.3.4  特征重要性 603
10.4  集成方法 606
10.4.1  隨機森林 608
10.4.2  梯度提升 609
10.4.3  投票 610
10.4.4  檢查分類預測置信度 612
10.5  解決類不平衡的問題 616
10.5.1  欠采樣 618
10.5.2  過采樣 619
10.6  正則化 621
10.7  小結 623
10.8  練習 624
10.9  延伸閱讀 626
第11章  機器學習異常檢測 629
11.1  章節(jié)材料 629
11.2  探索模擬登錄嘗試數(shù)據(jù) 631
11.3  利用無監(jiān)督學習執(zhí)行異常檢測 638
11.3.1  隔離森林 639
11.3.2  局部異常因子 641
11.3.3  比較模型 643
11.4  實現(xiàn)有監(jiān)督學習的異常檢測 647
11.4.1  基線模型 649
11.4.2  虛擬分類器 649
11.4.3  樸素貝葉斯 651
11.4.4  邏輯回歸 655
11.5  將反饋循環(huán)與在線學習相結合 657
11.5.1  創(chuàng)建PartialFitPipeline子類 658
11.5.2  隨機梯度下降分類器 658
11.5.3  構建初始模型 660
11.5.4  評估模型 661
11.5.5  更新模型 666
11.5.6  提交結果 668
11.5.7  進一步改進 669
11.6  小結 669
11.7  練習 670
11.8  延伸閱讀 671
第5篇  其 他 資 源
第12章  未來之路 675
12.1  數(shù)據(jù)資源 675
12.1.1  Python包 676
12.1.2  Seaborn 676
12.1.3  scikit-learn 676
12.2  搜索數(shù)據(jù) 677
12.3  API 677
12.4  網(wǎng)站 678
12.4.1  金融 678
12.4.2  官方數(shù)據(jù) 679
12.4.3  健康與經(jīng)濟 679
12.4.4  社交網(wǎng)絡 680
12.4.5  運動 680
12.4.6  雜項 681
12.5  練習使用數(shù)據(jù) 681
12.5.1  Kaggle 682
12.5.2  DataCamp 682
12.6  Python練習 682
12.7  小結 684
12.8  練習 684
12.9  延伸閱讀 685
練習答案 693
附錄A 695
數(shù)據(jù)分析工作流程 695
選擇合適的可視化結果 696
機器學習工作流程 697

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) rgspecialties.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號