日韩精品 中文字幕 动漫,91亚洲午夜一区,在线不卡日本v一区v二区丶,久久九九国产精品自在现拍

注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計Python網(wǎng)絡(luò)爬蟲與數(shù)據(jù)分析從入門到實(shí)踐

Python網(wǎng)絡(luò)爬蟲與數(shù)據(jù)分析從入門到實(shí)踐

Python網(wǎng)絡(luò)爬蟲與數(shù)據(jù)分析從入門到實(shí)踐

定 價:¥79.80

作 者: 馬國俊
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787302627814 出版時間: 2023-04-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  《Python網(wǎng)絡(luò)爬蟲與數(shù)據(jù)分析從入門到實(shí)踐》從初學(xué)者的視角出發(fā),以案例實(shí)操為核心,系統(tǒng)地介紹網(wǎng)絡(luò)爬蟲的原理、工具使用與爬取技術(shù),并詳細(xì)講解數(shù)據(jù)分析的各種技巧。本書主要內(nèi)容包括:Python基礎(chǔ)語法,數(shù)據(jù)分析工具NumPy、Pandas、Matplotlib的使用,網(wǎng)絡(luò)爬蟲庫Urllib、BeautifulSoup、Scrapy,正則表達(dá)式在網(wǎng)絡(luò)爬蟲中的應(yīng)用,數(shù)據(jù)預(yù)處理與數(shù)據(jù)分析方法、中文文本處理、文本向量化技術(shù),以及機(jī)器學(xué)習(xí)算法在數(shù)據(jù)分析中的應(yīng)用。書中還給出了大量案例和項(xiàng)目,可以幫助讀者快速上手,提高實(shí)用技能。 《Python網(wǎng)絡(luò)爬蟲與數(shù)據(jù)分析從入門到實(shí)踐》內(nèi)容豐富,注重實(shí)操,適用于網(wǎng)絡(luò)爬蟲崗位、數(shù)據(jù)分析崗位的初級工程師和各類工程技術(shù)人員,還可作為高校經(jīng)濟(jì)、管理、人文社科、大數(shù)據(jù)等專業(yè)的教學(xué)用書。

作者簡介

  馬國俊,計算專業(yè)碩士,教授,從業(yè)20余年,主要從事大數(shù)據(jù)技術(shù)的教學(xué)、項(xiàng)目開發(fā)與研究工作,先后在國內(nèi)外刊物發(fā)表學(xué)術(shù)論文40余篇,獲取軟件著作權(quán)3項(xiàng);主持、參與各類項(xiàng)目5項(xiàng),獲得獎項(xiàng)若干。

圖書目錄

第1章  Python基礎(chǔ)語法 1
1.1  搭建Python開發(fā)環(huán)境 1
1.1.1  安裝Python解釋器 2
1.1.2  安裝第三方開發(fā)包 3
1.1.3  在PyCharm里設(shè)置解釋器 3
1.1.4  在PyCharm里新建項(xiàng)目和文件 4
1.2  Python語法入門 6
1.2.1  Python常量和變量 6
1.2.2  基本數(shù)據(jù)類型 6
1.2.3  字符串 8
1.2.4  單行注釋和多行注釋 10
1.2.5  條件分支語句 10
1.2.6  循環(huán)語句 11
1.2.7  break和continue 12
1.2.8  格式化輸出 13
1.3  函數(shù)及用法 14
1.3.1  定義和調(diào)用函數(shù) 14
1.3.2  return關(guān)鍵字 15
1.3.3  遞歸調(diào)用函數(shù) 15
1.4  函數(shù)的特殊操作 16
1.4.1  參數(shù)是函數(shù) 16
1.4.2  返回結(jié)果是函數(shù) 17
1.4.3  匿名函數(shù)(Lambda表達(dá)式) 17
1.5  Python的數(shù)據(jù)結(jié)構(gòu) 18
1.5.1  列表及其用法 18
1.5.2  元組及其用法 19
1.5.3  字典及其用法 19
1.6  動手練習(xí) 20
第2章  數(shù)據(jù)科學(xué)庫之NumPy 21
2.1  NumPy庫中的ndarray對象 21
2.1.1  如何創(chuàng)建ndarray 22
2.1.2  用dtype參數(shù)指定數(shù)據(jù)類型 23
2.1.3  創(chuàng)建全0或全1的ndarray 24
2.2  NumPy常見操作 25
2.2.1  用arange創(chuàng)建序列 25
2.2.2  常用的數(shù)學(xué)運(yùn)算 26
2.2.3  NumPy的科學(xué)計算函數(shù) 26
2.2.4  NumPy的聚合統(tǒng)計函數(shù) 27
2.3  索引和切片操作 28
2.3.1  索引操作 28
2.3.2  布爾索引與過濾數(shù)據(jù) 29
2.3.3  切片操作中的內(nèi)存共享問題 29
2.3.4  copy函數(shù)與創(chuàng)建副本 31
2.4  動手練習(xí) 31
第3章  數(shù)據(jù)處理庫之Pandas 33
3.1  Series對象及操作 34
3.1.1  Series常規(guī)操作 34
3.1.2  Series抽樣操作 35
3.1.3  Series索引操作 35
3.1.4  Series切片操作 37
3.1.5  Series布爾索引過濾操作 38
3.1.6  Series遍歷操作 39
3.2  DataFrame對象及操作 39
3.2.1  創(chuàng)建DataFrame對象 39
3.2.2  提取DataFrame對象的數(shù)據(jù) 40
3.2.3  遍歷DataFrame對象 41
3.2.4  排序DataFrame中的數(shù)據(jù) 42
3.2.5  以列為單位操作DataFrame數(shù)據(jù) 42
3.2.6  分析統(tǒng)計DataFrame數(shù)據(jù) 43
3.3  DataFrame同各種文件交互 44
3.3.1  把DataFrame數(shù)據(jù)導(dǎo)入CSV文件 44
3.3.2  把CSV數(shù)據(jù)導(dǎo)入DataFrame對象 45
3.3.3  把DataFrame數(shù)據(jù)導(dǎo)入JSON文件 46
3.3.4  把JSON數(shù)據(jù)導(dǎo)入DataFrame對象 46
3.4  動手練習(xí) 47
第4章  數(shù)據(jù)可視化庫之Matplotlib 48
4.1  繪制各類圖形 49
4.1.1  繪制折線圖 49
4.1.2  繪圖時的通用屬性參數(shù) 50
4.1.3  繪制柱狀圖 51
4.1.4  繪制餅圖 52
4.1.5  繪制直方圖 53
4.2  設(shè)置坐標(biāo) 54
4.2.1  設(shè)置x坐標(biāo)和y坐標(biāo)的標(biāo)簽文字 55
4.2.2  設(shè)置坐標(biāo)范圍 55
4.2.3  設(shè)置主次刻度 56
4.2.4  設(shè)置并旋轉(zhuǎn)刻度文字 58
4.3  增加可視化美觀效果 59
4.3.1  設(shè)置圖例 59
4.3.2  設(shè)置中文標(biāo)題 60
4.3.3  設(shè)置網(wǎng)格效果 61
4.4  設(shè)置子圖效果 63
4.4.1  通過add_subplot方法繪制子圖 63
4.4.2  通過subplot方法繪制子圖 64
4.4.3  子圖共享x坐標(biāo)軸 65
4.4.4  在大圖里繪制子圖 66
4.5  高級圖表的繪制方式 67
4.5.1  繪制散點(diǎn)圖 67
4.5.2  繪制熱力圖 69
4.5.3  繪制等值線圖 70
4.6  動手練習(xí) 71
第5章  數(shù)據(jù)獲取之網(wǎng)絡(luò)爬蟲 72
5.1  和爬蟲有關(guān)的HTTP協(xié)議 72
5.1.1  基于HTTP協(xié)議的請求處理流程 73
5.1.2  HTTP請求頭包含操作系統(tǒng)和瀏覽器信息 74
5.1.3  Post和Get請求方法 75
5.1.4  HTTP常見的狀態(tài)碼 75
5.2  通過Urllib庫獲取網(wǎng)頁信息 76
5.2.1  通過request爬取網(wǎng)頁 76
5.2.2  設(shè)置超時時間 76
5.2.3  用URLError處理網(wǎng)絡(luò)異常 77
5.2.4  設(shè)置header屬性來模擬瀏覽器發(fā)送請求 78
5.3  通過BeautifulSoup提取頁面信息 78
5.3.1  安裝BeautifulSoup庫 78
5.3.2  用Tag提取HTML元素和屬性 79
5.3.3  用NavigableString提取元素值 80
5.3.4  用Comment提取注釋 80
5.3.5  制作爬取指定頁面內(nèi)容的規(guī)則 81
5.4  通過正則表達(dá)式截取信息 83
5.4.1  查找指定的字符串 83
5.4.2  用通配符來模糊匹配 84
5.4.3  通過原子表來定義匹配規(guī)則 85
5.4.4  用findall按匹配規(guī)則截取內(nèi)容 86
5.5  動手練習(xí) 88
第6章  用Scrapy框架爬取數(shù)據(jù) 89
6.1  Scrapy框架概述 89
6.1.1  生成Scrapy項(xiàng)目 90
6.1.2  觀察Scrapy框架的構(gòu)成 90
6.1.3  分析yield關(guān)鍵字 90
6.2  簡單爬蟲范例 91
6.2.1  創(chuàng)建爬蟲項(xiàng)目 92
6.2.2  在items里定義數(shù)據(jù)模型 92
6.2.3  生成爬蟲文件 93
6.2.4  在pipelines文件里定義數(shù)據(jù)的存儲方式 94
6.2.5  觀察爬蟲程序的運(yùn)行結(jié)果 95
6.2.6  Scrapy框架開發(fā)爬蟲項(xiàng)目的步驟 95
6.3  復(fù)雜爬蟲范例 96
6.3.1  明確需求 96
6.3.2  創(chuàng)建Scrapy項(xiàng)目 97
6.3.3  定義圖書的數(shù)據(jù)模型 98
6.3.4  編寫代碼實(shí)現(xiàn)爬蟲功能 99
6.3.5  把爬取結(jié)果存為CSV文件 100
6.3.6  運(yùn)行爬蟲并觀察結(jié)果 101
6.4  動手練習(xí) 102
第7章  數(shù)據(jù)預(yù)處理與數(shù)據(jù)分析方法 103
7.1  基于Python的數(shù)據(jù)預(yù)處理 103
7.1.1  數(shù)據(jù)規(guī)范化處理 104
7.1.2  缺失值處理 104
7.1.3  重復(fù)值處理 106
7.2  Python與MySQL數(shù)據(jù)庫的交互 106
7.2.1  在本地搭建MySQL環(huán)境 107
7.2.2  安裝用來連接MySQL的PyMySQL庫 108
7.2.3  通過select語句執(zhí)行查詢 110
7.2.4  執(zhí)行增、刪、改操作 111
7.3  描述性統(tǒng)計 113
7.3.1  對樣本數(shù)據(jù)的分析 113
7.3.2  平均數(shù)、中位數(shù)和百分位數(shù) 114
7.3.3  用箱狀圖展示分位數(shù) 115
7.3.4  用小提琴圖展示數(shù)據(jù)分布情況 115
7.3.5  統(tǒng)計極差、方差和標(biāo)準(zhǔn)差 116
7.4  概率分析方法與推斷統(tǒng)計 117
7.4.1  用直方圖來擬合正態(tài)分布圖形 117
7.4.2  驗(yàn)證序列是否滿足正態(tài)分布 118
7.4.3  參數(shù)估計方法 119
7.4.4  顯著性驗(yàn)證 120
7.5  基于時間序列的統(tǒng)計方法 121
7.5.1  統(tǒng)計移動平均值 121
7.5.2  時間序列的自相關(guān)性分析 122
7.5.3  時間序列的偏自相關(guān)性分析 124
7.6  動手練習(xí) 125
第8章  中文文本處理 126
8.1  中文文本處理概述 126
8.1.1  中文分詞 127
8.1.2  詞頻統(tǒng)計 127
8.1.3  詞性標(biāo)注 127
8.1.4  停用詞消除 127
8.2  基于結(jié)巴庫的文本處理 128
8.2.1  實(shí)現(xiàn)分詞效果 128
8.2.2  提取關(guān)鍵字 129
8.2.3  標(biāo)注詞性 129
8.2.4  統(tǒng)計詞頻 130
8.3  引入自定義信息 131
8.3.1  用自定義詞典分詞 131
8.3.2  去除自定義的停用詞 132
8.3.3  自定義詞性 133
8.4  基于NLTK庫的文本處理 133
8.4.1  統(tǒng)計詞頻和出現(xiàn)次數(shù) 134
8.4.2  展示高頻詞 135
8.4.3  繪制詞頻分布圖 135
8.4.4  繪制詞云 136
8.5  動手練習(xí) 137
第9章  文本向量化技術(shù) 138
9.1  文本向量化技術(shù)概述 138
9.1.1  什么是文本向量化 139
9.1.2  什么是TF-IDF 139
9.1.3  基于TF-IDF的文本向量化示例 139
9.2  基于Gensim的文本向量化分析 140
9.2.1  Gensim庫介紹 140
9.2.2  計算TF-IDF 141
9.2.3  分詞與TF-IDF技術(shù)的整合應(yīng)用 142
9.3  向量化技術(shù)的使用場景 143
9.3.1  相似度分析 143
9.3.2  情感分析 144
9.4  動手練習(xí) 146
第10章  基于機(jī)器學(xué)習(xí)的分析方法 147
10.1  基礎(chǔ)知識 148
10.1.1  什么是機(jī)器學(xué)習(xí) 148
10.1.2  安裝sklearn庫并了解數(shù)據(jù)集 148
10.1.3  訓(xùn)練集、驗(yàn)證集和測試集 149
10.2  線性回歸分析方法 149
10.2.1  波士頓房價案例的數(shù)據(jù)集 149
10.2.2  多元線性回歸分析方法 152
10.2.3  交叉驗(yàn)證分析技術(shù) 154
10.3  嶺回歸和Lasso回歸分析法 155
10.3.1  嶺回歸和線性回歸的差別 155
10.3.2  用嶺回歸擬合波士頓房價 157
10.3.3  用Lasso回歸分析波士頓房價 159
10.4  基于機(jī)器學(xué)習(xí)的分類分析方法 160
10.4.1  SVM分類器的線性與高斯內(nèi)核 160
10.4.2  用SVM分類器分類鳶尾花 162
10.4.3  基于KNN分類器的可視化效果 165
10.4.4  用KNN分類器分類葡萄酒數(shù)據(jù) 166
10.4.5  用邏輯回歸分類器分類鳶尾花 167
10.5  基于手寫體數(shù)字識別的分類范例 168
10.5.1  分析Digits數(shù)據(jù)集 169
10.5.2  用訓(xùn)練集和測試集評估分類結(jié)果 169
10.5.3  觀察分類模型的預(yù)測與真實(shí)結(jié)果 171
10.6  動手練習(xí) 172
第11章  電影評論數(shù)據(jù)分析案例 174
11.1  用Scrapy爬取電影評論數(shù)據(jù) 174
11.1.1  創(chuàng)建Scrapy項(xiàng)目 175
11.1.2  分析待爬取的評論頁面代碼 175
11.1.3  編寫評論數(shù)據(jù)的模型 177
11.1.4  編寫爬蟲代碼 178
11.1.5  編寫數(shù)據(jù)持久化代碼 179
11.1.6  編寫爬蟲項(xiàng)目的配置信息 180
11.1.7  運(yùn)行爬蟲并獲取數(shù)據(jù) 180
11.2  對爬取的電影評論數(shù)據(jù)進(jìn)行分析 181
11.2.1  通過餅圖分析評分 181
11.2.2  通過柱狀圖分析評分 182
11.2.3  繪制關(guān)于評論的詞云 183
11.2.4  用直方圖觀察情感分析結(jié)果 185
11.3  動手練習(xí) 186
第12章  二手房數(shù)據(jù)分析案例 187
12.1  用Scrapy爬取二手房數(shù)據(jù) 187
12.1.1  創(chuàng)建Scrapy項(xiàng)目并明確待爬取的數(shù)據(jù) 187
12.1.2  分析待爬取的頁面代碼 188
12.1.3  編寫二手房數(shù)據(jù)的模型 190
12.1.4  編寫爬蟲代碼 191
12.1.5  編寫數(shù)據(jù)持久化代碼 193
12.1.6  編寫爬蟲項(xiàng)目的配置信息 193
12.1.7  運(yùn)行爬蟲并獲取數(shù)據(jù) 193
12.2  數(shù)據(jù)預(yù)處理與數(shù)據(jù)分析 194
12.2.1  根據(jù)數(shù)據(jù)特性清洗數(shù)據(jù) 194
12.2.2  通過餅圖展示二手房數(shù)據(jù) 195
12.2.3  通過柱狀圖展示二手房數(shù)據(jù) 197
12.2.4  通過直方圖展示二手房房價 199
12.2.5  通過小提琴圖展示二手房數(shù)據(jù) 200
12.2.6  通過散點(diǎn)圖展示關(guān)注情況 202
12.2.7  繪制二手房相關(guān)的詞云 203
12.3  動手練習(xí) 205
第13章  通過電子郵件發(fā)送數(shù)據(jù)分析結(jié)果 207
13.1  實(shí)現(xiàn)發(fā)送電子郵件的功能 207
13.1.1  發(fā)送簡單格式的電子郵件(無收件人信息) 208
13.1.2  發(fā)送HTML格式的電子郵件(顯示收件人) 209
13.1.3  包含文本附件的電子郵件(多個收件人) 211
13.1.4  在正文中嵌入圖片 212
13.2  以電子郵件的形式發(fā)送RSI指標(biāo)圖 214
13.2.1  RSI指標(biāo)的原理和算法描述 214
13.2.2  通過范例程序觀察RSI的算法 215
13.2.3  把Matplotlib繪制的RSI圖存儲為圖片 216
13.2.4  RSI整合K線圖后以電子郵件形式發(fā)送 218
13.3  以電子郵件的形式發(fā)送基于RSI指標(biāo)的買賣點(diǎn) 222
13.3.1  RSI指標(biāo)對買賣點(diǎn)的指導(dǎo)意義 222
13.3.2  基于RSI指標(biāo)計算買點(diǎn)并以電子郵件的形式發(fā)出 222
13.3.3  基于RSI指標(biāo)計算賣點(diǎn)并以電子郵件的形式發(fā)出 225
13.4  動手練習(xí) 227

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) rgspecialties.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號