日韩精品中文字幕动漫,91亚洲午夜一区,在线不卡日本v一区v二区丶,久久九九国产精品自在现拍

<td id="aqkuy"><em id="aqkuy"></em></td>

<button id="aqkuy"><rt id="aqkuy"></rt></button>

注冊(cè) | 登錄讀書好，好讀書，讀好書！

當(dāng)前位置：首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)其他編程語言/工具O'Reilly Python文本分析

O'Reilly Python文本分析

O'Reilly Python文本分析

定　價(jià)：￥128.00

作　者：	[美]延斯·阿爾布雷希特,[美]西達(dá)爾特·拉馬錢德蘭,[美]克里斯蒂安·溫克勒
出版社：	中國(guó)電力出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購買這本書可以去

當(dāng)當(dāng)網(wǎng) (￥102.40)

ISBN：	9787519864446	出版時(shí)間：	2022-08-01	包裝：	平裝-膠訂
開本：	16開	頁數(shù)：		字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　提取API與網(wǎng)頁的數(shù)據(jù)。統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)的文本數(shù)據(jù)預(yù)處理。機(jī)器學(xué)習(xí)分類、主題建模與摘要。解釋AI模型與分類的結(jié)果。利用單詞嵌入，探索及可視化語義相似性。分析產(chǎn)品評(píng)論中的客戶情感。根據(jù)命名實(shí)體及其關(guān)系創(chuàng)建知識(shí)圖。

作者簡(jiǎn)介

　　Jens Albrecht是紐倫堡理工學(xué)院計(jì)算機(jī)科學(xué)系的全職教授。主要從事數(shù)據(jù)管理與分析領(lǐng)域的研究，尤其側(cè)重于文本分析。Sidharth Ramachandran負(fù)責(zé)領(lǐng)導(dǎo)一個(gè)數(shù)據(jù)科學(xué)家團(tuán)隊(duì)，主要為消費(fèi)品行業(yè)構(gòu)建數(shù)據(jù)產(chǎn)品。他擁有十多年電信、銀行以及市場(chǎng)營(yíng)銷等領(lǐng)域軟件工程與數(shù)據(jù)科學(xué)的工作經(jīng)驗(yàn)。Christian Winkler是一位數(shù)據(jù)科學(xué)家與和機(jī)器學(xué)習(xí)架構(gòu)師。他擁有理論物理學(xué)博士學(xué)位，在大數(shù)據(jù)與人工智能領(lǐng)域工作了20多年。

圖書目錄

目錄
前言 . 1
第1 章洞悉文本數(shù)據(jù) 11
1.1 本章內(nèi)容概要 .11
1.2 探索性數(shù)據(jù)分析 12
1.3 數(shù)據(jù)集簡(jiǎn)介 13
1.4 案例：使用Pandas 獲取數(shù)據(jù)概要 14
1.4.1 計(jì)算列的匯總統(tǒng)計(jì)結(jié)果 15
1.4.2 檢查缺少的數(shù)據(jù) 16
1.4.3 繪制值的分布圖 17
1.4.4 比較各個(gè)類別的分布 .18
1.4.5 可視化一段時(shí)間內(nèi)的變化 19
1.5 案例：構(gòu)建簡(jiǎn)單的文本預(yù)處理流水線 21
1.5.1 使用正則表達(dá)式分詞 .21
1.5.2 刪除停用詞 .22
1.5.3 通過一行代碼處理流水線 24
1.6 詞頻分析案例 .26
1.6.1 案例：使用Counter 統(tǒng)計(jì)單詞個(gè)數(shù) 26
1.6.2 案例：創(chuàng)建詞頻圖 29
1.6.3 案例：創(chuàng)建詞云 30
1.6.4 案例：TF-IDF 排名 32
1.7 案例：查找上下文關(guān)鍵字 .35
1.8 案例：n 元語法分析 37
1.9 案例：比較不同時(shí)間段和類別的詞頻 40
1.9.1 創(chuàng)建詞頻時(shí)間表 40
1.9.2 創(chuàng)建詞頻熱圖 42
1.10 小結(jié) 44
第2 章利用API 提取文本 45
2.1 本章內(nèi)容概要 .45
2.2 應(yīng)用程序編程接口 45
2.3 案例：使用requests 模塊通過API 提取數(shù)據(jù) .47
2.3.1 分頁 52
2.3.2 速率限制53
2.4 案例：使用Tweepy 提取推特?cái)?shù)據(jù) 57
2.4.1 獲取憑證58
2.4.2 安裝與配置Tweepy 59
2.4.3 通過Search API 提取數(shù)據(jù) 60
2.4.4 從用戶的時(shí)間線中提取數(shù)據(jù) 64
2.4.5 通過流API 提取數(shù)據(jù) 66
2.5 小結(jié) .69
第3 章網(wǎng)頁抓取與數(shù)據(jù)提取 71
3.1 本章內(nèi)容概要 .71
3.2 抓取網(wǎng)頁與提取數(shù)據(jù) 72
3.3 路透社新聞存檔簡(jiǎn)介 73
3.4 URL 生成 75
3.5 案例：下載和解讀robots.txt 76
3.6 案例：從sitemap.xml 中尋找URL .77
3.7 案例：通過RSS 查找URL 79
3.8 下載數(shù)據(jù) 81
3.9 案例：使用Python 下載HTML 頁面 .82
3.10 案例：利用wget 下載HTML 頁面 83
3.11 提取半結(jié)構(gòu)化數(shù)據(jù) .84
3.12 案例：通過正則表達(dá)式提取數(shù)據(jù) 85
3.13 案例：使用HTML 解析器提取數(shù)據(jù) 86
3.14 案例：爬蟲 94
3.14.1 案例介紹 94
3.14.2 錯(cuò)誤處理與生產(chǎn)級(jí)質(zhì)量的軟件 97
3.15 基于密度的文本提取 98
3.15.1 利用Readability 讀取路透社的內(nèi)容 98
3.15.2 總結(jié)基于密度的文本提取100
3.16 一體化解決方案 100
3.17 案例：使用Scrapy 抓取路透社的存檔 .101
3.18 爬蟲面臨的難題 103
3.19 總結(jié)和建議 .104
第4 章準(zhǔn)備統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的文本數(shù)據(jù) 105
4.1 本章內(nèi)容概要 105
4.2 數(shù)據(jù)預(yù)處理流水線 .106
4.3 數(shù)據(jù)集介紹：Reddit Self-Posts 107
4.3.1 將數(shù)據(jù)加載到Pandas .107
4.3.2 案例：標(biāo)準(zhǔn)化屬性名稱 .107
4.3.3 保存和加載數(shù)據(jù)框 109
4.4 清理文本數(shù)據(jù) 110
4.4.1 案例：使用正則表達(dá)式識(shí)別噪聲 . 111
4.4.2 案例：使用正則表達(dá)式剔除噪聲 . 113
4.4.3 案例：使用textacy 規(guī)范化字符 115
4.4.4 案例：使用textacy 根據(jù)模式遮擋數(shù)據(jù) . 116
4.5 分詞 118
4.5.1 案例：使用正則表達(dá)式分詞 118
4.5.2 NLTK 分詞 120
4.5.3 分詞建議120
4.6 spaCy 的語言處理 .121
4.6.1 實(shí)例化流水線 .122
4.6.2 處理文本123
4.6.3 案例：自定義分詞 125
4.6.4 案例：處理停用詞 127
4.6.5 案例：根據(jù)詞性提取詞元 128
4.6.6 案例：提取名詞短語 131
4.6.7 案例：提取命名實(shí)體 132
4.7 大型數(shù)據(jù)集的特征提取 134
4.7.1 案例：創(chuàng)建一個(gè)一體化函數(shù) 134
4.7.2 案例：使用spaCy 處理大型數(shù)據(jù)集 135
4.7.3 持久地保存結(jié)果 137
4.7.4 有關(guān)執(zhí)行時(shí)間的注意事項(xiàng) 137
4.8 補(bǔ)充說明 .138
4.8.1 語言檢測(cè)138
4.8.2 拼寫檢查139
4.8.3 分詞規(guī)范化 139
4.9 小結(jié)和建議 139
第5 章特征工程與句法相似性 141
5.1 本章內(nèi)容概要 141
5.2 實(shí)驗(yàn)數(shù)據(jù)集 142
5.3 案例：構(gòu)建自己的向量化器 .143
5.3.1 枚舉詞匯表 143
5.3.2 向量化文檔 144
5.3.3 文檔詞條矩陣 .146
5.3.4 相似性矩陣 147
5.4 詞袋模型 .149
5.4.1 案例：使用scikit-learn 的CountVectorizer .149
5.4.2 案例：計(jì)算相似性 151
5.5 TF-IDF 模型 .153
5.5.1 利用TfidfTransformer 優(yōu)化文檔向量 .153
5.5.2 介紹ABC 數(shù)據(jù)集 .154
5.5.3 案例：降低特征維度 156
5.5.4 案例：通過具體化改進(jìn)特征 159
5.5.5 案例：使用詞元向量化文本 159
5.5.6 案例：限定單詞類型 160
5.5.7 案例：刪除最常見的單詞 161
5.5.8 案例：通過n 元語法添加上下文 .162
5.6 ABC 數(shù)據(jù)集的句法相似性 .164
5.6.1 案例：查找與杜撰的標(biāo)題最相似的標(biāo)題 164
5.6.2 案例：查找大型語料庫中最相似的兩個(gè)文檔 .165
5.6.3 案例：查找相關(guān)詞 169
5.6.4 有關(guān)語法相似性分析等運(yùn)行時(shí)間較長(zhǎng)的程序的提示 .171
5.7 小結(jié) 171
第6 章文本分類算法 173
6.1 本章內(nèi)容概要 174
6.2 Java 開發(fā)工具錯(cuò)誤數(shù)據(jù)集介紹 174
6.3 案例：構(gòu)建文本分類系統(tǒng) 178
6.3.1 第一步：準(zhǔn)備數(shù)據(jù) 180
6.3.2 第二步：分割訓(xùn)練與測(cè)試數(shù)據(jù)集 .181
6.3.3 第三步：訓(xùn)練機(jī)器學(xué)習(xí)模型 183
6.3.4 第四步：模型評(píng)估 186
6.4 文本分類的最終解決方案 193
6.5 案例：利用交叉驗(yàn)證來評(píng)估實(shí)際的準(zhǔn)確率 196
6.6 案例：通過網(wǎng)格搜索微調(diào)超參數(shù) 198
6.7 案例回顧與小結(jié) .200
6.8 小結(jié) 204
6.9 補(bǔ)充閱讀 .204
第7 章解釋文本分類器 . 207
7.1 本章內(nèi)容概要 208
7.2 案例：使用預(yù)測(cè)概率確定分類置信度 .208
7.3 案例：衡量預(yù)測(cè)模型中特征的重要性 .213
7.4 案例：使用LIME 解釋分類結(jié)果217
7.5 案例：使用ELI5 介紹分類結(jié)果 .223
7.6 案例：使用Anchor 解釋分類結(jié)果 226
7.6.1 使用遮蓋后的單詞分布 .226
7.6.2 使用實(shí)際的單詞 229
7.7 小結(jié) 231
第8 章非監(jiān)督學(xué)習(xí)：主題建模與聚類 233
8.1 本章內(nèi)容概要 234
8.2 數(shù)據(jù)集：聯(lián)合國(guó)一般性辯論 .234
8.2.1 查看語料庫的統(tǒng)計(jì)信息 .234
8.2.2 準(zhǔn)備工作236
8.3 非負(fù)矩陣分解（NMF） 237
8.3.1 案例：使用NMF 創(chuàng)建文檔的主題模型 238
8.3.2 案例：使用NMF 創(chuàng)建段落的主題模型 240
8.4 潛在語義分析/ 索引 .241
8.5 隱含狄利克雷分布 .245
8.5.1 案例：使用LDA 生成段落的主題模型 .245
8.5.2 案例：可視化LDA 的結(jié)果 .247
8.6 案例：使用詞云來展示和比較主題模型 248
8.7 案例：計(jì)算文檔的主題分布以及隨時(shí)間的變化 .252
8.8 Gensim 主題建模 254
8.8.1 案例：Gensim 的數(shù)據(jù)準(zhǔn)備 254
8.8.2 案例：利用Gensim 執(zhí)行非負(fù)矩陣分解 255
8.8.3 案例：利用Gensim 執(zhí)行LDA 256
8.8.4 案例：計(jì)算連貫分?jǐn)?shù) 257
8.8.5 案例：最佳主題數(shù)量 259
8.8.6 案例：使用Gensim 創(chuàng)建層次狄利克雷過程 261
8.9 案例：使用聚集來挖掘文本數(shù)據(jù)的結(jié)構(gòu) 263
8.10 進(jìn)一步的想法 267
8.11 建議 267
8.12 小結(jié) 267
第9 章文本摘要 269
9.1 本章內(nèi)容概要 269
9.2 文本摘要 .269
9.2.1 提取式摘要 271
9.2.2 數(shù)據(jù)的預(yù)處理 .271
9.3 案例：通過主題表示提取文本的摘要 .272
9.3.1 通過TF-IDF 識(shí)別重要的單詞 273
9.3.2 LSA 算法 274
9.4 案例：通過指示表示總結(jié)文本 277
9.5 測(cè)量文本摘要方法的表現(xiàn) 282
9.6 案例：使用機(jī)器學(xué)習(xí)生成文本摘要 285
9.6.1 第一步：創(chuàng)建目標(biāo)標(biāo)簽 .286
9.6.2 第二步：添加特征來輔助模型預(yù)測(cè).289
9.6.3 第三步：構(gòu)建機(jī)器學(xué)習(xí)模型 290
9.7 小結(jié) 292
9.8 補(bǔ)充閱讀 .293
第10 章通過單詞嵌入探索語義關(guān)系 . 295
10.1 本章內(nèi)容概要 295
10.2 語義嵌入 296
10.2.1 單詞嵌入 .297
10.2.2 單詞嵌入的類比推理 298
10.2.3 嵌入的類型 298
10.3 案例：預(yù)訓(xùn)練模型的相似性查詢 301
10.3.1 加載預(yù)訓(xùn)練模型 .301
10.3.2 相似性查詢 302
10.4 案例：訓(xùn)練與評(píng)估自己的嵌入 .305
10.4.1 數(shù)據(jù)準(zhǔn)備 .306
10.4.2 案例：使用Gensim 訓(xùn)練模型 .309
10.4.3 案例：評(píng)估不同的模型 310
10.5 案例：可視化嵌入 313
10.5.1 案例：降維 314
10.5.2 案例：使用TensorFlow 的嵌入投影 318
10.5.3 案例：構(gòu)建相似樹 .319
10.6 小結(jié) 322
10.7 補(bǔ)充閱讀 323
第11 章文本數(shù)據(jù)的情感分析 325
11.1 本章內(nèi)容概要 326
11.2 情感分析 326
11.3 亞馬遜客戶評(píng)論數(shù)據(jù)集.327
11.4 案例：基于詞典的情感分析 329
11.4.1 Bing Liu lexicon 330
11.4.2 基于詞典的方法的缺點(diǎn) 332
11.5 監(jiān)督學(xué)習(xí)方法 333
11.6 案例：向量化文本數(shù)據(jù)并應(yīng)用監(jiān)督機(jī)器學(xué)習(xí)算法334
11.6.1 第一步：數(shù)據(jù)準(zhǔn)備 .334
11.6.2 第二步：分割訓(xùn)練數(shù)據(jù)集與測(cè)試數(shù)據(jù)集 335
11.6.3 第三步：文本向量化 335
11.6.4 第四步：訓(xùn)練機(jī)器學(xué)習(xí)模型 .336
11.7 深度學(xué)習(xí)的預(yù)訓(xùn)練語言模型 338
11.8 案例：遷移學(xué)習(xí)技術(shù)與預(yù)訓(xùn)練語言模型 .340
11.8.1 第一步：加載模型與分詞 341
11.8.2 第二步：訓(xùn)練模型 .345
11.8.3 第三步：模型評(píng)估 .349
11.9 小結(jié) 351
11.10 補(bǔ)充閱讀 351
第12 章知識(shí)圖譜 . 353
12.1 本章內(nèi)容概要 354
12.2 知識(shí)圖譜 354
12.3 數(shù)據(jù)集簡(jiǎn)介 .356
12.4 識(shí)別命名實(shí)體 357
12.4.1 案例：基于規(guī)則的命名實(shí)體識(shí)別 360
12.4.2 案例：規(guī)范化命名實(shí)體 361
12.4.3 合并實(shí)體詞語 363
12.5 共指消解 363
12.5.1 案例：spaCy 的詞語擴(kuò)展 365
12.5.2 案例：別名消解 .366
12.5.3 案例：消解名稱的多樣性367
12.5.4 案例：利用NeuralCoref 執(zhí)行回指消解 369
12.5.5 命名規(guī)范化 372
12.5.6 實(shí)體鏈接 .373
12.6 案例：創(chuàng)建共現(xiàn)圖 374
12.6.1 從文檔中提取共現(xiàn) .375
12.6.2 使用Gephi 可視化共現(xiàn)圖 377
12.7 關(guān)系提取 378
12.7.1 案例：通過短語匹配提取關(guān)系 378
12.7.2 案例：使用依存樹提取關(guān)系 .381
12.8 創(chuàng)建知識(shí)圖 .385
12.9 小結(jié) 388
12.10 補(bǔ)充閱讀 389
第13 章文本分析的生產(chǎn)應(yīng)用 391
13.1 本章內(nèi)容概要 391
13.2 利用Conda 創(chuàng)建可復(fù)制的Python 環(huán)境 392
13.3 案例：通過容器創(chuàng)建可復(fù)制的環(huán)境 396
13.4 案例：創(chuàng)建文本分析模型的REST API 404
13.5 案例：通過云服務(wù)部署和擴(kuò)展API 411
13.6 案例：版本自動(dòng)升級(jí)與自動(dòng)部署構(gòu)建 416
13.7 小結(jié) 420
13.8 補(bǔ)充閱讀 421

本目錄推薦

掃描二維碼

Copyright ? 讀書網(wǎng) rgspecialties.com 2005-2020, All Rights Reserved.

鄂ICP備15019699號(hào)

鄂公網(wǎng)安備 42010302001612號(hào)