日韩精品 中文字幕 动漫,91亚洲午夜一区,在线不卡日本v一区v二区丶,久久九九国产精品自在现拍

注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)其他編程語言/工具O'Reilly Python文本分析

O'Reilly Python文本分析

O'Reilly Python文本分析

定 價(jià):¥128.00

作 者: [美]延斯·阿爾布雷希特,[美]西達(dá)爾特·拉馬錢德蘭,[美]克里斯蒂安·溫克勒
出版社: 中國(guó)電力出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787519864446 出版時(shí)間: 2022-08-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  提取API與網(wǎng)頁的數(shù)據(jù)。統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)的文本數(shù)據(jù)預(yù)處理。機(jī)器學(xué)習(xí)分類、主題建模與摘要。解釋AI模型與分類的結(jié)果。利用單詞嵌入,探索及可視化語義相似性。分析產(chǎn)品評(píng)論中的客戶情感。根據(jù)命名實(shí)體及其關(guān)系創(chuàng)建知識(shí)圖。

作者簡(jiǎn)介

  Jens Albrecht是紐倫堡理工學(xué)院計(jì)算機(jī)科學(xué)系的全職教授。主要從事數(shù)據(jù)管理與分析領(lǐng)域的研究,尤其側(cè)重于文本分析。Sidharth Ramachandran負(fù)責(zé)領(lǐng)導(dǎo)一個(gè)數(shù)據(jù)科學(xué)家團(tuán)隊(duì),主要為消費(fèi)品行業(yè)構(gòu)建數(shù)據(jù)產(chǎn)品。他擁有十多年電信、銀行以及市場(chǎng)營(yíng)銷等領(lǐng)域軟件工程與數(shù)據(jù)科學(xué)的工作經(jīng)驗(yàn)。Christian Winkler是一位數(shù)據(jù)科學(xué)家與和機(jī)器學(xué)習(xí)架構(gòu)師。他擁有理論物理學(xué)博士學(xué)位,在大數(shù)據(jù)與人工智能領(lǐng)域工作了20多年。

圖書目錄

目錄
前言 . 1
第1 章 洞悉文本數(shù)據(jù) 11
1.1 本章內(nèi)容概要 .11
1.2 探索性數(shù)據(jù)分析 12
1.3 數(shù)據(jù)集簡(jiǎn)介 13
1.4 案例:使用Pandas 獲取數(shù)據(jù)概要 14
1.4.1 計(jì)算列的匯總統(tǒng)計(jì)結(jié)果 15
1.4.2 檢查缺少的數(shù)據(jù) 16
1.4.3 繪制值的分布圖 17
1.4.4 比較各個(gè)類別的分布 .18
1.4.5 可視化一段時(shí)間內(nèi)的變化 19
1.5 案例:構(gòu)建簡(jiǎn)單的文本預(yù)處理流水線 21
1.5.1 使用正則表達(dá)式分詞 .21
1.5.2 刪除停用詞 .22
1.5.3 通過一行代碼處理流水線 24
1.6 詞頻分析案例 .26
1.6.1 案例:使用Counter 統(tǒng)計(jì)單詞個(gè)數(shù) 26
1.6.2 案例:創(chuàng)建詞頻圖 29
1.6.3 案例:創(chuàng)建詞云 30
1.6.4 案例:TF-IDF 排名 32
1.7 案例:查找上下文關(guān)鍵字 .35
1.8 案例:n 元語法分析 37
1.9 案例:比較不同時(shí)間段和類別的詞頻 40
1.9.1 創(chuàng)建詞頻時(shí)間表 40
1.9.2 創(chuàng)建詞頻熱圖 42
1.10 小結(jié) 44
第2 章 利用API 提取文本 45
2.1 本章內(nèi)容概要 .45
2.2 應(yīng)用程序編程接口 45
2.3 案例:使用requests 模塊通過API 提取數(shù)據(jù) .47
2.3.1 分頁 52
2.3.2 速率限制53
2.4 案例:使用Tweepy 提取推特?cái)?shù)據(jù) 57
2.4.1 獲取憑證58
2.4.2 安裝與配置Tweepy 59
2.4.3 通過Search API 提取數(shù)據(jù) 60
2.4.4 從用戶的時(shí)間線中提取數(shù)據(jù) 64
2.4.5 通過流API 提取數(shù)據(jù) 66
2.5 小結(jié) .69
第3 章 網(wǎng)頁抓取與數(shù)據(jù)提取 71
3.1 本章內(nèi)容概要 .71
3.2 抓取網(wǎng)頁與提取數(shù)據(jù) 72
3.3 路透社新聞存檔簡(jiǎn)介 73
3.4 URL 生成 75
3.5 案例:下載和解讀robots.txt 76
3.6 案例:從sitemap.xml 中尋找URL .77
3.7 案例:通過RSS 查找URL 79
3.8 下載數(shù)據(jù) 81
3.9 案例:使用Python 下載HTML 頁面 .82
3.10 案例:利用wget 下載HTML 頁面 83
3.11 提取半結(jié)構(gòu)化數(shù)據(jù) .84
3.12 案例:通過正則表達(dá)式提取數(shù)據(jù) 85
3.13 案例:使用HTML 解析器提取數(shù)據(jù) 86
3.14 案例:爬蟲 94
3.14.1 案例介紹 94
3.14.2 錯(cuò)誤處理與生產(chǎn)級(jí)質(zhì)量的軟件 97
3.15 基于密度的文本提取 98
3.15.1 利用Readability 讀取路透社的內(nèi)容 98
3.15.2 總結(jié)基于密度的文本提取100
3.16 一體化解決方案 100
3.17 案例:使用Scrapy 抓取路透社的存檔 .101
3.18 爬蟲面臨的難題 103
3.19 總結(jié)和建議 .104
第4 章 準(zhǔn)備統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的文本數(shù)據(jù) 105
4.1 本章內(nèi)容概要 105
4.2 數(shù)據(jù)預(yù)處理流水線 .106
4.3 數(shù)據(jù)集介紹:Reddit Self-Posts 107
4.3.1 將數(shù)據(jù)加載到Pandas .107
4.3.2 案例:標(biāo)準(zhǔn)化屬性名稱 .107
4.3.3 保存和加載數(shù)據(jù)框 109
4.4 清理文本數(shù)據(jù) 110
4.4.1 案例:使用正則表達(dá)式識(shí)別噪聲 . 111
4.4.2 案例:使用正則表達(dá)式剔除噪聲 . 113
4.4.3 案例:使用textacy 規(guī)范化字符 115
4.4.4 案例:使用textacy 根據(jù)模式遮擋數(shù)據(jù) . 116
4.5 分詞 118
4.5.1 案例:使用正則表達(dá)式分詞 118
4.5.2 NLTK 分詞 120
4.5.3 分詞建議120
4.6 spaCy 的語言處理 .121
4.6.1 實(shí)例化流水線 .122
4.6.2 處理文本123
4.6.3 案例:自定義分詞 125
4.6.4 案例:處理停用詞 127
4.6.5 案例:根據(jù)詞性提取詞元 128
4.6.6 案例:提取名詞短語 131
4.6.7 案例:提取命名實(shí)體 132
4.7 大型數(shù)據(jù)集的特征提取 134
4.7.1 案例:創(chuàng)建一個(gè)一體化函數(shù) 134
4.7.2 案例:使用spaCy 處理大型數(shù)據(jù)集 135
4.7.3 持久地保存結(jié)果 137
4.7.4 有關(guān)執(zhí)行時(shí)間的注意事項(xiàng) 137
4.8 補(bǔ)充說明 .138
4.8.1 語言檢測(cè)138
4.8.2 拼寫檢查139
4.8.3 分詞規(guī)范化 139
4.9 小結(jié)和建議 139
第5 章 特征工程與句法相似性 141
5.1 本章內(nèi)容概要 141
5.2 實(shí)驗(yàn)數(shù)據(jù)集 142
5.3 案例:構(gòu)建自己的向量化器 .143
5.3.1 枚舉詞匯表 143
5.3.2 向量化文檔 144
5.3.3 文檔詞條矩陣 .146
5.3.4 相似性矩陣 147
5.4 詞袋模型 .149
5.4.1 案例:使用scikit-learn 的CountVectorizer .149
5.4.2 案例:計(jì)算相似性 151
5.5 TF-IDF 模型 .153
5.5.1 利用TfidfTransformer 優(yōu)化文檔向量 .153
5.5.2 介紹ABC 數(shù)據(jù)集 .154
5.5.3 案例:降低特征維度 156
5.5.4 案例:通過具體化改進(jìn)特征 159
5.5.5 案例:使用詞元向量化文本 159
5.5.6 案例:限定單詞類型 160
5.5.7 案例:刪除最常見的單詞 161
5.5.8 案例:通過n 元語法添加上下文 .162
5.6 ABC 數(shù)據(jù)集的句法相似性 .164
5.6.1 案例:查找與杜撰的標(biāo)題最相似的標(biāo)題 164
5.6.2 案例:查找大型語料庫中最相似的兩個(gè)文檔 .165
5.6.3 案例:查找相關(guān)詞 169
5.6.4 有關(guān)語法相似性分析等運(yùn)行時(shí)間較長(zhǎng)的程序的提示 .171
5.7 小結(jié) 171
第6 章 文本分類算法 173
6.1 本章內(nèi)容概要 174
6.2 Java 開發(fā)工具錯(cuò)誤數(shù)據(jù)集介紹 174
6.3 案例:構(gòu)建文本分類系統(tǒng) 178
6.3.1 第一步:準(zhǔn)備數(shù)據(jù) 180
6.3.2 第二步:分割訓(xùn)練與測(cè)試數(shù)據(jù)集 .181
6.3.3 第三步:訓(xùn)練機(jī)器學(xué)習(xí)模型 183
6.3.4 第四步:模型評(píng)估 186
6.4 文本分類的最終解決方案 193
6.5 案例:利用交叉驗(yàn)證來評(píng)估實(shí)際的準(zhǔn)確率 196
6.6 案例:通過網(wǎng)格搜索微調(diào)超參數(shù) 198
6.7 案例回顧與小結(jié) .200
6.8 小結(jié) 204
6.9 補(bǔ)充閱讀 .204
第7 章 解釋文本分類器 . 207
7.1 本章內(nèi)容概要 208
7.2 案例:使用預(yù)測(cè)概率確定分類置信度 .208
7.3 案例:衡量預(yù)測(cè)模型中特征的重要性 .213
7.4 案例:使用LIME 解釋分類結(jié)果217
7.5 案例:使用ELI5 介紹分類結(jié)果 .223
7.6 案例:使用Anchor 解釋分類結(jié)果 226
7.6.1 使用遮蓋后的單詞分布 .226
7.6.2 使用實(shí)際的單詞 229
7.7 小結(jié) 231
第8 章 非監(jiān)督學(xué)習(xí):主題建模與聚類 233
8.1 本章內(nèi)容概要 234
8.2 數(shù)據(jù)集:聯(lián)合國(guó)一般性辯論 .234
8.2.1 查看語料庫的統(tǒng)計(jì)信息 .234
8.2.2 準(zhǔn)備工作236
8.3 非負(fù)矩陣分解(NMF) 237
8.3.1 案例:使用NMF 創(chuàng)建文檔的主題模型 238
8.3.2 案例:使用NMF 創(chuàng)建段落的主題模型 240
8.4 潛在語義分析/ 索引 .241
8.5 隱含狄利克雷分布 .245
8.5.1 案例:使用LDA 生成段落的主題模型 .245
8.5.2 案例:可視化LDA 的結(jié)果 .247
8.6 案例:使用詞云來展示和比較主題模型 248
8.7 案例:計(jì)算文檔的主題分布以及隨時(shí)間的變化 .252
8.8 Gensim 主題建模 254
8.8.1 案例:Gensim 的數(shù)據(jù)準(zhǔn)備 254
8.8.2 案例:利用Gensim 執(zhí)行非負(fù)矩陣分解 255
8.8.3 案例:利用Gensim 執(zhí)行LDA 256
8.8.4 案例:計(jì)算連貫分?jǐn)?shù) 257
8.8.5 案例:最佳主題數(shù)量 259
8.8.6 案例:使用Gensim 創(chuàng)建層次狄利克雷過程 261
8.9 案例:使用聚集來挖掘文本數(shù)據(jù)的結(jié)構(gòu) 263
8.10 進(jìn)一步的想法 267
8.11 建議 267
8.12 小結(jié) 267
第9 章 文本摘要 269
9.1 本章內(nèi)容概要 269
9.2 文本摘要 .269
9.2.1 提取式摘要 271
9.2.2 數(shù)據(jù)的預(yù)處理 .271
9.3 案例:通過主題表示提取文本的摘要 .272
9.3.1 通過TF-IDF 識(shí)別重要的單詞 273
9.3.2 LSA 算法 274
9.4 案例:通過指示表示總結(jié)文本 277
9.5 測(cè)量文本摘要方法的表現(xiàn) 282
9.6 案例:使用機(jī)器學(xué)習(xí)生成文本摘要 285
9.6.1 第一步:創(chuàng)建目標(biāo)標(biāo)簽 .286
9.6.2 第二步:添加特征來輔助模型預(yù)測(cè).289
9.6.3 第三步:構(gòu)建機(jī)器學(xué)習(xí)模型 290
9.7 小結(jié) 292
9.8 補(bǔ)充閱讀 .293
第10 章 通過單詞嵌入探索語義關(guān)系 . 295
10.1 本章內(nèi)容概要 295
10.2 語義嵌入 296
10.2.1 單詞嵌入 .297
10.2.2 單詞嵌入的類比推理 298
10.2.3 嵌入的類型 298
10.3 案例:預(yù)訓(xùn)練模型的相似性查詢 301
10.3.1 加載預(yù)訓(xùn)練模型 .301
10.3.2 相似性查詢 302
10.4 案例:訓(xùn)練與評(píng)估自己的嵌入 .305
10.4.1 數(shù)據(jù)準(zhǔn)備 .306
10.4.2 案例:使用Gensim 訓(xùn)練模型 .309
10.4.3 案例:評(píng)估不同的模型 310
10.5 案例:可視化嵌入 313
10.5.1 案例:降維 314
10.5.2 案例:使用TensorFlow 的嵌入投影 318
10.5.3 案例:構(gòu)建相似樹 .319
10.6 小結(jié) 322
10.7 補(bǔ)充閱讀 323
第11 章 文本數(shù)據(jù)的情感分析 325
11.1 本章內(nèi)容概要 326
11.2 情感分析 326
11.3 亞馬遜客戶評(píng)論數(shù)據(jù)集.327
11.4 案例:基于詞典的情感分析 329
11.4.1 Bing Liu lexicon 330
11.4.2 基于詞典的方法的缺點(diǎn) 332
11.5 監(jiān)督學(xué)習(xí)方法 333
11.6 案例:向量化文本數(shù)據(jù)并應(yīng)用監(jiān)督機(jī)器學(xué)習(xí)算法334
11.6.1 第一步:數(shù)據(jù)準(zhǔn)備 .334
11.6.2 第二步:分割訓(xùn)練數(shù)據(jù)集與測(cè)試數(shù)據(jù)集 335
11.6.3 第三步:文本向量化 335
11.6.4 第四步:訓(xùn)練機(jī)器學(xué)習(xí)模型 .336
11.7 深度學(xué)習(xí)的預(yù)訓(xùn)練語言模型 338
11.8 案例:遷移學(xué)習(xí)技術(shù)與預(yù)訓(xùn)練語言模型 .340
11.8.1 第一步:加載模型與分詞 341
11.8.2 第二步:訓(xùn)練模型 .345
11.8.3 第三步:模型評(píng)估 .349
11.9 小結(jié) 351
11.10 補(bǔ)充閱讀 351
第12 章 知識(shí)圖譜 . 353
12.1 本章內(nèi)容概要 354
12.2 知識(shí)圖譜 354
12.3 數(shù)據(jù)集簡(jiǎn)介 .356
12.4 識(shí)別命名實(shí)體 357
12.4.1 案例:基于規(guī)則的命名實(shí)體識(shí)別 360
12.4.2 案例:規(guī)范化命名實(shí)體 361
12.4.3 合并實(shí)體詞語 363
12.5 共指消解 363
12.5.1 案例:spaCy 的詞語擴(kuò)展 365
12.5.2 案例:別名消解 .366
12.5.3 案例:消解名稱的多樣性367
12.5.4 案例:利用NeuralCoref 執(zhí)行回指消解 369
12.5.5 命名規(guī)范化 372
12.5.6 實(shí)體鏈接 .373
12.6 案例:創(chuàng)建共現(xiàn)圖 374
12.6.1 從文檔中提取共現(xiàn) .375
12.6.2 使用Gephi 可視化共現(xiàn)圖 377
12.7 關(guān)系提取 378
12.7.1 案例:通過短語匹配提取關(guān)系 378
12.7.2 案例:使用依存樹提取關(guān)系 .381
12.8 創(chuàng)建知識(shí)圖 .385
12.9 小結(jié) 388
12.10 補(bǔ)充閱讀 389
第13 章 文本分析的生產(chǎn)應(yīng)用 391
13.1 本章內(nèi)容概要 391
13.2 利用Conda 創(chuàng)建可復(fù)制的Python 環(huán)境 392
13.3 案例:通過容器創(chuàng)建可復(fù)制的環(huán)境 396
13.4 案例:創(chuàng)建文本分析模型的REST API 404
13.5 案例:通過云服務(wù)部署和擴(kuò)展API 411
13.6 案例:版本自動(dòng)升級(jí)與自動(dòng)部署構(gòu)建 416
13.7 小結(jié) 420
13.8 補(bǔ)充閱讀 421

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) rgspecialties.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)