定 價:¥99.00
作 者: | 孫子荀 等著 |
出版社: | 機械工業(yè)出版社 |
叢編項: | |
標 簽: | 暫缺 |
ISBN: | 9787111735137 | 出版時間: | 2023-10-01 | 包裝: | 平裝 |
開本: | 頁數(shù): | 字數(shù): |
作者簡介
前 言
第一部分 內容理解
第1章 文本內容理解2
1.1 文本表示2
1.1.1 文本表示的研究背景2
1.1.2 文本表示的方法3
1.2 文本分類9
1.2.1 文本分類的研究背景9
1.2.2 文本分類的方法9
1.3 本章小結17
第2章 圖像理解19
2.1 圖像分類20
2.1.1 傳統(tǒng)圖像分類算法20
2.1.2 深度學習圖像分類算法23
2.2 圖像檢測25
2.2.1 圖像匹配算法26
2.2.2 基于OpenCV的模板匹配實現(xiàn)27
2.2.3 目標檢測算法28
2.3 實際應用:通用元素檢測框架30
2.4 本章小結31
第3章 語音理解32
3.1 語音表征32
3.1.1 基于傳統(tǒng)方法的語音表征33
3.1.2 基于深度學習的語音表征34
3.2 基于深度學習的音樂分類34
3.2.1 基于CNN的音樂分類35
3.2.2 基于RNN的音樂分類38
3.2.3 基于領域知識的CNN38
3.2.4 基于注意力機制的后端模塊算法41
3.3 本章小結43
第4章 場景文字檢測與識別44
4.1 場景文字的研究方向44
4.1.1 研究問題44
4.1.2 研究難點45
4.1.3 未來趨勢45
4.2 場景文本算法的現(xiàn)狀46
4.2.1 基于傳統(tǒng)機器學習的文本檢測46
4.2.2 基于傳統(tǒng)機器學習的文本識別46
4.2.3 基于深度學習的文本檢測47
4.2.4 基于深度學習的文本識別52
4.2.5 基于深度學習的端到端系統(tǒng)53
4.3 場景文本算法輔助技術55
4.3.1 不規(guī)則文本識別問題55
4.3.2 文本圖像合成技術56
4.3.3 半監(jiān)督技術57
4.4 數(shù)據(jù)集和評估標準58
4.4.1 基準數(shù)據(jù)集58
4.4.2 文本檢測評估標準60
4.4.3 文本識別評估標準61
4.5 文本檢測和識別的應用、現(xiàn)狀與未來61
4.5.1 應用61
4.5.2 現(xiàn)狀62
4.5.3 挑戰(zhàn)與未來趨勢62
4.6 本章小結64
第5章 視頻理解65
5.1 視頻表征66
5.1.1 研究目標與意義66
5.1.2 研究進展67
5.2 視頻動作識別71
5.2.1 研究目標與意義71
5.2.2 研究難點71
5.2.3 研究進展71
5.3 視頻時序動作定位74
5.3.1 研究目標與意義74
5.3.2 研究難點74
5.3.3 研究進展75
5.4 視頻結構化分析79
5.4.1 研究目標與意義80
5.4.2 研究難點80
5.4.3 基于視頻結構化的數(shù)據(jù)集80
5.4.4 視頻結構的劃分方法81
5.4.5 研究進展84
5.5 本章小結89
第6章 多模態(tài)學習與內容理解91
6.1 多模態(tài)內容理解的研究方向91
6.1.1 研究問題91
6.1.2 研究意義與挑戰(zhàn)92
6.1.3 研究方向與應用93
6.2 多模態(tài)表征94
6.2.1 因果表征94
6.2.2 聯(lián)合表征98
6.3 多模態(tài)內容理解框架99
6.3.1 模態(tài)間推理99
6.3.2 模態(tài)間協(xié)同101
6.3.3 模態(tài)間推理:零樣本圖像分類103
6.3.4 模態(tài)間協(xié)同:虛假新聞識別105
6.4 大規(guī)模預訓練技術108
6.4.1 文本預訓練108
6.4.2 圖像預訓練110
6.4.3 音頻預訓練111
6.4.4 多模態(tài)預訓練112
6.5 本章小結114
第7章 內容理解框架115
7.1 常見的內容理解框架115
7.1.1 Tensor2Tensor115
7.1.2 OmniNet 120
7.2 自研多模態(tài)內容理解框架121
7.2.1 框架設計背景121
7.2.2 contentAI框架介紹125
7.2.3 高度配置化125
7.2.4 高度組件化127
7.2.5 開發(fā)者模式與用戶模式130
7.2.6 計算式網絡搭建131
7.2.7 計算圖網絡搭建 132
7.2.8 自動化數(shù)據(jù)集構建 133
7.2.9 能力優(yōu)化133
7.2.10 快速服務化134
7.2.11 內容理解能力135
7.2.12 代碼編寫范例136
7.3 本章小結141
第二部分 內容生成
第8章 圖片生成144
8.1 基于GAN的圖片生成144
8.1.1 生成對抗網絡144
8.1.2 條件圖片生成146
8.1.3 文本轉圖片147
8.1.4 圖片遷移147
8.1.5 高分辨率圖片生成149
8.2 基于擴散模型的圖片生成151
8.2.1 擴散模型152
8.2.2 擴散模型生成圖片153
8.3 圖片設計155
8.3.1 智能裁剪155
8.3.2 智能布局156
8.4 本章小結157
第9章 文本生成158
9.1 文本生成的背景知識158
9.1.1 語言模型158
9.1.2 CFG文法159
9.1.3 Encoder-Decoder框架160
9.1.4 文本生成質量量化 161
9.2 文本生成算法162
9.2.1 基于統(tǒng)計的文本生成模型162
9.2.2 基于神經網絡的文本生成技術164
9.3 本章小結172
第10章 AI素材合成173
10.1 AI人臉屬性編輯173
10.1.1 研究目標與意義173
10.1.2 研究難點175
10.1.3 研究進展176
10.2 AI語音合成181
10.2.1 研究目標與意義181
10.2.2 基本的語音合成系統(tǒng)簡介182
10.2.3 端到端的語音合成系統(tǒng)183
10.2.4 基于深度學習的算法介紹185
10.3 AI虛擬人技術195
10.3.1 研究目標與意義195
10.3.2 二維多目標人體姿態(tài)估計197
10.3.3 二維-三維人體姿態(tài)轉換203
10.4 AI表情包合成205
10.4.1 表情包特性206
10.4.2 表情包自動合成的意義及挑戰(zhàn)207
10.4.3 表情包合成算法208
10.4.4 表情包合成應用212
10.5 本章小結213
第11章 視頻編輯214
11.1 結構化數(shù)據(jù)視頻編輯215
11.1.1 基于模板的電視報道視頻編輯215
11.1.2 基于剪輯元素屬性約束的視頻編輯216
11.1.3 視頻特效合成系統(tǒng)實踐217
11.2 文本驅動視頻編輯222
11.2.1 基于主題文本編輯的視頻蒙太奇222
11.2.2 基于解說文本的旅游視頻編輯224
11.3 音樂驅動視頻編輯225
11.3.1 音樂驅動視頻蒙太奇225
11.3.2 根據(jù)音樂生成視覺節(jié)奏227
11.3.3 基于音樂合成視覺敘事鏡頭230
11.4 本章小結232
第三部分 內容質量
第12章 標題黨234
12.1 模型構建235
12.1.1 業(yè)務定義235
12.1.2 基于標題建模236
12.1.3 基于文章整體內容建模 238
12.2 標題黨研究方向241
12.2.1 數(shù)據(jù)方面的研究241
12.2.2 特征構造方面的研究241
12.2.3 模型方面的研究241
12.3 數(shù)據(jù)集242
12.4 相關論文介紹243
12.4.1 特征構造243
12.4.2 深度學習245
12.5 本章小結247
第13章 假新聞248
13.1 基本方法248
13.1.1 基于內容真實性248
13.1.2 基于內容風格249
13.1.3 基于傳播模式251
13.1.4 基于傳播源特征253
13.2 未來研究方向253
13.3 數(shù)據(jù)集254
13.4 相關論文介紹254
13.5 本章小結271
第14章 圖文低俗識別272
14.1 研究背景與問題定義272
14.1.1 研究背景272
14.1.2 問題定義273
14.2 業(yè)界常用產品274
14.3 主要技術手段275
14.3.1 關鍵詞275
14.3.2 模型276
14.3.3 匹配277
14.3.4 舉報279
14.3.5 用戶行為279
14.3.6 多模態(tài)279
14.4 業(yè)務案例279
14.5 本章小結282