日韩精品 中文字幕 动漫,91亚洲午夜一区,在线不卡日本v一区v二区丶,久久九九国产精品自在现拍

注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)Python深度強(qiáng)化學(xué)習(xí):使用PyTorch, TensorFlow 和OpenAI Gym

Python深度強(qiáng)化學(xué)習(xí):使用PyTorch, TensorFlow 和OpenAI Gym

Python深度強(qiáng)化學(xué)習(xí):使用PyTorch, TensorFlow 和OpenAI Gym

定 價(jià):¥69.00

作 者: [印]尼米什·桑吉(Nimish Sanghi)著,羅俊海 譯
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787302607724 出版時(shí)間: 2022-10-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  本書重點(diǎn)突出深度強(qiáng)化學(xué)習(xí)理論的基本概念、前沿基礎(chǔ)理論和Python應(yīng)用實(shí)現(xiàn)。首先介紹馬爾可夫決策、基于模型的算法、無模型方法、動(dòng)態(tài)規(guī)劃、蒙特卡洛和函數(shù)逼近等基礎(chǔ)知識(shí);然后詳細(xì)闡述強(qiáng)化學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)、多智能體強(qiáng)化學(xué)習(xí)等算法,及其Python應(yīng)用實(shí)現(xiàn)。本書既闡述獎(jiǎng)勵(lì)、價(jià)值函數(shù)、模型和策略等重要概念和基礎(chǔ)知識(shí),又介紹深度強(qiáng)化學(xué)習(xí)理論的前沿研究和熱點(diǎn)方向。本書英文版出版之后,廣受好評(píng),已成為深度強(qiáng)化學(xué)習(xí)領(lǐng)域暢銷教材,也可為人工智能和機(jī)器學(xué)習(xí)等領(lǐng)域的科研工作者、技術(shù)工程師提供參考。

作者簡介

  作者簡介Nimish Sanghi(尼米什·桑吉)一位充滿激情的技術(shù)領(lǐng)導(dǎo)者,專注于使用技術(shù)解決客戶問題,在軟件和咨詢領(lǐng)域擁有超過25年的工作經(jīng)驗(yàn),擁有人工智能和深度學(xué)習(xí)的多項(xiàng)證書,獲得印度理工學(xué)院電氣工程學(xué)士學(xué)位、印度管理學(xué)院工商管理碩士學(xué)位。曾在普華永道、IBM和Oracle等公司擔(dān)任領(lǐng)導(dǎo)職務(wù),負(fù)責(zé)盈虧管理。2006年,在SOAIS公司開啟軟件咨詢創(chuàng)業(yè)之旅,為《財(cái)富》100強(qiáng)的眾多公司提供自動(dòng)化和數(shù)字化轉(zhuǎn)型服務(wù),實(shí)現(xiàn)從本地應(yīng)用到云計(jì)算的轉(zhuǎn)型。人工智能和自動(dòng)化驅(qū)動(dòng)的初創(chuàng)公司領(lǐng)域的天使投資人,聯(lián)合創(chuàng)立面向印度市場的SaaS人力資源和薪資Paybooks平臺(tái),聯(lián)合創(chuàng)立提供人工智能驅(qū)動(dòng)的工作流ZipperAgent自動(dòng)化平臺(tái)和視頻營銷ZipperHQ自動(dòng)化平臺(tái)(總部位于波士頓的初創(chuàng)公司),現(xiàn)任這兩個(gè)平臺(tái)的首席技術(shù)官和首席數(shù)據(jù)科學(xué)家。譯者簡介羅俊海,博士(后),電子科技大學(xué)副教授、碩士生導(dǎo)師。主要研究方向?yàn)橹悄苡?jì)算、目標(biāo)檢測和數(shù)據(jù)融合,主持國家自然科學(xué)基金、四川省科技廳基金、總裝預(yù)研基金和中央高校基本科研業(yè)務(wù)等15項(xiàng),參與制訂標(biāo)準(zhǔn)6項(xiàng),發(fā)表文章60余篇,其中SCI檢索50余篇,總引用1500余次。申請(qǐng)和授權(quán)發(fā)明專利30余項(xiàng),獲四川省科學(xué)技術(shù)進(jìn)步獎(jiǎng)二等獎(jiǎng)和三等獎(jiǎng)各1項(xiàng)。出版《多源數(shù)據(jù)融合和傳感器管理》《使用HTML和CSS開發(fā)WEB網(wǎng)站》《物聯(lián)網(wǎng)系統(tǒng)開發(fā)及應(yīng)用實(shí)戰(zhàn)》等專著和教材5部,以及譯著《實(shí)用MATLAB深度學(xué)習(xí):基于項(xiàng)目的方法》。

圖書目錄

第1章強(qiáng)化學(xué)習(xí)導(dǎo)論
1.1強(qiáng)化學(xué)習(xí)概述
1.2機(jī)器學(xué)習(xí)分類
1.2.1監(jiān)督學(xué)習(xí)
1.2.2無監(jiān)督學(xué)習(xí)
1.2.3強(qiáng)化學(xué)習(xí)
1.2.4核心元素
1.3基于強(qiáng)化學(xué)習(xí)的深度學(xué)習(xí)
1.4實(shí)例和案例研究
1.4.1自動(dòng)駕駛汽車
1.4.2機(jī)器人
1.4.3推薦系統(tǒng)
1.4.4金融和貿(mào)易
1.4.5醫(yī)療保健
1.4.6游戲
1.5庫與環(huán)境設(shè)置
1.6總結(jié)
第2章馬爾可夫決策
2.1強(qiáng)化學(xué)習(xí)的定義
2.2智能體和環(huán)境
2.3獎(jiǎng)勵(lì)
2.4馬爾可夫過程
2.4.1馬爾可夫鏈
2.4.2馬爾可夫獎(jiǎng)勵(lì)
過程
2.4.3馬爾可夫決策
過程
2.5策略和價(jià)值函數(shù)
2.6貝爾曼方程
2.6.1貝爾曼方程
2.6.2解決方法類型的
思維導(dǎo)圖
2.7總結(jié)
第3章基于模型的算法
3.1OpenAI Gym
3.2動(dòng)態(tài)規(guī)劃
3.3策略評(píng)估/預(yù)測
3.4策略改進(jìn)和迭代
3.5價(jià)值迭代
3.6廣義策略迭代
3.7異步回溯
3.8總結(jié)
第4章無模型方法
4.1蒙特卡洛估計(jì)/預(yù)測
4.2蒙特卡洛控制
4.3離線策略MC控制
4.4TD學(xué)習(xí)方法
4.5TD控制
4.6在線策略SARSA
4.7Q學(xué)習(xí): 離線策略
TD控制
4.8偏差和雙重學(xué)習(xí)
4.9期望SARSA控制
4.10回放池和離線策略學(xué)習(xí)
4.11連續(xù)狀態(tài)空間的Q學(xué)習(xí)
4.12n步回報(bào)
4.13資格跡和TD(λ)
4.14DP、MC和TD之間
的關(guān)系
4.15總結(jié)
第5章函數(shù)逼近
5.1概述
5.2逼近理論
5.2.1粗編碼
5.2.2瓦片編碼
5.2.3逼近中的挑戰(zhàn)
5.3增量預(yù)測: MC、TD和
TD(λ)
5.4增量控制
5.4.1n步半梯度SARSA
控制
5.4.2半梯度SARSA(λ)
控制
5.5函數(shù)逼近的收斂性
5.6梯度時(shí)序差分學(xué)習(xí)
5.7批處理方法
5.8線性小二乘法
5.9深度學(xué)習(xí)庫
5.10總結(jié)
 
 
 
第6章深度Q學(xué)習(xí)
6.1DQN
6.2優(yōu)先回放
6.3雙Q學(xué)習(xí)
6.4競爭DQN
6.5噪聲網(wǎng)DQN
6.6C51
6.7分位數(shù)回歸DQN
6.8事后經(jīng)驗(yàn)回放
6.9總結(jié)
第7章策略梯度算法
7.1引言
7.1.1基于策略的方法的
利弊
7.1.2策略表征
7.2策略梯度推導(dǎo)
7.2.1目標(biāo)函數(shù)
7.2.2導(dǎo)數(shù)更新規(guī)則
7.2.3更新規(guī)則的運(yùn)算
原理
7.3強(qiáng)化算法
7.3.1帶獎(jiǎng)勵(lì)因子的
方差減少
7.3.2進(jìn)一步減少基線
差異
7.4演員評(píng)論家方法
7.4.1定義優(yōu)勢
7.4.2優(yōu)勢演員評(píng)論家
7.4.3A2C算法的
實(shí)現(xiàn)
7.4.4異步優(yōu)勢演員
評(píng)論家
7.5信賴域策略優(yōu)化算法
7.6近似策略優(yōu)化算法
7.7總結(jié)
第8章結(jié)合策略梯度和Q學(xué)習(xí)
8.1策略梯度與Q學(xué)習(xí)
的權(quán)衡
8.2結(jié)合策略梯度與Q學(xué)習(xí)的
一般框架
8.3深度確定性策略梯度
8.3.1Q學(xué)習(xí)在DDPG中的
應(yīng)用(評(píng)論家)
8.3.2DDPG中的策略
學(xué)習(xí)(演員)
8.3.3偽代碼和實(shí)現(xiàn)
8.3.4代碼實(shí)現(xiàn)
8.4雙延遲DDPG
8.4.1目標(biāo)策略平滑
8.4.2Q損失(評(píng)論家)
8.4.3策略損失(演員)
8.4.4延遲更新
8.4.5偽代碼和實(shí)現(xiàn)
8.4.6代碼實(shí)現(xiàn)
8.5重參數(shù)化技巧
8.5.1分?jǐn)?shù)/強(qiáng)化方法
8.5.2重參數(shù)化技巧與
路徑導(dǎo)數(shù)
8.5.3實(shí)驗(yàn)
8.6熵解釋
8.7軟演員評(píng)論家
8.7.1SAC與TD3
8.7.2熵正則化下的
Q損失
8.7.3具有重參數(shù)技巧的
策略損失
8.7.4偽代碼及其實(shí)現(xiàn)
8.7.5代碼實(shí)現(xiàn)
8.8總結(jié)
第9章綜合規(guī)劃與學(xué)習(xí)
9.1基于模型的強(qiáng)化學(xué)習(xí)
9.1.1使用學(xué)習(xí)的模型
進(jìn)行規(guī)劃
9.1.2集成學(xué)習(xí)與規(guī)劃
9.1.3Dyna Q和變化
的環(huán)境
9.1.4Dyna Q
9.1.5期望與示例更新
9.2探索vs利用
9.2.1多臂強(qiáng)盜
9.2.2后悔值: 探索質(zhì)量的
衡量標(biāo)準(zhǔn)
9.3決策時(shí)間規(guī)劃和蒙特
卡洛樹搜索
9.4AlphaGo模擬實(shí)驗(yàn)
9.5總結(jié)
第10章進(jìn)一步的探索與后續(xù)
工作
10.1基于模型的強(qiáng)化學(xué)習(xí): 
其他方法
10.1.1世界模型
10.1.2想象力增強(qiáng)智
能體
10.1.3基于模型的強(qiáng)化
學(xué)習(xí)和無模型
微調(diào)
10.1.4基于模型的價(jià)值
擴(kuò)展
10.2模仿學(xué)習(xí)和逆強(qiáng)化
學(xué)習(xí)
10.3無導(dǎo)數(shù)方法
10.4遷移學(xué)習(xí)和多任務(wù)
學(xué)習(xí)
10.5元學(xué)習(xí)
10.6流行的強(qiáng)化學(xué)習(xí)庫
10.7如何繼續(xù)學(xué)習(xí)
10.8總結(jié)
術(shù)語
 

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) rgspecialties.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)