![]() ![]() |
強(qiáng)化學(xué)習(xí)——從原理到實(shí)踐
"本書(shū)是對(duì)強(qiáng)化學(xué)習(xí)算法的綜合性講解書(shū)籍,內(nèi)容包括主要的強(qiáng)化學(xué)習(xí)算法的實(shí)現(xiàn)思路講解,以及主要的優(yōu)化方法的原理講解。本書(shū)介紹的每個(gè)算法都分為原理講解和代碼實(shí)現(xiàn)兩部分,代碼實(shí)現(xiàn)是為了通過(guò)實(shí)驗(yàn)驗(yàn)證原理部分的可行性。通過(guò)本書(shū)的學(xué)習(xí),讀者可以快速地了解強(qiáng)化學(xué)習(xí)算法的設(shè)計(jì)原理,掌握強(qiáng)化學(xué)習(xí)算法的實(shí)現(xiàn)過(guò)程,并能研發(fā)屬于自己的強(qiáng)化學(xué)習(xí)算法,了解各個(gè)算法的優(yōu)缺點(diǎn),以及各個(gè)算法適用的場(chǎng)景。
本書(shū)共18章,分為強(qiáng)化學(xué)習(xí)基礎(chǔ)篇(第1章和第2章)介紹了強(qiáng)化學(xué)習(xí)中的基本概念。強(qiáng)化學(xué)習(xí)基礎(chǔ)算法篇(第3~6章)介紹了QLearning算法、SARSA算法、DQN算法、Reniforce算法。強(qiáng)化學(xué)習(xí)高級(jí)算法篇(第7~12章)介紹了AC演員評(píng)委算法、A2C優(yōu)勢(shì)演員評(píng)委算法、PPO近端策略優(yōu)化算法、DDPG深度確定性策略梯度算法、TD3雙延遲深度確定性策略梯度算法、SAC柔性演員評(píng)委算法、模仿學(xué)習(xí)算法。多智能體篇(第13章和第14章),介紹了在一個(gè)系統(tǒng)中存在多智能體時(shí),各個(gè)智能體之間的合作、對(duì)抗等關(guān)系,以及各個(gè)智能體之間的通信策略。擴(kuò)展算法篇(第15~17章)介紹了CQL離線學(xué)習(xí)算法、MPC環(huán)境學(xué)習(xí)算法、HER目標(biāo)導(dǎo)向算法。SB3強(qiáng)化學(xué)習(xí)框架篇(第18章),介紹了強(qiáng)化學(xué)習(xí)框架SB3的使用方法。 本書(shū)將使用最簡(jiǎn)單淺顯的語(yǔ)言,帶領(lǐng)讀者快速地了解各個(gè)主要的強(qiáng)化學(xué)習(xí)算法的設(shè)計(jì)思路,以及實(shí)現(xiàn)過(guò)程。通過(guò)本書(shū)各個(gè)章節(jié)的學(xué)習(xí),讀者可以掌握主流的強(qiáng)化學(xué)習(xí)算法的原理和實(shí)現(xiàn)方法,能夠讓讀者知其然也知其所以然,做到融會(huì)貫通。 "
你還可能感興趣
我要評(píng)論
|