![]() ![]() |
強化學(xué)習(xí)——從原理到實踐
"本書是對強化學(xué)習(xí)算法的綜合性講解書籍,內(nèi)容包括主要的強化學(xué)習(xí)算法的實現(xiàn)思路講解,以及主要的優(yōu)化方法的原理講解。本書介紹的每個算法都分為原理講解和代碼實現(xiàn)兩部分,代碼實現(xiàn)是為了通過實驗驗證原理部分的可行性。通過本書的學(xué)習(xí),讀者可以快速地了解強化學(xué)習(xí)算法的設(shè)計原理,掌握強化學(xué)習(xí)算法的實現(xiàn)過程,并能研發(fā)屬于自己的強化學(xué)習(xí)算法,了解各個算法的優(yōu)缺點,以及各個算法適用的場景。
本書共18章,分為強化學(xué)習(xí)基礎(chǔ)篇(第1章和第2章)介紹了強化學(xué)習(xí)中的基本概念。強化學(xué)習(xí)基礎(chǔ)算法篇(第3~6章)介紹了QLearning算法、SARSA算法、DQN算法、Reniforce算法。強化學(xué)習(xí)高級算法篇(第7~12章)介紹了AC演員評委算法、A2C優(yōu)勢演員評委算法、PPO近端策略優(yōu)化算法、DDPG深度確定性策略梯度算法、TD3雙延遲深度確定性策略梯度算法、SAC柔性演員評委算法、模仿學(xué)習(xí)算法。多智能體篇(第13章和第14章),介紹了在一個系統(tǒng)中存在多智能體時,各個智能體之間的合作、對抗等關(guān)系,以及各個智能體之間的通信策略。擴(kuò)展算法篇(第15~17章)介紹了CQL離線學(xué)習(xí)算法、MPC環(huán)境學(xué)習(xí)算法、HER目標(biāo)導(dǎo)向算法。SB3強化學(xué)習(xí)框架篇(第18章),介紹了強化學(xué)習(xí)框架SB3的使用方法。 本書將使用最簡單淺顯的語言,帶領(lǐng)讀者快速地了解各個主要的強化學(xué)習(xí)算法的設(shè)計思路,以及實現(xiàn)過程。通過本書各個章節(jié)的學(xué)習(xí),讀者可以掌握主流的強化學(xué)習(xí)算法的原理和實現(xiàn)方法,能夠讓讀者知其然也知其所以然,做到融會貫通。 "
你還可能感興趣
我要評論
|