本書的主要內(nèi)容有:學(xué)習(xí)強(qiáng)化學(xué)習(xí)是什么,以及算法如何解決具體問題。掌握強(qiáng)化學(xué)習(xí)的基礎(chǔ)知識(shí),包括馬爾可夫決策過程、動(dòng)態(tài)規(guī)劃和時(shí)間差分算法。深入研究系列基于值函數(shù)和政策梯度的算法。應(yīng)用先進(jìn)的強(qiáng)化學(xué)習(xí)解決方案,如元學(xué)習(xí)、分層學(xué)習(xí)、多智能體、模仿學(xué)習(xí)等。了解最前沿的深度強(qiáng)化學(xué)習(xí)算法,包括Rainbow、PPO、TD3、SAC等。
Phil Winder博士是一名多學(xué)科交叉的軟件工程師、作家和科技顧問,同時(shí)也是溫德研究所的CEO。該研究所主要提供云計(jì)算科學(xué)咨詢,主營(yíng)業(yè)務(wù)是幫助初創(chuàng)公司和大型企業(yè)改進(jìn)數(shù)據(jù)流程、平臺(tái)以及產(chǎn)品。作者于英國(guó)赫爾大學(xué)獲得電子工程碩士和博士學(xué)位,現(xiàn)居英國(guó)約克郡。 譯者介紹 鄒偉,睿客邦創(chuàng)始人、國(guó)內(nèi)資深A(yù)I專家,擅長(zhǎng)利用AI技術(shù)解決工業(yè)、工程中的復(fù)雜問題。華東建筑設(shè)計(jì)研究總院研究員、山東交通學(xué)院客座教授、天津大學(xué)創(chuàng)業(yè)導(dǎo)師、中華中醫(yī)藥學(xué)會(huì)會(huì)員,領(lǐng)導(dǎo)?桶钆c 二十多所高校、國(guó)企建立了AI聯(lián)合實(shí)驗(yàn)室,完成50多個(gè)深度學(xué)習(xí)實(shí)踐項(xiàng)目,目前已出版多本機(jī)器學(xué)習(xí)、深度學(xué)習(xí)領(lǐng)域的專著和譯著。