![]() ![]() |
Lessons from alphazero for optimal, model predictive, and adaptive control
本書構(gòu)建了近似動(dòng)態(tài)規(guī)劃和強(qiáng)化學(xué)習(xí)的新的理論框架, 簡(jiǎn)潔但雄心勃勃。這一框架以離線訓(xùn)練和在線學(xué)習(xí)這兩個(gè)算法為中心, 彼此獨(dú)立又通過(guò)牛頓法有機(jī)融合。當(dāng)今新一代人工智能技術(shù)發(fā)展絢麗多彩。在看似紛繁復(fù)雜的數(shù)據(jù)與算法表象之下, 其實(shí)蘊(yùn)藏著簡(jiǎn)潔而美妙的規(guī)律。通過(guò)本書的學(xué)習(xí), 讀者將能體會(huì)經(jīng)典優(yōu)化控制理論在分析理解當(dāng)代強(qiáng)化學(xué)習(xí)算法性能中的強(qiáng)大威力, 更能領(lǐng)悟到以阿爾法零為代表的新一代算法浪潮對(duì)經(jīng)典理論提供的新的發(fā)展機(jī)遇。
你還可能感興趣
我要評(píng)論
|