多智能體強化學習:基礎與現(xiàn)代方法 [德]斯特凡諾·V. 阿爾布萊希特 [希]菲利波斯·克里斯蒂安諾斯 [德]盧卡斯·舍費
定 價:109 元
當前圖書已被 1 所學校薦購過!
查看明細
- 作者:[德]斯特凡諾·V. 阿爾布萊希特(Stefano V. Albrecht)[希]菲利波斯·克里斯蒂安諾斯(Filippos Christianos)[德]盧卡斯·舍費爾(Lukas Sch?fer)
- 出版時間:2025/5/1
- ISBN:9787111776871
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP18
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
多智能體強化學習(Multi-Agent Reinforcement Learning, MARL)是機器學習中的一個領域,研究多個智能體如何在共享環(huán)境中學習最優(yōu)的交互方式。這一領域在現(xiàn)代生活中有著廣泛的應用,包括自動駕駛、多機器人工廠、自動化交易和能源網(wǎng)絡管理等。 本書是一部系統(tǒng)闡述多智能體強化學習理論與技術的權威著作,清晰而嚴謹?shù)亟榻B了MARL的模型、解決方案概念、算法思想、技術挑戰(zhàn)以及現(xiàn)代方法。書中首先介紹了該領域的基礎知識,包括強化學習理論和算法的基礎、交互式博弈模型、博弈中的不同解決方案概念以及支撐MARL研究的算法思想。隨后,書中詳細介紹了利用深度學習技術的現(xiàn)代MARL算法,涵蓋集中訓練與分散執(zhí)行、價值分解、參數(shù)共享和自博弈等思想。本書還附帶了一個用Python編寫的MARL代碼庫,其中包括自包含且易于閱讀的MARL算法實現(xiàn)。 本書技術內(nèi)容以易于理解的語言解釋,并通過大量示例進行說明,既為初學者闡明了MARL的概念,也為專業(yè)的讀者提供了高層次的見解。
《多智能體強化學習:基礎與現(xiàn)代方法》是多智能體強化學習領域的權威之作,作者巧妙地將強化學習與博弈論相結(jié)合,為該領域的研究和應用奠定了堅實基礎。本書不僅適合初學者入門,更為成熟研究人員提供了深度洞察和真知灼見,是多智能體強化學習不可或缺的參考書。
譯 者 序多智能體強化學習(MARL)作為人工智能的一個新興研究領域,已經(jīng)在國際上積累了較為豐富的研究成果和實踐經(jīng)驗。本書系統(tǒng)性地總結(jié)了MARL的研究脈絡,在領域內(nèi)有較強的影響力。本書由Stefano V.Albrecht、Filippos Christianos和Lukas Schfer三位在多智能體系統(tǒng)和強化學習領域享有盛譽的專家共同撰寫。本書內(nèi)容主要分為兩部分:第一部分介紹MARL中的基本概念和基礎知識;第二部分則介紹基于深度學習技術的前沿MARL研究。本書不僅涵蓋堅實的理論基礎,還在實踐層面展示了將復雜概念轉(zhuǎn)化為應用方案的方法。通過具體的算法實踐,讀者可以加深對理論知識的理解。我們希望這本中文翻譯版可以給國內(nèi)讀者帶來閱讀的便利。得益于大語言模型的幫助,本書的翻譯效率得到了極大的提升。在翻譯過程中,我們也遇到了一些挑戰(zhàn),例如,某些術語尚無統(tǒng)一的中文翻譯,我們選擇了目前較為主流的翻譯,并在首次出現(xiàn)時標注了其他可能的翻譯,以便讀者理解。此外,為了讓本書更加通俗易懂,我們在翻譯時特別注重語言的流暢性和表達的準確性。我們力求將復雜的概念用簡潔明了的語言進行解釋,同時保留原文的科學性和嚴謹性。在此,我們要特別感謝在本書翻譯過程中給予支持和幫助的所有老師和同學。他們的建議和指導使本書的翻譯更加準確和完善。同時,也要感謝機械工業(yè)出版社的支持,使得這本書的中文版得以順利出版。盡管我們在翻譯過程中力求準確無誤,但由于時間和精力有限,書中難免存在疏漏之處。我們誠摯地歡迎讀者提出寶貴的批評和建議,以便我們在后續(xù)版本中不斷改進和完善。前 言多智能體強化學習(Multi-Agent Reinforcement Learning,MARL)是一個多樣化且極為活躍的研究領域。隨著深度學習在2010年代中期被引入多智能體強化學習,該領域的研究工作出現(xiàn)了爆炸式增長,F(xiàn)在,所有主要的人工智能和機器學習會議都會例行討論相關文章,比如開發(fā)新的多智能體強化學習算法或以某種方式應用多智能體強化學習。這種急劇增長還體現(xiàn)在自那以后發(fā)表的越來越多的綜述論文中,我們在書末列出了許多這樣的論文。隨著這種增長,該領域顯然需要一本教科書來提供對多智能體強化學習的原則性介紹。本書部分基于并在很大程度上遵循了Stefano V.Albrecht和Peter Stone在2017年澳大利亞墨爾本舉行的國際人工智能聯(lián)合會議(International Joint Conference on Artificial Intelligence,IJCAI)上所做的“Multiagent Learning:Foundations and Recent Trends”報告的結(jié)構。本書的寫作目的是對多智能體強化學習中的模型、求解、算法思想和技術挑戰(zhàn)進行基本介紹,并描述將深度學習技術整合進多智能體強化學習以產(chǎn)生強大新算法的現(xiàn)代方法。從本質(zhì)上講,我們認為本書所涵蓋的材料應該為每一位從事多智能體強化學習的研究人員所了解。此外,本書還旨在為研究人員和從業(yè)人員使用MARL算法提供實用指導。為此,本書附帶了用Python編程語言編寫的代碼庫,其中包含本書討論的幾種多智能體強化學習算法的實現(xiàn)。代碼庫的主要目的是提供自成一體且易于閱讀的算法代碼,以幫助讀者理解。本書假定讀者具有本科水平的基礎數(shù)學背景,包括統(tǒng)計學、概率論、線性代數(shù)和微積分。此外,為了理解和使用代碼庫,讀者需要熟悉基本的編程概念。通常,我們建議按順序閱讀本書的各個章節(jié)。對于不熟悉強化學習和深度學習的讀者,我們將在第2章、第7章和第8章分別介紹相關基礎知識。對于已經(jīng)熟悉強化學習和深度學習的讀者,如果想快速開始學習基于深度學習的最新多智能體強化學習算法,那么可以先閱讀第3章,然后跳到第9章及以后的章節(jié)。為了幫助教師采用本書,我們制作了講義幻燈片(可從本書網(wǎng)站獲。瑑(nèi)容可根據(jù)課程需要進行修改。多智能體強化學習已成為一個龐大的研究領域,本書并未涵蓋其所有方面。例如,關于在多智能體強化學習中使用通信的研究日益增多,但本書并未涉及。這方面的研究問題包括:當通信信道嘈雜、不可靠時,智能體如何學會穩(wěn)健地進行通信;智能體如何利用多智能體強化學習來學習針對特定任務的專用通信協(xié)議或語言。雖然本書的重點不是多智能體強化學習中的通信,但本書介紹的模型具有足夠的通用性,也可以表示通信行為(如3.5節(jié)所述)。此外,還有關于將演化博弈論用于多智能體學習的研究,在本書中也沒有涉及(我們推薦Bloembergen等人于2015年發(fā)表的優(yōu)秀綜述)。最后,隨著近年來多智能體強化學習研究工作的急劇增加,試圖編寫一本跟上新算法的書籍是徒勞的。因此,我們將重點放在多智能體強化學習的基礎概念和思想上,并參考研究綜述論文(書末),以獲知更完整的算法發(fā)展歷程。致謝:我們非常感謝在本書撰寫過程中許多與我們合作或提供反饋意見的人。在這里,特別感謝MIT出版社的Elizabeth Swayze和Matthew Valades,他們在出版過程中給予了我們悉心的指導。許多同事也為我們提供了寶貴的反饋意見和建議,我們在此一并表示感謝(按姓氏字母順序排列):Christopher Amato、Marina Aoyama、Ignacio Carlucho、Georgios Chalkiadakis、Sam Dauncey、Alex Davey、Bertrand Decoster、Mhairi Dunion、Kousha Etessami、Aris Filos-Ratsikas、Elliot Fosong、Amy Greenwald、Dongge Han、Josiah Hanna、Leonard Hinckeldey、Sarah Keren、Mykel Kochenderfer、Marc Lanctot、Stefanos Leonardos、Michael Littman、Luke Marris、Elle McFarlane、Trevor McInroe、Mahdi Kazemi Moghaddam、Frans Oliehoek、Georgios Papoudakis、Tabish Rashid、Michael Rovatsos、Rahat Santosh、Raul Steleac、Massimiliano Tamborski、Kale-ab Tessera、Callum Tilbury、Jeroen van Riel、Zhu Zheng。我們還要感謝為MIT出版社審閱本書的匿名審稿人。圖2.3中的火星探測車的馬爾可夫決策過程(Markov Decision Process,MDP)基于Elliot Fosong和Adam Jelley為愛丁堡大學強化學習課程創(chuàng)建的類似的馬爾可夫決策過程。圖4.4和圖4.5b中的圖像是Mahdi Kazemi Moghaddam為本書制作的。我們非常感謝Karl Tuyls在2023年智能體及多智能體系統(tǒng)(Autonomous Agents and Multi-Agent Systems,AAMAS)國際會議上發(fā)表的主旨演講中宣布了本書的出版?闭`:盡管我們盡了最大努力,但仍可能有一些錯字或不準確之處未被注意到。如果發(fā)現(xiàn)任何錯誤,請通過電子郵件issues@marl-book.com向我們告知,我們將不勝感激。本書網(wǎng)站、代碼庫和幻燈片:本書的完整PDF版本以及附帶資料(包括代碼庫和講義幻燈片)的鏈接可在本書網(wǎng)站上找到:www.marl-book.com。
斯特凡諾·V. 阿爾布萊希特(Stefano V. Albrecht)愛丁堡大學信息學院人工智能專業(yè)副教授,并擔任該校自主智能體研究組負責人,同時是英國皇家工程院工業(yè)研究員、阿蘭·圖靈研究所多智能體系統(tǒng)研究團隊領軍學者。他的研究聚焦自主智能體、多智能體系統(tǒng)、強化學習和博弈論領域,核心方向是不確定情況下的序貫決策。菲利波斯·克里斯蒂安諾斯(Filippos Christianos)多智能體深度強化學習領域的研究科學家,主要研究如何高效地使用MARL算法。他編寫了多個流行的MARL代碼庫。盧卡斯·舍費爾(Lukas Sch?fer)多智能體強化學習領域的一位資深研究人員,專注于利用深度強化學習完成更具通用性、魯棒性和樣本效率的決策制定。
目 錄譯者序前言符號總覽第1章 引言1 1.1 多智能體系統(tǒng)1 1.2 多智能體強化學習4 1.3 應用示例61.3.1 多機器人倉庫管理61.3.2 棋盤游戲和電子游戲中的競爭性對戰(zhàn)71.3.3 自動駕駛71.3.4 電子市場中的自動化交易7 1.4 多智能體強化學習的挑戰(zhàn)8 1.5 多智能體強化學習的議題9 1.6 本書內(nèi)容和結(jié)構10第一部分 多智能體強化學習的基礎第2章 強化學習12 2.1 一般定義12 2.2 馬爾可夫決策過程14 2.3 期望折扣回報和最優(yōu)策略16 2.4 價值函數(shù)與貝爾曼方程17 2.5 動態(tài)規(guī)劃18 2.6 時序差分學習21 2.7 學習曲線評估23 2.8 R(s,a,s′)和R(s,a)的等價性26 2.9 總結(jié)27第3章 博弈:多智能體交互模型28 3.1 標準式博弈29 3.2 重復標準式博弈30 3.3 隨機博弈31 3.4 部分可觀測隨機博弈33 3.5 建模通信35 3.6 博弈中的知識假設36 3.7 詞典:強化學習與博弈論37 3.8 總結(jié)38第4章 博弈的解概念40 4.1 聯(lián)合策略與期望回報41 4.2 最佳響應42 4.3 極小極大算法43 4.4 納什均衡44 4.5 -納什均衡46 4.6。ù郑┫嚓P均衡47 4.7 均衡解的概念局限性49 4.8 帕雷托最優(yōu)50 4.9 社會福利和公平51 4.10 無悔53 4.11 均衡計算的復雜性544.11.1 PPAD復雜性類554.11.2 計算-納什均衡是PPAD-完全問題56 4.12 總結(jié)57第5章 博弈中的多智能體強化學習:第一步與挑戰(zhàn)58 5.1 一般學習過程58 5.2 收斂類型60 5.3 單智能體強化學習的簡化625.3.1 中心學習625.3.2 獨立學習635.3.3 示例:基于等級的搜尋65 5.4 多智能體強化學習的挑戰(zhàn)665.4.1 非平穩(wěn)性675.4.2 均衡選擇685.4.3 多智能體信用分配695.4.4 擴展到多個智能體71 5.5 智能體使用哪些算法715.5.1 自博弈725.5.2 混合博弈72 5.6 總結(jié)73第6章 多智能體強化學習:基礎算法75 6.1 博弈的動態(tài)規(guī)劃:價值迭代75 6.2 博弈中的時序差分:聯(lián)合動作學習776.2.1 極小極大Q學習796.2.2 納什Q學習806.2.3 相關Q學習816.2.4 聯(lián)合動作學習的局限性81 6.3 智能體建模826.3.1 虛擬博弈836.3.2 智能體建模的聯(lián)合動作學習856.3.3 貝葉斯學習與信息價值87 6.4 基于策略的學習926.4.1 期望獎勵中的梯度上升926.4.2 無窮小梯度上升的學習動態(tài)936.4.3 贏或快速學習946.4.4 用策略爬山算法實現(xiàn)贏或快速學習966.4.5 廣義無窮小梯度上升98 6.5 無悔學習996.5.1 無條件與有條件的遺憾匹配996.5.2 遺憾匹配的收斂性100 6.6 總結(jié)103第二部分 多智能體深度強化學習:算法與實踐第7章 深度學習106 7.1 強化學習的函數(shù)逼近106 7.2 線性函數(shù)逼近107 7.3 前饋神經(jīng)網(wǎng)絡1087.3.1 神經(jīng)元1097.3.2 激活函數(shù)1097.3.3 由層和單元構成網(wǎng)絡110 7.4 基于梯度的優(yōu)化1117.4.1 損失函數(shù)1117.4.2 梯度下降1127.4.3 反向傳播114 7.5 卷積神經(jīng)網(wǎng)絡與遞歸神經(jīng)網(wǎng)絡1147.5.1 從圖像中學習——利用數(shù)據(jù)中的空間關系1157.5.2 利用記憶從序列中學習116 7.6 總結(jié)117第8章 深度強化學習119 8.1 深度價值函數(shù)逼近1198.1.1 深度Q學習——可能出現(xiàn)什么問題1208.1.2 目標值變動問題1218.1.3 打破相關性1238.1.4 匯總:深度Q網(wǎng)絡1248.1.5 超越深度Q網(wǎng)絡126 8.2 策略梯度算法1268.2.1 學習策略的優(yōu)勢1278.2.2 策略梯度定理1288.2.3 REINFORCE:蒙特卡羅策略梯度1298.2.4 演員-評論家算法1318.2.5 A2C:優(yōu)勢演員-評論家1328.2.6 近端策略優(yōu)化1348.2.7 策略梯度算法在實踐中的應用1358.2.8 策略的并行訓練136 8.3 實踐中的觀測、狀態(tài)和歷史記錄139 8.4 總結(jié)140第9章 多智能體深度強化學習142 9.1 訓練和執(zhí)行模式1429.1.1 集中式訓練和執(zhí)行1439.1.2 分散式訓練和執(zhí)行1439.1.3 集中式訓練與分散式執(zhí)行144 9.2 多智能體深度強化學習的符號表示144 9.3 獨立學習1459.3.1 基于獨立價值的學習1459.3.2 獨立策略梯度方法1469.3.3 示例:大型任務中的深度獨立學習149 9.4 多智能體策略梯度算法1509.4.1 多智能體策略梯度定理1509.4.2 集中式評論家1519.4.3 集中式動作-價值評論家1539.4.4 反事實動作-價值估計1549.4.5 使用集中式動作-價值評論家的均衡選擇155 9.5 共享獎勵博弈中的價值分解1579.5.1 個體-全局-最大化性質(zhì)1599.5.2 線性價值分解1599.5.3 單調(diào)價值分解1629.5.4 實踐中的價值分解1669.5.5 超越單調(diào)價值分解170 9.6 使用神經(jīng)網(wǎng)絡的智能體建模1739.6.1 用深度智能體模型進行聯(lián)合動作學習1739.6.2 學習智能體策略的表示176 9.7 具有同質(zhì)智能體的環(huán)境1789.7.1 參數(shù)共享1799.7.2 經(jīng)驗共享180 9.8 零和博弈中的策略自博弈1829.8.1 蒙特卡羅樹搜索1839.8.2 自博弈蒙特卡羅樹搜索1869.8.3 帶有深度神經(jīng)網(wǎng)絡的自博弈MCTS:AlphaZero187 9.9 基于種群的訓練1889.9.1 策略空間響應預言家1899.9.2 PSRO的收斂性1929.9.3 《星際爭霸Ⅱ》中的宗師級別:AlphaStar194 9.10 總結(jié)196第10章 實踐中的多智能體深度強化學習198 10.1 智能體環(huán)境接口198 10.2 PyTorch中的多智能體強化學習神經(jīng)網(wǎng)絡19910.2.1 無縫參數(shù)共享實現(xiàn)20110.2.2 定義模型:IDQN的一個示例201 10.3 集中式價值函數(shù)203 10.4 價值分解204 10.5 多智能體強化學習算法的實用技巧20510.5.1 堆疊時間步與循環(huán)網(wǎng)絡20510.5.2 標準化獎勵20510.5.3 集中式優(yōu)化206 10.6 實驗結(jié)果的展示20610.6.1 學習曲線20610.6.2 超參數(shù)搜索207第11章 多智能體環(huán)境209 11.1 選擇環(huán)境的標準209 11.2 結(jié)構不同的2×2矩陣博弈21011.2.1 無沖突博弈21011.2.2 沖突博弈211 11.3 復雜環(huán)境21211.3.1 基于等級的搜尋21311.3.2 多智能體粒子環(huán)境21411.3.3 星際爭霸多智能體挑戰(zhàn)21511.3.4 多機器人倉庫21611.3.5 谷歌足球21711.3.6 《花火》21711.3.7 《胡鬧廚房》218 11.4 環(huán)境集合21811.4.1 熔爐21911.4.2 OpenSpiel21911.4.3 Petting Zoo220多智能體強化學習研究綜述221參 考 文 獻224