99热综合福利导航,久久66日韩,91一二区少妇,久久产国视频,日韩久久久五月精品八区,丰满狐狸精在线电影,一区婷婷久久,日韩欧美另类在线,欧美中文字幕区

星空人工智能技術(shù)網(wǎng)

南棲仙策提出高相容性協(xié)作算法,保障智能體在開放環(huán)境中的高效協(xié)作

 

開放環(huán)境的機器學(xué)習(xí)是目前的研究難點與熱點,是算法落地的關(guān)鍵之一。其中,開放環(huán)境的多智能體強化學(xué)習(xí)與人智協(xié)同方向需要智能體與各種多樣甚至是未見的隊友策略進行高效協(xié)作。為了達成這一目標(biāo),主流方法在訓(xùn)練階段生成若干隊友策略與智能體配對訓(xùn)練以提高智能體的協(xié)作能力。然而,以往方法嘗試以隊友策略為中心解決問題,而無法高效并有保證地生成多樣的隊友策略,進而導(dǎo)致智能體在開放環(huán)境中與未見隊友的協(xié)作能力有限,阻礙了該方向的發(fā)展。

基于此,南京大學(xué)與南棲仙策團隊合作提出了一種面向任意隊友的高相容性協(xié)作算法(Multi-agent compatible policy  learning, Macop),成功發(fā)表在DAI'2023會議上,并獲得唯一最佳論文獎 (Best Paper  Award)。這一算法可以應(yīng)用在多智能體強化學(xué)習(xí)與人智協(xié)同領(lǐng)域,有效地增強了智能體與多樣甚至未見的智能體隊友或人類隊友進行協(xié)同的能力,推進了集群協(xié)同的有無人系統(tǒng)在開放現(xiàn)實世界的落地應(yīng)用。

以往隊友生成與訓(xùn)練智能體方法的局限性

經(jīng)典的協(xié)作多智能體強化學(xué)習(xí)方法,假設(shè)訓(xùn)練階段與測試階段,智能體都與相同的隊友策略進行協(xié)作,這些方法致力于提升一個固定且封閉的多智能體系統(tǒng)的協(xié)作性能。然而,真實的協(xié)作場景往往是開放的,也就是說智能體需要與各種多樣甚至是訓(xùn)練階段沒有遇到過的隊友進行協(xié)作,例如游戲AI需要與實時匹配到的人類玩家協(xié)作、自動駕駛智能體需要與路面上的人類司機協(xié)作等等。為了賦予智能體在這些開放的場景中與多樣甚至未見隊友協(xié)作的能力,一種可行的方法是在訓(xùn)練階段就使得智能體學(xué)會與盡可能多樣的隊友協(xié)作。

 

 

  開放協(xié)作場景中,智能體需要與多樣甚至未見隊友協(xié)作

基于此,研究者提出了例如虛擬博弈[1]等方法,這些方法的大體步驟如下:首先,使用不同手段生成一批固定數(shù)量且各不相同的隊友策略;然后,訓(xùn)練智能體與這些生成的隊友策略進行協(xié)作。

 

 

  以往隊友生成與訓(xùn)練智能體方法示意圖

盡管這些方法在一些較為簡單的協(xié)作場景中取得了一定的效果,但是這種分兩步走、以隊友策略生成模塊為中心的訓(xùn)練范式仍然具有一定的局限性。第一,該范式需要提前指定需要生成的隊友策略數(shù)量,然而最優(yōu)的生成數(shù)量是無法提前得知的,過少的隊友不足以覆蓋策略空間,而過多的隊友會降低訓(xùn)練效率。第二,該范式生成隊友策略先于訓(xùn)練智能體,是以隊友策略為中心的范式,然而,即使生成的隊友各不相同,但從智能體的視角來看,它們的行為可能并不具有多樣性,智能體只需要單一的協(xié)作模式即可與它們配合,這導(dǎo)致生成的隊友并不能高效地覆蓋策略空間。第三,該范式需要智能體同時與大量生成的隊友學(xué)習(xí)協(xié)作,會導(dǎo)致增大訓(xùn)練難度。以上問題啟發(fā)我們:開發(fā)一種新的以智能體為中心的訓(xùn)練范式,從智能體的視角持續(xù)高效地生成未見且多樣的隊友并學(xué)會與它們協(xié)作,直到智能體學(xué)會與策略空間中所有有代表性的隊友協(xié)作,這樣一來智能體就具備與任意隊友協(xié)作的能力了。

與任意隊友協(xié)作的學(xué)習(xí)算法:主動出擊

為了達成上述目標(biāo),我們需要開發(fā)以智能體為中心的訓(xùn)練范式實現(xiàn)高效的隊友生成與智能體訓(xùn)練,其中的核心思想是以持續(xù)學(xué)習(xí)的過程,主動地生成與智能體還協(xié)作得不夠好的新隊友與之訓(xùn)練,真正做到智能體視角中的隊友策略多樣性,并高效提升智能體的協(xié)作能力。

1、隊友生成:以智能體為中心的多樣性

該模塊的目標(biāo)是持續(xù)高效地生成多樣的隊友策略以逐步覆蓋隊友。受到基于種群的訓(xùn)練和演化算法的啟發(fā),我們維護一個隊友策略種群并迭代地對其進行優(yōu)化。

首先,每個隊友策略需要具備基本的協(xié)作與完成任務(wù)的能力,以確保與智能體的配對訓(xùn)練是有意義的,為此隊友策略需要與其自身的復(fù)制策略協(xié)作以最大化回報與完成任務(wù),即最大化自博弈(self-play,  sp)目標(biāo):

 

 

接下來,為了增強種群內(nèi)隊友策略的多樣性,我們引入多樣性(diversity)目標(biāo)增大策略間的距離:

 

 

最后,為了主動地生成與智能體還協(xié)作得不夠好的新隊友與之訓(xùn)練,我們加入不相容性(incompatibility)目標(biāo),使隊友策略最小化與智能體協(xié)作的回報,迫使隊友尋找新的協(xié)作模式,覆蓋策略空間的新區(qū)域,從智能體的視角高效地增強隊友策略多樣性:

優(yōu)化當(dāng)前的隊友策略種群同時最大化以上三個目標(biāo),即可得到一個新的隊友策略種群與智能體進行配對訓(xùn)練了。

2、學(xué)智能體:持續(xù)學(xué)習(xí)防止遺忘舊隊友

設(shè)計好隊友生成模塊后,我們可以持續(xù)地生成多樣的隊友策略用以訓(xùn)練智能體。由于將要生成的隊友策略的數(shù)量是未知的,且為了節(jié)省算法的存儲空間開銷,我們無法存儲所有已經(jīng)生成的隊友策略與智能體配對訓(xùn)練。為了防止智能體遺忘與過去生成隊友協(xié)作的能力,我們使用了多任務(wù)頭架構(gòu)的多智能體持續(xù)協(xié)作技術(shù)[2]進行訓(xùn)練,既能使智能體快速學(xué)習(xí)與當(dāng)前新生成的隊友進行協(xié)作,又可以保持其與過去生成隊友的協(xié)作能力。這樣一來,算法只需要存儲當(dāng)前新生成的隊友種群與智能體訓(xùn)練而不需要存儲所有生成過的隊友,在節(jié)省存儲開銷的同時提高了智能體的學(xué)習(xí)效率。

以上是訓(xùn)練智能體的兩個優(yōu)化目標(biāo),第一個目標(biāo)旨在提高智能體與當(dāng)前(第 k+1  輪)隊友的協(xié)作能力,即相容性(compatibility);第二個目標(biāo)是對智能體神經(jīng)網(wǎng)絡(luò)中的特征提取器部分進行正則化(regularization)  以緩解遺忘現(xiàn)象。

3、整體算法:交替進行直到空間全覆蓋

介紹(a)隊友生成模塊與(b)智能體學(xué)習(xí)模塊后,我們提出本工作的 Macop  整體算法。首先初始化第一代隊友種群與智能體策略,隨后交替進行(a)隊友生成與(b)智能體學(xué)習(xí),期間生成第二代、第三代等隊友種群與更新智能體策略。該過程將持續(xù)進行到第  K  代隊友種群在更新后依然無法降低與當(dāng)前智能體協(xié)作的回報,即降低相容性失敗。這說明,此時整個隊友策略空間已經(jīng)得到覆蓋,且智能體已經(jīng)學(xué)會與所有生成的隊友協(xié)作。Macop算法則會終止并輸出具有強大協(xié)作能力的智能體。

  Macop整體框架示意圖

技術(shù)驗證

我們在食物收集、獵物追捕、合作導(dǎo)航、星際爭霸微操四個環(huán)境的八個場景上對算法進行驗證。

1、Macop 可以極大地提高智能體與不同隊友協(xié)作的能力

各個算法測試的隊友策略相同,均為 Macop  與所有對比方法生成的隊友策略的集合,也即每個算法的智能體都需要與大量未見隊友進行協(xié)作。在各個任務(wù)場景中,相較當(dāng)前致力于提高智能體與未見隊友協(xié)作能力的方法與變種,Macop均表現(xiàn)出明顯的回報優(yōu)勢。表格最后一列的平均性能提升指標(biāo)顯示,Macop更是比最好的對比算法提升高出  18%。

2、Macop可以很好地與未見隊友進行協(xié)作

我們收集了八個所有算法的智能體都沒有見過的隊友策略(tm1~tm8)作進一步測試。測試回報的雷達圖顯示,相較于其他方法,Macop可以更好地與這些隊友進行協(xié)作,驗證了Macop的有效性。

結(jié)論

真實場景中智能體需要與各種未見隊友策略進行協(xié)作,就需要智能體在訓(xùn)練階段與盡可能多樣的隊友學(xué)習(xí)。本工作第一次真正站在智能體的角度持續(xù)生成這些需要的隊友策略,如同為智能體提供一本“練級攻略”,有方向且高效率地提升自身的協(xié)作能力。

這一算法可以應(yīng)用在高頻變化的多智能體系統(tǒng),也可以應(yīng)用在人機交互的現(xiàn)實場景等,讓這些懂得協(xié)作的智能體更好地服務(wù)我們的生產(chǎn)與生活。

星空人工智能技術(shù)網(wǎng) 倡導(dǎo)尊重與保護知識產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)等問題,煩請30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至1851688011@qq.com我們將及時溝通與處理。?。?a href="/">首頁 > 數(shù)字經(jīng)濟 » 南棲仙策提出高相容性協(xié)作算法,保障智能體在開放環(huán)境中的高效協(xié)作

感覺不錯,很贊哦! ()
分享到:

相關(guān)推薦

留言與評論(共有 0 條評論)
   
驗證碼:
阳信县| 兴宁市| 阳城县| 通山县| 荔波县| 贡觉县| 香港 | 晋州市| 昌邑市| 遂溪县| 桓台县| 旅游| 阳原县| 涞水县| 郁南县| 宁河县| 宜兰市| 阿瓦提县| 西吉县| 龙口市| 吉林省| 凉城县| 滨州市| 绍兴县| 海原县| 浮山县| 丹棱县| 鹤庆县| 浦江县| 临沭县| 新泰市| 穆棱市| 北宁市| 思南县| 潼南县| 康平县| 山东省| 安平县| 聂荣县| 嘉义县| 常熟市|