近日,在全球矚目的AAMAS 2024 Computational Economics Competition(計(jì)算經(jīng)濟(jì)學(xué)挑戰(zhàn)賽)上,卓世科技星空人工智能前沿實(shí)驗(yàn)室團(tuán)隊(duì)“Zhuoshi Technology AI Cutting-edge Laboratory”憑借卓越的技術(shù)實(shí)力和創(chuàng)新解決方案,一舉奪得兩個(gè)核心賽道的冠軍和亞軍,展現(xiàn)出其在計(jì)算經(jīng)濟(jì)學(xué)和星空人工智能領(lǐng)域的強(qiáng)大競(jìng)爭(zhēng)力。、

冠軍證書(shū)

亞軍證書(shū)
AAMAS 2024 是第23屆國(guó)際自主智能體和多智能體系統(tǒng)會(huì)議(International Conference on Autonomous Agents and Multiagent Systems),這是智能體技術(shù)和多智能體系統(tǒng)領(lǐng)域內(nèi)最大和最有影響力的會(huì)議之一。它匯集了來(lái)自世界各地的研究人員和實(shí)踐者,共同探討和分享該領(lǐng)域內(nèi)最新的研究成果和發(fā)展動(dòng)態(tài)。本次計(jì)算經(jīng)濟(jì)學(xué)挑戰(zhàn)賽 (AAMAS 2024 CE competition) 旨在推動(dòng) AI for economics 的領(lǐng)域研究。

AAMAS 2024 CE Competition
本次比賽由中國(guó)科學(xué)院自動(dòng)化研究所主辦,吸引了來(lái)自中科大、南大、人大、愛(ài)丁堡、布里斯托、俄勒岡等海內(nèi)外眾多學(xué)術(shù)和科研機(jī)構(gòu)的隊(duì)伍。
本次競(jìng)賽的賽題為智能稅收 (Optimal Tax) 問(wèn)題,比賽設(shè)置兩個(gè)賽道:
賽道一:智能稅收-政府 挑戰(zhàn)賽—— 模擬政府角色,調(diào)控稅率和政府支出,最大化GDP和平衡財(cái)富分配。
賽道二:智能稅收-個(gè)人挑戰(zhàn)賽—— 模擬個(gè)人角色,調(diào)整工作時(shí)間和投資比例,最大化個(gè)人利益。
來(lái)自卓世科技的隊(duì)伍“Zhuoshi Technology AI Cutting-edge Laboratory”首次參賽,分別拿下兩賽道冠亞軍。卓世科技星空人工智能前沿實(shí)驗(yàn)室團(tuán)隊(duì)致力于AI大模型前沿技術(shù)的研究,目前已經(jīng)在Multi-Agent、模型量化壓縮、MoE方向取得了重要突破。
難點(diǎn)和挑戰(zhàn):
此次競(jìng)賽的難點(diǎn)和挑戰(zhàn)在于,所面臨的對(duì)手策略未知,需要訓(xùn)練智能體,能應(yīng)對(duì)不同的對(duì)手策略,因此卓世科技設(shè)計(jì)了一種MARL+進(jìn)化的訓(xùn)練框架。在該框架中,每類(lèi)智能體(政府或家庭)維持一個(gè)長(zhǎng)期策略池和短期策略池,長(zhǎng)期策略池中保存歷史策略參數(shù)(每隔50輪訓(xùn)練保存一次模型),短期策略池中維持最好的20個(gè)策略,具體而言,我們通過(guò)隨機(jī)匹配對(duì)手,進(jìn)行大量測(cè)試,挑選出top20的策略參數(shù)。長(zhǎng)期策略池中維持了多種多樣的策略,用于訓(xùn)練top20策略,使其具有魯棒性。
在正賽1中,我們訓(xùn)練完成后,我們從top20的短期策略池中選取平均得分最高的策略作為提交比賽的智能體。在正賽2中,短期策略池中仍然維持top20的策略參數(shù),與階段1不同,我們從top20中再次進(jìn)行對(duì)抗測(cè)試,從中選出top12的策略參數(shù),與階段1中的策略參數(shù)進(jìn)行集成。我們嘗試從這十幾個(gè)策略中選擇一部分進(jìn)行集成。對(duì)于政府,我們選擇10個(gè)策略,而對(duì)于家庭,我們選擇12個(gè)策略。每個(gè)策略輸出自己的動(dòng)作,然后去掉一個(gè)最大值,去掉一個(gè)最小值,然后對(duì)剩下的動(dòng)作取平均,以此作為最終的策略。主要是為了提高策略的魯棒性。
領(lǐng)先35%強(qiáng)勢(shì)奪冠:
卓世團(tuán)隊(duì)迎難而上,憑借以下技術(shù)方案亮點(diǎn),在競(jìng)賽中脫穎而出,以領(lǐng)先第二名35個(gè)百分點(diǎn)的成績(jī)強(qiáng)勢(shì)奪冠!
策略網(wǎng)絡(luò)架構(gòu):采用Actor-Critic框架,Actor使用部分可觀測(cè)狀態(tài),Critic包括全局狀態(tài)。
訓(xùn)練算法:采用MATD3算法,集中式訓(xùn)練和分布式執(zhí)行。
策略集成:挑選top K策略進(jìn)行集成,提高模型魯棒性。
策略網(wǎng)絡(luò)架構(gòu)上,卓世科技采用經(jīng)典的Actor-Critic框架,其中Actor僅使用部分可觀測(cè)的狀態(tài),Critic包括所有智能體部分觀察和全局狀態(tài)。為了緩解部分可觀測(cè)問(wèn)題,我們將歷史4步的狀態(tài)進(jìn)行合并,具體而言,我們將每步的特征向量進(jìn)行非線性變換,之后進(jìn)行拼接,這類(lèi)似于時(shí)空卷積結(jié)構(gòu),如圖1所示。在訓(xùn)練算法上,我們采用了MATD3,這是一種改進(jìn)MADDPG的算法,每次狀態(tài)Q值估計(jì)都會(huì)輸出兩個(gè)值,并使用最小值作為目標(biāo)Q值,這有利于緩解狀態(tài)價(jià)值得過(guò)估計(jì)問(wèn)題。訓(xùn)練上采用集中式訓(xùn)練和分布式執(zhí)行,訓(xùn)練完成的Critic網(wǎng)絡(luò)不再使用,Actor網(wǎng)絡(luò)根據(jù)局部觀察進(jìn)行動(dòng)作輸出。

圖 1 Actor和Critic網(wǎng)絡(luò)結(jié)構(gòu)
在訓(xùn)練完成的top K策略池中,我們挑選出最好的N個(gè)模型進(jìn)行策略集成,以提高模型對(duì)位置策略的魯棒性,如圖2所示。

圖 2 策略集成
綜合以上策略,在賽道二,卓世團(tuán)隊(duì)以2845.58分、領(lǐng)先第二名35個(gè)百分點(diǎn)的成績(jī)強(qiáng)勢(shì)問(wèn)鼎冠軍!該得分是綜合考慮家庭端工作時(shí)長(zhǎng)和消費(fèi)的表現(xiàn),并與多只參賽隊(duì)伍PK的最終得出。在賽道一,團(tuán)隊(duì)以1個(gè)百分點(diǎn)微弱之差?yuàn)Z得亞軍!該得分是綜合考慮政府端gdp增長(zhǎng)率和貧富差距的基尼指數(shù)表現(xiàn)。團(tuán)隊(duì)在賽道一和賽道二取的成績(jī),得益于自主研發(fā)的分布式訓(xùn)練框架,在短時(shí)間內(nèi)可與多樣性的智能體進(jìn)行對(duì)抗,學(xué)習(xí)足夠魯棒的策略模型, 體現(xiàn)團(tuán)隊(duì)在Multi-Agent方向擁有較強(qiáng)的技術(shù)儲(chǔ)備和實(shí)戰(zhàn)能力。
卓世科技CEO屠靜賽后表示:“我們以卓越的AI技術(shù)實(shí)力和創(chuàng)新精神,在全球計(jì)算經(jīng)濟(jì)學(xué)領(lǐng)域舞臺(tái)上贏得了榮譽(yù),向全世界展現(xiàn)了中國(guó)AI力量的崛起。卓世科技將持續(xù)引領(lǐng)AI產(chǎn)業(yè)化落地,不斷創(chuàng)新變革,助力各行各業(yè)找到真正的商業(yè)應(yīng)用場(chǎng)景。我們致力于成為行業(yè)模型服務(wù)的領(lǐng)導(dǎo)者,與合作伙伴共同推進(jìn)中國(guó)產(chǎn)業(yè)AI的落地化進(jìn)程。”
關(guān)于卓世科技:
卓世科技致力于推動(dòng)產(chǎn)業(yè)智能化和科技普惠,以" AI 讓產(chǎn)業(yè)更智能,科技讓未來(lái)更美好"為使命,"智能普惠、開(kāi)源共享、科技平權(quán)"為愿景。公司專(zhuān)注于AI前沿技術(shù)研究,在大模型預(yù)訓(xùn)練、微調(diào)、量化壓縮、評(píng)估、推理、知識(shí)增強(qiáng)、MoE/MoD等方面取得顯著成果。在技術(shù)成果方面,卓世科技已獲得24項(xiàng)軟件著作權(quán),7項(xiàng)正在申請(qǐng)中,37項(xiàng)作品著作權(quán)。預(yù)計(jì)到2024年底,公司將擁有100項(xiàng)專(zhuān)利,包括50多項(xiàng)發(fā)明專(zhuān)利。這些核心技術(shù)為公司的模型家族和產(chǎn)品矩陣提供了強(qiáng)大支撐。
在模型家族方面,公司自主研發(fā)的璇璣玉衡模型已于2024年獲得中央網(wǎng)信辦頒發(fā)的大模型牌照,彰顯了公司在大模型領(lǐng)域的領(lǐng)先地位。在產(chǎn)品矩陣方面,公司的MaaS平臺(tái)、Agent平臺(tái)、GCA平臺(tái)、GDA平臺(tái)已在中醫(yī)康養(yǎng)、文化旅游、教育、智能制造等多個(gè)領(lǐng)域成功落地,為合作伙伴創(chuàng)造了顯著的經(jīng)濟(jì)效益。卓世科技將繼續(xù)深耕AI技術(shù),以創(chuàng)新驅(qū)動(dòng)發(fā)展,用技術(shù)賦能產(chǎn)業(yè),為建設(shè)更加美好的智能世界貢獻(xiàn)力量。
星空人工智能技術(shù)網(wǎng) 倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)等問(wèn)題,煩請(qǐng)30天內(nèi)提供版權(quán)疑問(wèn)、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至1851688011@qq.com我們將及時(shí)溝通與處理。?。?a href="/">首頁(yè) > 新聞 » 奪冠!卓世AI斬獲全球頂會(huì)AAMAS 2024 CE 競(jìng)賽冠軍