99热综合福利导航,久久66日韩,91一二区少妇,久久产国视频,日韩久久久五月精品八区,丰满狐狸精在线电影,一区婷婷久久,日韩欧美另类在线,欧美中文字幕区

星空人工智能技術(shù)網(wǎng)

Interspeech 2026 第二屆音頻編碼器能力挑戰(zhàn)賽正式啟動(dòng)

 國(guó)際語音頂級(jí)會(huì)議 Interspeech 2026 將于2026年9月在澳大利亞悉尼舉行。由小米、薩里大學(xué)、清華大學(xué)、海天瑞聲聯(lián)合發(fā)起的第二屆 Audio Encoder Capability Challenge(AECC)音頻編碼器能力挑戰(zhàn)賽將同步亮相 Interspeech 2026,目前已正式開放報(bào)名。


微信圖片_20251215111609_632_120.jpg


當(dāng)前,音頻大語言模型(LALMs)發(fā)展迅速,但大多數(shù)主流模型在音頻前端編碼器上選擇非常單一,幾乎均基于 OpenAI Whisper Encoder。這種對(duì)單一技術(shù)的依賴不利于模型架構(gòu)的多樣化探索,也限制了 LALMs 整體能力的進(jìn)一步提升。為應(yīng)對(duì)音頻理解能力不斷增長(zhǎng)的需求,本次挑戰(zhàn)賽將聚焦于音頻編碼器這一核心模塊,重點(diǎn)評(píng)估其在復(fù)雜真實(shí)場(chǎng)景下的理解與特征表示能力。


評(píng)測(cè)方法


本次挑戰(zhàn)賽采用統(tǒng)一的端到端訓(xùn)練和評(píng)估框架。參賽者只需提交預(yù)訓(xùn)練的編碼器模型,下游任務(wù)的訓(xùn)練和評(píng)估由主辦方完成。主辦方提供了開源的評(píng)估系統(tǒng) XARES-LLM。該系統(tǒng)基于用戶提供的音頻編碼器自動(dòng)訓(xùn)練一個(gè)典型的 LALM。該系統(tǒng)會(huì)自動(dòng)下載訓(xùn)練數(shù)據(jù),訓(xùn)練模型,然后測(cè)試各種下游任務(wù),并為每個(gè)任務(wù)提供分?jǐn)?shù),如下圖所示。


微信圖片_20251215111611_633_120.png


參賽者并不需要自己運(yùn)行 XARES-LLM,而只需把音頻編碼器按照一個(gè)簡(jiǎn)單的接口說明和示例封裝,通過郵件發(fā)送給主辦方即可,大模型的訓(xùn)練和評(píng)估由主辦方完成。當(dāng)然,由于 XARES-LLM 是開源的,且只需 GTX4090 即可完成訓(xùn)練和評(píng)估,參賽者也可以自行使用該系統(tǒng)訓(xùn)練大模型、評(píng)估待提交的編碼器的性能,并和主辦方提供的基線系統(tǒng)比較。


訓(xùn)練數(shù)據(jù)


和大多數(shù)比賽不同,本挑戰(zhàn)賽不僅重視模型設(shè)計(jì)和訓(xùn)練,也同樣重視數(shù)據(jù)的收集和利用。主辦方不規(guī)定具體的訓(xùn)練數(shù)據(jù)集。參賽者使用的訓(xùn)練數(shù)據(jù)必須是公開可訪問的,不得使用私有保密數(shù)據(jù)。參賽的模型既可以基于任何開源的預(yù)訓(xùn)練模型參數(shù),也可以從頭訓(xùn)練。


同時(shí),海天瑞聲公司為比賽提供了一個(gè)補(bǔ)充數(shù)據(jù)集,供參賽者免費(fèi)使用。該數(shù)據(jù)集從八個(gè)商用數(shù)據(jù)集(King-ASR-457、King-ASR-958 等)提取構(gòu)建而成。其內(nèi)容涵蓋了豐富的日常環(huán)境噪聲,具體包括書店、健身房、地鐵、餐廳等多種室內(nèi)外場(chǎng)景的背景噪聲,以及家庭環(huán)境下的不同距離背景噪聲。此外,數(shù)據(jù)集還收錄了水流、腳步聲、戶外窗邊等特定非語音干擾聲,以及地鐵車廂在不同時(shí)段的運(yùn)行噪聲。嘯叫類數(shù)據(jù)則包含了通話、游戲和直播場(chǎng)景下的純凈嘯叫聲。車輛相關(guān)環(huán)境噪聲也是其重要組成部分,如機(jī)械噪聲、空調(diào)運(yùn)行聲和開窗風(fēng)噪,還有咖啡館、醫(yī)院、市場(chǎng)、步行街等生活場(chǎng)景的實(shí)錄環(huán)境聲。


微信圖片_20251215113200_651_120.png


微信圖片_20251215113419_655_120.png


報(bào)名和提交方法


報(bào)名階段請(qǐng)于 2026 年 1 月 25 日11:59 PM AoE前 完成賽事報(bào)名信息填寫。了解詳情可移步至海天瑞聲公眾號(hào)。


模型準(zhǔn)備與自檢參賽者需封裝自己的音頻編碼器,并使用主辦方提供的檢測(cè)工具完成編碼器合規(guī)性檢查,確保模型接口與功能符合賽事要求。


模型提交請(qǐng)于 2026 年 2 月 12 日11:59 PM AoE 前,將編碼器代碼及模型文件統(tǒng)一打包為 ZIP 文件,并通過郵件方式提交至主辦方指定郵箱。


技術(shù)報(bào)告提交請(qǐng)于 2026 年 2 月 25 日 11:59 PM AoE前,把技術(shù)報(bào)告 PDF 文件郵件發(fā)送給主辦方。技術(shù)報(bào)告可以同時(shí)在 Interspeech 官方提交系統(tǒng)作為會(huì)議論文投稿。

星空人工智能技術(shù)網(wǎng) 倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)等問題,煩請(qǐng)30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至1851688011@qq.com我們將及時(shí)溝通與處理。?。?a href="/">首頁(yè) > 新質(zhì)生產(chǎn)力 » Interspeech 2026 第二屆音頻編碼器能力挑戰(zhàn)賽正式啟動(dòng)

感覺不錯(cuò),很贊哦! ()
分享到:

相關(guān)推薦

留言與評(píng)論(共有 0 條評(píng)論)
   
驗(yàn)證碼:
茶陵县| 肇东市| 区。| 金门县| 宣汉县| 宣化县| 黑水县| 万源市| 余干县| 阳高县| 汝南县| 濮阳市| 新干县| 大新县| 阿坝| 诏安县| 铜陵市| 浦县| 安龙县| 芒康县| 塔河县| 隆尧县| 巴彦淖尔市| 高尔夫| 古蔺县| 泰兴市| 息烽县| 潍坊市| 锦州市| 青岛市| 历史| 连云港市| 辽源市| 肇州县| 潮州市| 名山县| 威海市| 东乌珠穆沁旗| 利川市| 崇信县| 西盟|