
摘要:
當 AI 視頻還在卷時長與畫質(zhì)時,Xmax AI 另辟蹊徑,用毫秒級延遲的實時交互模型 X1,開啟了從「看視頻」到「玩視頻」的交互范式革命。
如果 2024 年我們還在為 Sora 模擬的流體視頻驚嘆,那么在 2026 年的今天,單純的高清視頻已經(jīng)在光速發(fā)展的 AI 世界隨處可見。
當你對著屏幕里的那個 AI 虛擬形象,無論多么逼真,終究只是一段“被播放”的像素。AI 視頻生成實際上仍被禁錮在“預(yù)制內(nèi)容”的舊范式中。而如今打破這層次元壁的,是一家由前華為「天才少年」創(chuàng)立的初創(chuàng)公司—— Xmax AI。
近日,Xmax AI 正式發(fā)布全球首個虛實融合的實時交互視頻生成模型——X1。不同于當前主流文生視頻模型聚焦影視內(nèi)容生產(chǎn)與工業(yè)流程重構(gòu),X1 選擇了另一條更為硬核,且鮮有人涉足的征途:實現(xiàn)毫秒級的實時視頻生成和低門檻的手勢交互,并將虛擬內(nèi)容實時、無縫地融入現(xiàn)實物理空間。
它意味著著 AI 視頻正在從“被動的消費內(nèi)容”,躍遷為“共創(chuàng)體驗”。我們將可以調(diào)動現(xiàn)實與虛擬世界的任何一粒像素。

手機對準桌面,選取一張滾球獸的照片。下一秒,它就“脫屏而出”,立在你的桌面上東張西望。你伸出手,它先是警惕,隨后親昵地蹭向你的手心;你輕輕一捏,它會給出Q彈的物理反饋;攤開手掌,它甚至能被你穩(wěn)穩(wěn)“托”住。

這就是X1,不需要復(fù)雜的Prompt(提示詞),不需要漫長的云端渲染等待,僅憑一個手機攝像頭和最符合直覺的手勢,它就能讓幻想掙脫屏幕,與現(xiàn)實無縫融合。目前,Xmax AI已通過技術(shù)演示應(yīng)用 X-cam beta開放了X1模型的能力體驗,并可以通過 TestFlight 下載。
一、 告別“只能看”,AI視頻“人人可玩”
過去一年,全球AI視頻生成領(lǐng)域呈現(xiàn)出爆發(fā)式增長態(tài)勢。全球AI視頻生成領(lǐng)域呈現(xiàn)出“神仙打架”的繁榮景象。數(shù)據(jù)顯示,2024年全球相關(guān)市場規(guī)模已達6.148億美元,Sora、Runway等行業(yè)巨頭紛紛在畫質(zhì)、時長和分辨率上展開激烈角逐。然而,縱觀行業(yè)生態(tài)整個賽道,大多數(shù)技術(shù)路線仍聚焦局限于“文生視頻”的單向輸出,主要服務(wù)于影視、廣告等專業(yè)領(lǐng)域的生產(chǎn)力需求。對于普通用戶而言,復(fù)雜的操作流程高昂的操作門檻、漫長的生成等待時間,以及內(nèi)容本身的缺乏低互動性,使得AI視頻生成始終難以真正融入日常生活。
Xmax AI敏銳地捕捉到了這一行業(yè)痛點:AI視頻要真正走向大眾,不僅需要進一步降低門檻,更要從“生成結(jié)果”進化為“生成體驗”。為此,Xmax AI選擇了一條截然不同的技術(shù)路線:虛實融合 + 實時交互。不僅要生成畫面,還要讓畫面理解現(xiàn)實,并允許用戶用最本能的手勢去參與。
二、Xmax AI四大核心玩法
基于X1模型的實時生成能力,Xmax AI落地了四大核心玩法:
1. 次元互動:打破次元壁的觸摸
任意上傳一張角色圖(動漫IP、寵物照片、毛絨玩具),并通過手機攝像頭對準現(xiàn)實平面,X1模型即可將其實時置入現(xiàn)實場景中。當你撫摸屏幕中的兔子時,X1會實時生成它“轉(zhuǎn)頭蹭手”的動態(tài)響應(yīng);當你的手指劃過它的眼睛,還能看到絨毛因觸碰而發(fā)生的細微形變。

2. 世界濾鏡:萬物皆可“風格化”
上傳一張梵高畫作或樂高積木圖,攝像頭所捕捉的現(xiàn)實畫面即可實時全域風格化轉(zhuǎn)化。這是一整套“世界重繪”系統(tǒng):當你對著鏡頭揮手、搖頭,畫面中那個變成“樂高人”或“二次元紙片人”的你,會同步保持風格一致性與動作連貫性。

3. 觸控動圖:指尖輕劃喚醒靜態(tài)圖片
上傳一張照片,在觸摸屏上拖拽照片中角色的耳朵,它會跟著搖頭;拖動嘴角,它會露出微笑。你甚至可以上傳自家貓咪的照片,通過觸控讓它揮拳、跳舞。

4. 表情捕手:社交破冰神器
鏡頭對準朋友,選擇一個“憤怒”或“大笑”的Emoji,AI會瞬間捕捉對方人物特征與神態(tài),實時生成一個神態(tài)精準、魔性十足的動態(tài)表情包。

二、 華為“天才少年”領(lǐng)銜,攻克算法與工程的世界難題
在業(yè)內(nèi)人士看來,X-cam看似簡單的“好玩”背后,其實是極高技術(shù)門檻的工程化勝利。
為了為了破解“極速響應(yīng)”與“精準意圖理解”這一世界性難題,解決極致實時性與精準意圖理解的難題,團隊創(chuàng)新了端到端流式重渲染架構(gòu),實現(xiàn)了幀級自回歸DiT模型。通過多階段蒸餾壓縮與對抗訓練,擴散采樣速度提升了百倍。同時,團隊構(gòu)建了統(tǒng)一交互模型架構(gòu),融合空間三維關(guān)系與屏幕二維操作,使模型能精準解析“捏”、“拖拽”等復(fù)雜用戶意圖。針對虛實融合數(shù)據(jù)稀缺的困境,Xmax.AI還搭建了半自動化合成管線,在筑牢行業(yè)技術(shù)壁壘的同時,也為我國 AI 視頻生成領(lǐng)域儲備了珍貴的數(shù)字資產(chǎn)。建立了堅實的行業(yè)壁壘。
硬核技術(shù)的突破,源自一支兼具算法與工程能力的硬核團隊。Xmax AI團隊匯聚了來自華為“天才少年”計劃、清華大學 KEG 與 HCI 實驗室、香港科技大學(廣州),以及字節(jié)跳動、快手等領(lǐng)軍企業(yè)的頂尖人才。
三、 X1:Play the World through AI
對于Xmax AI團隊而言,X1模型和X-cam應(yīng)用只是一個開始。他們在試圖定義全新的內(nèi)容交互范式,以及搭建下一代內(nèi)容交互引擎。正如Xmax AI的Slogan所言:Play the World through AI(用AI玩轉(zhuǎn)世界)。
技術(shù),終將讓幻想觸手可及。
星空人工智能技術(shù)網(wǎng) 倡導尊重與保護知識產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)等問題,煩請30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至1851688011@qq.com我們將及時溝通與處理。?。?a href="/">首頁 > 新質(zhì)生產(chǎn)力 » 打破次元,Xmax AI發(fā)布首個虛實融合實時交互視頻模型