7月24日,愛詩科技正式發(fā)布視頻生成產(chǎn)品 PixVerse V2,全球同步開放,致力用AI視頻大模型為每一個用戶釋放創(chuàng)意可能。
PixVerse V2 采用 Diffusion+Transformer(DiT)基礎(chǔ)架構(gòu),并在各方面進行技術(shù)創(chuàng)新,提供了更長、更一致、更有趣的視頻生成能力。在模型能力提升的同時,PixVerse V2還帶來了AI視頻生成的全新玩法:在保證一致性的前提下,一次生成多個視頻片段,可實現(xiàn)單片段8秒,和多片段40秒的視頻生成。
一、以DiT架構(gòu)為基礎(chǔ),實現(xiàn)多項技術(shù)創(chuàng)新
PixVerse V2 采用了 DiT 模型架構(gòu),用行業(yè)頂尖的模型訓(xùn)練效率實踐了視頻大模型的Scaling Law,同時在多個方面運用了獨創(chuàng)的技術(shù)實現(xiàn)了卓越的生成效果。
在時空建模方面,PixVerse V2 引入了自研的時空注意力機制,不僅超越了傳統(tǒng)的時空分離和 fullseq 架構(gòu),而且顯著提升了對空間和時間的感知能力,使得在處理復(fù)雜場景時表現(xiàn)更為出色。
在文本理解方面,PixVerse V2 利用了有更強大理解能力的多模態(tài)模型來提取prompt的表征,有效實現(xiàn)了文本信息與視頻信息的精準(zhǔn)對齊,進一步增強了模型的理解和表達能力。
此外,PixVerse V2在傳統(tǒng)flow模型的基礎(chǔ)上進行了優(yōu)化,通過加權(quán)損失,促進了模型更快更優(yōu)的收斂,從而提升整體訓(xùn)練效率。
二、用戶第一,提升AI視頻創(chuàng)作生產(chǎn)力
基于大量用戶反饋和社區(qū)討論,愛詩團隊深刻洞察到一致性是AI視頻創(chuàng)作的核心挑戰(zhàn),因此,PixVerse V2 在設(shè)計和優(yōu)化上進行了針對性突破:支持一鍵生成1-5段連續(xù)的視頻內(nèi)容,且片段之間會保持主體形象、畫面風(fēng)格和場景元素的一致。這一創(chuàng)新功能,讓用戶能夠圍繞特定主題進行高效而便捷的視頻創(chuàng)作。
PixVerse V2 還支持對生成結(jié)果進行二次編輯,通過智能識別內(nèi)容和自動聯(lián)想功能,用戶可以靈活替換調(diào)整視頻主體、動作、風(fēng)格和運鏡,進一步豐富創(chuàng)作的可能性。愛詩團隊希望在模型性能和美學(xué)效果之間尋求平衡,預(yù)計未來3個月內(nèi)還將進行多次迭代升級,提供更好的AI視頻生成體驗。
PixVerse V2 致力讓更多用戶感受到AI視頻創(chuàng)作的樂趣,無論是記錄日常腦海中的靈光乍現(xiàn),還是講述引人入勝的視頻故事,都能變得觸手可及。
星空人工智能技術(shù)網(wǎng) 倡導(dǎo)尊重與保護知識產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)等問題,煩請30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至1851688011@qq.com我們將及時溝通與處理。?。?a href="/">首頁 > AI美學(xué) » 愛詩科技發(fā)布PixVerse V2,更快更長更一致的AI視頻生成來了
科大國創(chuàng)星云大模型入選“2024年中
大模型時代下,構(gòu)建安全可靠大數(shù)據(jù)底
北京筑龍入選《2024數(shù)字化采購發(fā)展
每日互動劉宇參加2024智慧城市產(chǎn)業(yè)
炎黃盈動發(fā)布企業(yè)級AWS AI Copilot
CPU,正在被AI時代拋棄?
藍(lán)色光標(biāo)推出的營銷行業(yè)模型Blue A
國產(chǎn)大模型第一梯隊玩家,為什么pick