快手公司新推出的國(guó)內(nèi)視頻生成模型“可靈”,采用了與Sora相似的技術(shù)路徑,并融合了眾多自主研發(fā)的新技術(shù)。這一模型能夠產(chǎn)生長(zhǎng)達(dá)120秒、分辨率高達(dá)1080p的視頻內(nèi)容,并且在模擬復(fù)雜運(yùn)動(dòng)和物理特性方面表現(xiàn)出色。
主要功能亮點(diǎn):
1. 高質(zhì)量視頻制作:
- 時(shí)長(zhǎng)與幀率:“可靈”支持高達(dá)2分鐘、每秒30幀的視頻輸出,確保流暢的視覺(jué)體驗(yàn)。
- 分辨率:達(dá)到1080p的高分辨率輸出,保證了畫(huà)面的清晰度和細(xì)膩度。
- 寬高比:適應(yīng)各種觀看場(chǎng)景和平臺(tái)需求,支持多寬高比的視頻生成。
2. 物理世界模擬:
- 真實(shí)物理效果:該模型可以精準(zhǔn)地再現(xiàn)諸如重力、光影反射、液體流動(dòng)等自然物理現(xiàn)象。
- 細(xì)節(jié)呈現(xiàn):對(duì)物體的運(yùn)動(dòng)、表面反光、影子的變化等細(xì)節(jié)進(jìn)行了精細(xì)的刻畫(huà),提供逼真的視覺(jué)效果。
3. 復(fù)雜運(yùn)動(dòng)的精確描繪:
- 動(dòng)態(tài)建模:無(wú)論是快速奔跑的動(dòng)物還是月球上行走的宇航員,都能準(zhǔn)確捕捉并重現(xiàn)其動(dòng)態(tài)。
通過(guò)上述技術(shù)的整合應(yīng)用,“可靈”大模型不僅提升了視頻內(nèi)容的生成質(zhì)量,還為各類應(yīng)用場(chǎng)景提供了強(qiáng)大的技術(shù)支持,標(biāo)志著AI視頻生成技術(shù)在國(guó)產(chǎn)化道路上的一大步。
在生成視頻內(nèi)容方面,我們確保畫(huà)面的流暢度和連貫性,精準(zhǔn)捕捉動(dòng)態(tài)過(guò)程中的微小變化。我們的技術(shù)支持用戶輸入多種控制信息,如攝像機(jī)運(yùn)動(dòng)、幀頻率以及邊緣、關(guān)鍵點(diǎn)和深度等信息,極大地豐富了內(nèi)容控制的靈活性。
為了優(yōu)化文本提示詞的處理,我們?cè)O(shè)計(jì)了專門(mén)的語(yǔ)言模型,該模型能夠?qū)τ脩舻妮斎脒M(jìn)行高效的擴(kuò)展和優(yōu)化處理,從而顯著提升內(nèi)容的生成質(zhì)量。
從技術(shù)實(shí)現(xiàn)的角度來(lái)看:
1. 模型架構(gòu):
- 采用了類似Sora的DiT結(jié)構(gòu),通過(guò)使用Transformer來(lái)替換傳統(tǒng)擴(kuò)散模型中的卷積網(wǎng)絡(luò),這不僅增強(qiáng)了生成能力,還提高了系統(tǒng)的可擴(kuò)展性。
- 自研的3D VAE網(wǎng)絡(luò)實(shí)現(xiàn)了時(shí)空數(shù)據(jù)的同步壓縮,有效提升了視頻重建的品質(zhì)。
- 設(shè)計(jì)了一種全注意力機(jī)制,通過(guò)3D Attention進(jìn)行精確的時(shí)空建模,這讓我們能夠準(zhǔn)確模擬復(fù)雜的時(shí)空動(dòng)態(tài),同時(shí)考慮到計(jì)算效率的問(wèn)題。
2. 數(shù)據(jù)質(zhì)量保證:
- 建立了完整的標(biāo)簽體系,通過(guò)精細(xì)化的數(shù)據(jù)篩選與調(diào)整,確保訓(xùn)練用的視頻數(shù)據(jù)具有高質(zhì)量。
在視頻描述模型的研制上,我們成功構(gòu)建了一種精確且詳盡的模型,通過(guò)優(yōu)化文本指令的響應(yīng)性,顯著提升了其功能。
計(jì)算效率的提升
- 分布式訓(xùn)練集群的應(yīng)用:借助分布式訓(xùn)練集群,我們利用算子和重算策略的優(yōu)化手段,極大提高了硬件的使用效率。
- 分階段訓(xùn)練策略:我們采取了一種分階段的培訓(xùn)策略,先在較低的分辨率階段通過(guò)海量數(shù)據(jù)來(lái)增強(qiáng)模型的能力,隨后轉(zhuǎn)入高分辨率階段以提升細(xì)節(jié)的呈現(xiàn)效果。
創(chuàng)新案例展示
- 大規(guī)模合理動(dòng)作生成:我們實(shí)現(xiàn)了長(zhǎng)達(dá)兩分鐘的視頻內(nèi)容生成,展現(xiàn)了流暢且合理的運(yùn)動(dòng)效果。
- 物理世界模擬:我們的模型能夠模擬物理世界的特性,為畫(huà)面生成提供了強(qiáng)大的概念組合能力。
- 電影級(jí)別畫(huà)質(zhì)生成:支持自由調(diào)整輸出視頻的寬高比,能夠生成電影級(jí)別的畫(huà)質(zhì)效果。
- 表情與身體動(dòng)態(tài)驅(qū)動(dòng):基于自研的3D人臉和人體重建技術(shù),結(jié)合背景穩(wěn)定性與重定向模塊,實(shí)現(xiàn)了僅需一張全身照片即可體驗(yàn)生動(dòng)“唱跳”玩法的表情肢體全驅(qū)動(dòng)技術(shù)。
官網(wǎng)訪問(wèn):(https://kling.kuaishou.com/)