在全球AI視頻技術(shù)熱潮持續(xù)沸騰的背景下,據(jù)了解,愛詩科技近日獲得了電廣傳媒旗下達(dá)晨財(cái)智億級(jí)A1輪融資領(lǐng)投,資金將主要用于底層視頻大模型的技術(shù)研發(fā)及團(tuán)隊(duì)搭建等方面。這進(jìn)一步印證了業(yè)界對(duì)AI視頻技術(shù)的熱烈追捧。
Sora的橫空出世,激發(fā)了全球科技公司競(jìng)相角逐AI視頻革新賽道。各家企業(yè)猶如八仙過海,各顯神通,如Stability AI上線公測(cè)SVD視頻平臺(tái)、七火山發(fā)布了文生視頻模型Etna、Pika上線了新功能——可以給視頻對(duì)口型的Lip Sync和根據(jù)內(nèi)容自動(dòng)生成聲音的音效生成功能、LTX Studio上線視頻AI制作平臺(tái)、Meta發(fā)布AI自動(dòng)剪輯視頻工具。
作為人工智能領(lǐng)域的積極探索者,超訊通信從去年就開始部署AI生態(tài),已完成“算力-數(shù)據(jù)-AI”新業(yè)務(wù)布局。今年年初,公司敏銳洞察到AI視頻的市場(chǎng)潛力,與AI多模態(tài)應(yīng)用公司Hong Kong Inequation Limited簽署了相關(guān)投資協(xié)議,成為該公司占股30%的第一大股東。
Etna文生視頻模型是由Hong Kong Inequation Limited業(yè)務(wù)品牌七火山研發(fā),在設(shè)計(jì)和開發(fā)上采取了一系列革命性的技術(shù)突破,這些突破不僅提升了視頻內(nèi)容的質(zhì)量,還極大地增強(qiáng)了模型的應(yīng)用潛力。其主要?jiǎng)?chuàng)新點(diǎn)包括:
01 視頻幀率高達(dá)4K
Etna模型支持生成視頻時(shí)長(zhǎng)達(dá)到8-15秒,且視頻流暢度極高,每秒可達(dá)60幀。這一特性使得Etna生成的視頻不僅內(nèi)容豐富,而且視覺效果流暢自然,極大提升了用戶觀看體驗(yàn)。
02 深度語義理解能力
Etna模型背后的技術(shù)架構(gòu),特別強(qiáng)調(diào)了對(duì)輸入文本的深度理解。借鑒了sora模型的成功經(jīng)驗(yàn),Etna能夠更準(zhǔn)確地捕捉和轉(zhuǎn)化文本信息為視頻內(nèi)容,使得生成的視頻不僅忠實(shí)于原文意圖,還能豐富展現(xiàn)文本的細(xì)微情感和場(chǎng)景。
03 高清晰度與豐富細(xì)節(jié)
與早期的視頻生成模型相比,Etna在視頻清晰度和圖像細(xì)節(jié)方面取得了顯著進(jìn)步。這意味著Etna能夠產(chǎn)生高質(zhì)量的視頻內(nèi)容,每個(gè)場(chǎng)景的細(xì)節(jié)都被精細(xì)呈現(xiàn),為觀眾帶來身臨其境的視覺享受。
04 技術(shù)架構(gòu)的創(chuàng)新
Etna模型融合了diffusion模型和transformer模型的優(yōu)勢(shì),通過這種結(jié)合,形成了一種高效且先進(jìn)的新型模型架構(gòu)。這不僅提升了模型的生成效率,還保證了生成內(nèi)容的高質(zhì)量和高一致性。
05 訓(xùn)練數(shù)據(jù)的獨(dú)特選擇
與傳統(tǒng)模型主要采用靜態(tài)圖像作為訓(xùn)練數(shù)據(jù)不同,Etna模型采用的是視頻數(shù)據(jù),這種方法更符合其生成目標(biāo)的本質(zhì)。通過優(yōu)化的patch處理方法,Etna模型在訓(xùn)練過程中能更有效地理解和模擬動(dòng)態(tài)場(chǎng)景,從而提升最終視頻的自然度和真實(shí)感。
Etna模型生成的視頻
國(guó)內(nèi)視頻生成領(lǐng)域方興未艾,我們相信,Etna文生視頻模型將以更為卓越的效能和創(chuàng)造力,有力滿足合作伙伴在視頻生成領(lǐng)域日益增長(zhǎng)的需求,同時(shí)也將進(jìn)一步推動(dòng)公司AI業(yè)務(wù)發(fā)展,與公司自主研發(fā)的AI功能集成app“靈犀妙筆AI”共同開啟AI多模態(tài)應(yīng)用新篇章。
部分內(nèi)容來源于七火山公眾號(hào):7Volcanoes七火山
七火山官網(wǎng):https://7volcanoes.com/