正在閱讀:

盤前機會前瞻|阿里宣布視頻大模型萬相2.1開源!這幾家公司在文生視頻和AI短視頻領(lǐng)域已服務眾多客戶有望受益(附概念股)

掃一掃下載界面新聞APP

盤前機會前瞻|阿里宣布視頻大模型萬相2.1開源!這幾家公司在文生視頻和AI短視頻領(lǐng)域已服務眾多客戶有望受益(附概念股)

萬相2.1首次實現(xiàn)了中文文字視頻生成功能。

2月25日,從知情人士處獲悉,阿里巴巴將于今日晚間全面開源旗下視頻生成模型萬相2.1模型。今年1月,阿里旗下萬相剛宣布推出2.1版本模型升級,視頻生成、圖像生成兩大能力均獲得提升。在視頻生成方面,萬相2.1通過自研的高效VAE和DiT架構(gòu)增強了時空上下文建模能力,支持無限長1080P視頻的高效編解碼,首次實現(xiàn)了中文文字視頻生成功能,登上VBench榜單第一。

【機會前瞻】

2月25日,阿里巴巴集團宣布將旗下文生視頻模型“萬相2.1”全面開源。作為全球首個支持中英雙語、首個實現(xiàn)無限長1080P視頻編解碼的開源模型,萬相2.1的開放不僅打破了專業(yè)視頻創(chuàng)作的技術(shù)壁壘,更可能重構(gòu)全球AIGC產(chǎn)業(yè)的競爭格局。

萬相2.1采用最寬松的Apache2.0協(xié)議,14B和1.3B兩個參數(shù)規(guī)格的全部推理代碼和權(quán)重全部開源,全球開發(fā)者可在Github、HuggingFace和魔搭社區(qū)下載體驗。其中1.3B版本僅需8.2GB顯存就可以生成高質(zhì)量視頻,適用于二次模型開發(fā)和學術(shù)研究。

今年1月,阿里旗下萬相剛宣布推出2.1版本模型升級,視頻生成、圖像生成兩大能力均獲得提升。在視頻VAE方面,萬相2.1設(shè)計了創(chuàng)新的視頻編解碼方案,通過將視頻拆分成若干塊并緩存中間特征的方式,代替直接對長視頻的E2E編解碼過程,實現(xiàn)顯存使用與原始視頻長度無關(guān),支持無限長1080P視頻的高效編解碼。萬相2.1在視頻生成領(lǐng)域的權(quán)威評測集VBench上以總分84.7%的成績登頂,在運動幅度、多對象生成、空間關(guān)系等16個評分維度中的多個關(guān)鍵能力上拿下最高分。

萬相團隊的實驗結(jié)果顯示,在運動質(zhì)量、視覺質(zhì)量、風格和多目標等14個主要維度和26個子維度測試中,萬相均達到了業(yè)界領(lǐng)先表現(xiàn),并且斬獲5項第一。尤其在復雜運動和物理規(guī)律遵循上的表現(xiàn)上大幅提升,萬相能夠穩(wěn)定展現(xiàn)各種復雜的人物肢體運動,如旋轉(zhuǎn)、跳躍、轉(zhuǎn)身、翻滾等;能夠精準還原碰撞、反彈、切割等復雜真實物理場景。

自2023年8月起,阿里云相繼開源Qwen系列大語言模型,覆蓋從0.5B到110B的全尺寸參數(shù),形成全球最大的開源模型家族,衍生模型數(shù)量已突破10萬。此次萬相2.1的開源延續(xù)了這一戰(zhàn)略。

未經(jīng)正式授權(quán)嚴禁轉(zhuǎn)載本文,侵權(quán)必究。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

盤前機會前瞻|阿里宣布視頻大模型萬相2.1開源!這幾家公司在文生視頻和AI短視頻領(lǐng)域已服務眾多客戶有望受益(附概念股)

萬相2.1首次實現(xiàn)了中文文字視頻生成功能。

2月25日,從知情人士處獲悉,阿里巴巴將于今日晚間全面開源旗下視頻生成模型萬相2.1模型。今年1月,阿里旗下萬相剛宣布推出2.1版本模型升級,視頻生成、圖像生成兩大能力均獲得提升。在視頻生成方面,萬相2.1通過自研的高效VAE和DiT架構(gòu)增強了時空上下文建模能力,支持無限長1080P視頻的高效編解碼,首次實現(xiàn)了中文文字視頻生成功能,登上VBench榜單第一。

【機會前瞻】

2月25日,阿里巴巴集團宣布將旗下文生視頻模型“萬相2.1”全面開源。作為全球首個支持中英雙語、首個實現(xiàn)無限長1080P視頻編解碼的開源模型,萬相2.1的開放不僅打破了專業(yè)視頻創(chuàng)作的技術(shù)壁壘,更可能重構(gòu)全球AIGC產(chǎn)業(yè)的競爭格局。

萬相2.1采用最寬松的Apache2.0協(xié)議,14B和1.3B兩個參數(shù)規(guī)格的全部推理代碼和權(quán)重全部開源,全球開發(fā)者可在Github、HuggingFace和魔搭社區(qū)下載體驗。其中1.3B版本僅需8.2GB顯存就可以生成高質(zhì)量視頻,適用于二次模型開發(fā)和學術(shù)研究。

今年1月,阿里旗下萬相剛宣布推出2.1版本模型升級,視頻生成、圖像生成兩大能力均獲得提升。在視頻VAE方面,萬相2.1設(shè)計了創(chuàng)新的視頻編解碼方案,通過將視頻拆分成若干塊并緩存中間特征的方式,代替直接對長視頻的E2E編解碼過程,實現(xiàn)顯存使用與原始視頻長度無關(guān),支持無限長1080P視頻的高效編解碼。萬相2.1在視頻生成領(lǐng)域的權(quán)威評測集VBench上以總分84.7%的成績登頂,在運動幅度、多對象生成、空間關(guān)系等16個評分維度中的多個關(guān)鍵能力上拿下最高分。

萬相團隊的實驗結(jié)果顯示,在運動質(zhì)量、視覺質(zhì)量、風格和多目標等14個主要維度和26個子維度測試中,萬相均達到了業(yè)界領(lǐng)先表現(xiàn),并且斬獲5項第一。尤其在復雜運動和物理規(guī)律遵循上的表現(xiàn)上大幅提升,萬相能夠穩(wěn)定展現(xiàn)各種復雜的人物肢體運動,如旋轉(zhuǎn)、跳躍、轉(zhuǎn)身、翻滾等;能夠精準還原碰撞、反彈、切割等復雜真實物理場景。

自2023年8月起,阿里云相繼開源Qwen系列大語言模型,覆蓋從0.5B到110B的全尺寸參數(shù),形成全球最大的開源模型家族,衍生模型數(shù)量已突破10萬。此次萬相2.1的開源延續(xù)了這一戰(zhàn)略。

未經(jīng)正式授權(quán)嚴禁轉(zhuǎn)載本文,侵權(quán)必究。