盡管走上行業(yè)風(fēng)口不過一年多時間,但AI大模型的基礎(chǔ)研發(fā)和應(yīng)用場景的討論熱度始終高企。到2024年,AI大模型邁入應(yīng)用元年的聲音更是一時甚囂塵上,行業(yè)果真走出這一步了嗎?
事實(shí)上,鑒于“研發(fā)和應(yīng)用兩手抓”需要的能力與資本都巨大,行業(yè)之中配得上這一拷問的公司并不多:百度“文心一言”、阿里“通義千問”、昆侖萬維“天工”、商湯“日日新”、科大訊飛“星火”等等企業(yè)及其大模型,都是牌桌上的有力角逐者。
真正要在其中脫穎而出,不僅需要性能超前的基礎(chǔ)大模型,同時也要與之相配、并有“爆品”潛質(zhì)的產(chǎn)品應(yīng)用場景。對此,昆侖萬維以“天工3.0”和“天工SkyMusic”嘗試回答。
4月17日,昆侖萬維自研四千億級大語言模型“天工3.0”正式開啟公測并同步開源。這一采用4000億級參數(shù)的MoE混合專家模型,是目前全球模型參數(shù)最大、性能最強(qiáng)的MoE模型之一,相較上一代在模型語義理解、邏輯推理等多個性能維度均有明顯提升。
技術(shù)層之外,這可能也是AI應(yīng)用領(lǐng)域的潛在引領(lǐng)者之一。與“天工3.0”一同開啟公測的還有昆侖萬維的AI音樂生成大模型“天工SkyMusic”,該大模型在小范圍邀測時已經(jīng)激起不小的音樂創(chuàng)作浪潮。
而不僅是音樂,“天工3.0”當(dāng)前已將AI能力集成進(jìn)搜索、寫作、長文本閱讀、對話、代碼等多個高頻應(yīng)用場景,為大模型領(lǐng)域即將開啟的落地應(yīng)用之戰(zhàn)籌備砝碼。
至此,一個完整的AI大模型技術(shù)與應(yīng)用生態(tài)正在成型。這是AI大模型敘事最重要的章節(jié)之一,它可能就此建立一條行業(yè)分水嶺。
天工SkyMusic,引領(lǐng)AIGC音樂浪潮
自O(shè)penAI將大模型推上行業(yè)風(fēng)口以來,屬于中國市場的“百模大戰(zhàn)”已經(jīng)拉開序幕一年有余,進(jìn)入2024年,行業(yè)關(guān)注點(diǎn)開始從技術(shù)研發(fā)向應(yīng)用落地逐漸傾斜——無可置否,大模型的落地應(yīng)用才是決定其技術(shù)與價值的長尾指標(biāo)。
就所有內(nèi)容模態(tài)而言,音頻內(nèi)容是相比文本和圖片更好理解人類情感的方式,同時,音樂也是人類情感表達(dá)最充沛且不受地域和文化限制的內(nèi)容載體。因此,眾多落地場景之中,音樂創(chuàng)作成為普羅大眾最易上手和感受到趣味性的AIGC場景。對于AI公司而言,這是一個將自己推向C端市場、獲得大眾認(rèn)知的有利機(jī)會。
天工SkyMusic正是昆侖萬維面向音樂行業(yè)發(fā)布的大模型,此前于4月2日面向社會開啟邀測,今天隨天工3.0正式發(fā)布。該大模型自邀測階段就受到行業(yè)專家及音樂從業(yè)者的廣泛關(guān)注,它不僅是國內(nèi)唯一公開可用的AI音樂生成大模型,同時也是中國首款A(yù)I音樂大模型SOTA模型,更是中國的自研大模型技術(shù)第一次在AIGC領(lǐng)域領(lǐng)跑全球。
在大模型領(lǐng)域中,SOTA模型指的是被認(rèn)為是“State of the Art”(SOTA)的模型。正如OpenAI被視為文本大模型和視頻生成大模型的SOTA,"State of the Art"這個術(shù)語通常用于描述某個特定領(lǐng)域或技術(shù)中當(dāng)前最先進(jìn)、性能最好的技術(shù)或方法。
在與海外頂尖的AI音樂大模型Suno V3的橫向測評中,天工SkyMusic在人聲&BGM音質(zhì)、人聲自然度、發(fā)音可懂度等領(lǐng)域顯著領(lǐng)先對手,并以6.65分的綜合得分超越Suno V3,成為全球AI音樂SOTA模型。
目前,AI音樂生成有兩大技術(shù)路徑,分別是符號音樂生成路線和大模型音樂音頻生成路線。前者是指先標(biāo)注大量樂譜,再訓(xùn)練模型,最后生成的結(jié)果也是樂譜,需要額外的算法或工具將樂譜轉(zhuǎn)換成音樂;后者則是直接學(xué)習(xí)并生成音頻波形,樂器、人聲、旋律、音量、音符等等都一體化端到端生成,但這種方式不僅艱難、成功經(jīng)驗(yàn)稀缺,還需要高昂的算力和資金。
天工SkyMusic選擇的是技術(shù)意義上更難的音頻生成路線。不僅如此,由于這一路線所覆蓋的Song、BGM(Background Music)、Speach三個領(lǐng)域中,Song領(lǐng)域因?yàn)榘寺暋⑸杉夹g(shù)難度更高,始終沒有出現(xiàn)極佳方案。對此,天工SkyMusic投入大量資源實(shí)現(xiàn)了一定技術(shù)突破,使得該領(lǐng)域的生成質(zhì)量終于得到提升。
值得注意是,天工SkyMusic是音樂AIGC領(lǐng)域罕見公開自身技術(shù)路徑的產(chǎn)品。其由“Encoder-DiT-Decoder”三大核心模塊組成的技術(shù)路線圖,成為了“音頻路線+人聲Song路線”的重要技術(shù)參考。
相較于行業(yè)中的同類產(chǎn)品,天工大模型帶動天工SkyMusic擁有了更突出的產(chǎn)品優(yōu)勢。
例如,其擁有獨(dú)創(chuàng)的參考音樂生成與方言歌曲生成的能力。參考音樂生成是指,用戶可上傳自有參考音樂,或選擇“天工SkyMusic”資料庫中現(xiàn)有的參考音樂,從而生成風(fēng)格、唱腔類似的歌曲,這種能力能夠結(jié)合創(chuàng)意、技術(shù)和音樂制作技巧,讓用戶利用現(xiàn)有的音頻資源來創(chuàng)作出更加豐富多彩的音樂作品;
方言歌曲生成能力包含粵語、成都話、北京話、上海話等,這不僅能擴(kuò)大其受眾范圍,還能加強(qiáng)音樂創(chuàng)作生成的多樣性。同時,基于強(qiáng)大的數(shù)據(jù)庫及訓(xùn)練模型,天工SkyMusic還可打造出更具辨識度的自然人聲,這也將使其區(qū)別于普通音樂AIGC產(chǎn)品較濃的“AI人聲質(zhì)感”。
此外,天工SkyMusic可通過歌詞控制情緒變化,實(shí)現(xiàn)如顫音、歌劇、吟唱等多種歌唱技巧,還支持創(chuàng)作說唱、民謠、放克、古風(fēng)、電子等多種音樂風(fēng)格。
這種音樂創(chuàng)作上的靈活性和普適性,為天工SkyMusic的創(chuàng)作成果帶來了更多趣味。在其公布的大量demo中,《龍行龘龘》演繹了戲曲唱腔與電子音樂如何完美融合;《悟空》從歌詞上貼合了人物本身的傳奇色彩與不羈性格,其獨(dú)特理解與領(lǐng)悟最終與旋律合二為一;《Pack my bags》則詮釋了歐美流行音樂的精妙之處,其女聲唱腔兼具歐美女歌手的音色與技巧。
借此,天工SkyMusic得以大幅降低音樂創(chuàng)作的門檻,讓每個用戶都能夠更加容易創(chuàng)作屬于自己的旋律和歌曲,這使其有望成為行業(yè)中最重要的全民音樂創(chuàng)作工具之一。而隨著該音樂大模型的不斷進(jìn)化,它還有可能加入專業(yè)音樂人改善創(chuàng)作質(zhì)量、提高創(chuàng)作效率的輔助進(jìn)程中,逐步推動建立屬于自己的AI音樂創(chuàng)作者生態(tài)。
開源MoE大模型的時代來臨
事實(shí)上,天工SkyMusic只是昆侖萬維邁向AIGC大千世界的第一站。自天工3.0發(fā)布后,這一大模型將覆蓋聽、說、讀、寫、畫、唱等更多高頻AIGC應(yīng)用場景,正式開啟一個多模態(tài)大模型時代。
從單一模態(tài)逐漸過渡到多模態(tài),進(jìn)而構(gòu)建世界模型,是業(yè)界共識度最高的,邁向AGI的演進(jìn)路徑。而在OpenAI展現(xiàn)GPT-4和GPT-4V的能力之后,行業(yè)便一直在等候一個更具場景覆蓋力的多模態(tài)大模型,將大模型技術(shù)的應(yīng)用現(xiàn)實(shí)進(jìn)展再往前推一把。
昆侖萬維“天工3.0”正是登場于這樣的背景之下?!疤旃?.0”采用了4000億級參數(shù)MoE混合專家模型,是全球模型參數(shù)最大、性能最強(qiáng)的MoE模型之一,并已同步選擇開源。相較上一代,其在模型語義理解、邏輯推理、通用性、泛化性等領(lǐng)域均有明顯提升。
具體而言,“天工3.0”的模型能力提升集中于邏輯推理能力、語義理解能力、專項(xiàng)Agent訓(xùn)練和內(nèi)容創(chuàng)作能力四大方面。邏輯推理方面,“天工3.0”數(shù)學(xué)與推理能力均提升超過30%;語義理解則能夠更好理解和處理用戶自然語言Query中的復(fù)雜語義信息,包括隱喻、多義詞等。
專項(xiàng)Agent訓(xùn)練是此次模型能力提升的核心。當(dāng)前,AI Agent(智能體)已經(jīng)成為大模型技術(shù)的主流落地方向,而“天工3.0”針對模型獨(dú)立規(guī)劃、調(diào)用、組合外部工具及信息的模型Agent能力進(jìn)行了專項(xiàng)訓(xùn)練,使其能夠獨(dú)立生成并調(diào)用代碼,完成包括圖表繪制、工具調(diào)用、語義判斷等多項(xiàng)復(fù)雜用戶需求。
自此,“天工3.0”成為具備多個領(lǐng)域?qū)I(yè)知識和能力的全能專家。它能夠?qū)?fù)雜任務(wù)進(jìn)行拆解優(yōu)化,更深入理解用戶需求,也具備實(shí)時判斷并調(diào)用專用模式擴(kuò)展基座模型的能力,最大程度提升模型性能。諸如產(chǎn)業(yè)研究、產(chǎn)品橫評、信息分析、圖片生成、圖表繪制等需求場景,已經(jīng)可以由“天工3.0”較為高效覆蓋。
對AI用戶而言,“天工3.0”性能升級最直觀的價值就體現(xiàn)在AI搜索場景上。在信息呈現(xiàn)方式上,天工AI的研究模式可提高問答的專業(yè)性質(zhì),圍繞用戶的某個簡單指令進(jìn)行相關(guān)問題的延伸,自動生成研究大綱、圖譜、實(shí)踐總結(jié)、思維導(dǎo)圖,而增強(qiáng)模式可對模糊問題做進(jìn)一步引導(dǎo),幫助用戶獲取更有效的信息,提高回復(fù)質(zhì)量。
同時,天工3.0展現(xiàn)出行業(yè)同類AI搜索引擎所不具備的差異化優(yōu)勢?!粌H有文本回復(fù)能力,還有圖文并茂能力,在文本回答的同時附帶圖片或視頻,幫助用戶加強(qiáng)信息理解。
在內(nèi)容創(chuàng)作層面,基于專項(xiàng)Agent訓(xùn)練等帶來的性能提升,“天工3.0”的內(nèi)容創(chuàng)作能力已有跨階段性發(fā)展。
在基礎(chǔ)推理與理解方面,天工3.在數(shù)學(xué)推理能力的提升,也讓它能夠更準(zhǔn)確地理解用戶需求。
在上一代AI搜索、AI語音、AI對話、AI二次元漫畫生成等強(qiáng)大內(nèi)容創(chuàng)作能力基礎(chǔ)上,“天工3.0”又發(fā)展出了更強(qiáng)的多模態(tài)性能,例如在對話中,結(jié)合文本需求實(shí)時生成圖片、或?qū)崟r分析內(nèi)容及圖表的能力,成為了集合聽、說、讀、寫、搜、畫、看、唱等能力的千億級開源MoE大模型。
至此,天工3.0得以實(shí)現(xiàn)多模態(tài)的深度融合與應(yīng)用。對行業(yè)而言,這將帶來更高效智能的解決方案,同時降低AI技術(shù)的研發(fā)門檻和使用成本,最大化共享技術(shù)能力和經(jīng)驗(yàn)。
降低AIGC使用門檻,推動產(chǎn)業(yè)升級
從ChatGPT驚艷亮相那一天起,就持續(xù)關(guān)注AI大模型發(fā)展的用戶們,大概可以體會到“天工3.0”給行業(yè)帶來的顯著沖擊力——它不僅在技術(shù)層面提高了自身競爭力,也在實(shí)際應(yīng)用層面逐步覆蓋當(dāng)下高頻應(yīng)用場景,同時向搭建大模型應(yīng)用生態(tài)的目標(biāo)大步前進(jìn)。
在這一視角下,天工3.0的發(fā)布意義不只是大模型應(yīng)用場景的升級,它還加速了AI應(yīng)用的普及,促使更多企業(yè)和開發(fā)者參與到AI引領(lǐng)的科技變革中。
從天工SkyMusic到天工3.0釋放的多模態(tài)能力,行業(yè)已經(jīng)可以預(yù)測到昆侖萬維意圖掀起的AIGC浪潮。
因?yàn)椴粌H是中國首個音樂AIGC SOTA,作為全球最大規(guī)模開源MoE大模型,天工3.0有能力帶領(lǐng)更多領(lǐng)域的創(chuàng)作者群體自由出入AIGC的理解與生成的通道,利用多模態(tài)的深度融合與應(yīng)用,大幅降低內(nèi)容生產(chǎn)的門檻與成本,重新定義創(chuàng)作效率和質(zhì)量標(biāo)準(zhǔn)。這種影響力將逐步促進(jìn)整個內(nèi)容生產(chǎn)行業(yè)進(jìn)化,釋放更多的創(chuàng)作力和內(nèi)容價值。
這不僅是一家公司的使命愿景,也是一個行業(yè)實(shí)現(xiàn)突破的硬性階段目標(biāo)。為此,昆侖萬維已付諸多年實(shí)踐。
自發(fā)布天工系列大模型以來,昆侖萬維已在AGI和AIGC兩大方向上完成自己的業(yè)務(wù)矩陣布局:從千億級大語言模型到多模態(tài)AI內(nèi)容生成能力,從AI搜索、AI音樂、AI 社交等再到國內(nèi)領(lǐng)先的AI Agent開發(fā)平臺,無論是模型技術(shù)還是工程能力,都竭力站穩(wěn)國內(nèi)AI企業(yè)頭部陣營,做好為產(chǎn)業(yè)提供支撐的準(zhǔn)備。
在這背后,走向AGI和促進(jìn)AIGC應(yīng)用發(fā)展,始終是這家企業(yè)的目標(biāo)與使命。如今,隨著“天工3.0”的發(fā)布與展示,昆侖萬維在“All in AGI與AIGC”這一戰(zhàn)略征程上再下一城,即將把大模型戰(zhàn)事推向新的高潮。