界面新聞記者 | 肖芳
界面新聞編輯 | 宋佳楠
掀起通用大模型價格戰(zhàn)后,字節(jié)跳動又要把多模態(tài)大模型的價格打下來。
12月18日,在火山引擎Force大會上,字節(jié)跳動正式發(fā)布豆包視覺理解模型,同時公布其售價為千tokens輸入0.003元,比行業(yè)平均價格便宜85%,相當(dāng)于一元錢就可處理284張720P的圖片。
這意味著,字節(jié)跳動在多模態(tài)大模型領(lǐng)域再次復(fù)制其在通用大模型領(lǐng)域大幅降價的打法。今年5月,該公司正式對外發(fā)布豆包大模型,并把價格降低了一個數(shù)量級,引發(fā)了阿里、百度等多家廠商大模型的降價潮。
火山引擎總裁譚待此前表示,降低成本是推動大模型快進(jìn)到“價值創(chuàng)造階段”的一個關(guān)鍵因素。
半年過去,豆包通用大模型在市場上的表現(xiàn)一定程度上驗證了譚待的判斷。字節(jié)跳動對外公布的數(shù)據(jù)顯示,截至12月中旬,豆包通用模型的日均tokens使用量已超過4萬億,較七個月前首次發(fā)布時增長了33倍。
大模型應(yīng)用正在向各行各業(yè)加速滲透。據(jù)界面新聞了解,豆包大模型已經(jīng)與八成主流汽車品牌合作,并接入到多家手機、PC等智能終端,覆蓋終端設(shè)備約3億臺,來自智能終端的豆包大模型調(diào)用量在半年時間內(nèi)增長100倍。最近3個月,豆包大模型在信息處理場景的調(diào)用量增長了39倍,客服與銷售場景增長16倍,硬件終端場景增長13倍,AI工具場景增長9倍,學(xué)習(xí)教育等場景也有大幅增長。
在此次發(fā)布會上,譚待再次強調(diào)豆包大模型市場份額的爆發(fā),得益于火山引擎“更強模型、更低成本、更易落地”的發(fā)展理念。
最新發(fā)布的豆包視覺理解模型大幅降價也基于同樣的邏輯,而字節(jié)跳動在多模態(tài)大模型上的野心還不止于此。
爭奪更多有AIGC需求的客戶
字節(jié)跳動方面稱,豆包視覺理解模型不僅能精準(zhǔn)識別視覺內(nèi)容,還具備出色的理解和推理能力,可根據(jù)圖像信息進(jìn)行復(fù)雜的邏輯計算,完成分析圖表、處理代碼、解答學(xué)科問題等任務(wù)。此外,該模型有著細(xì)膩的視覺描述和創(chuàng)作能力。
例如,其可以一眼識別動物的影子,并推斷出這是什么動物,也可識別地標(biāo)建筑、生活中不太熟悉的物品,并給出科普信息,同時還可識別出圖片中被全選位置的物體。
豆包戰(zhàn)略研究負(fù)責(zé)人周昊表示,豆包一直試圖讓用戶的輸入更快更方便,非常注重多模態(tài)的輸入和打磨,包括語音、視覺等能力,這些模型都已通過火山引擎開放給企業(yè)客戶。
根據(jù)譚待的判斷,豆包視覺理解模型在判卷指導(dǎo)、作文批改、兒童陪伴等教育場景,目的地推薦、外文菜單識別、著名建筑識別及講解等旅游場景,以及拍照找同款、商品搭配建議、廣告種草文案等電商營銷場景有較大的空間。目前,火山引擎已邀請數(shù)百家企業(yè)測試該模型。
和豆包視覺理解模型一同發(fā)布的,還有豆包3D生成模型。該模型與火山引擎數(shù)字孿生平臺veOmniverse結(jié)合使用,據(jù)稱可高效完成智能訓(xùn)練、數(shù)據(jù)合成和數(shù)字資產(chǎn)制作,成為一套支持AIGC創(chuàng)作的物理世界仿真模擬器。
界面新聞記者在現(xiàn)場體驗了用豆包3D生成模型生成一張桌子,輸入相關(guān)參數(shù),模型就可以生成相應(yīng)的3D圖像,還可以根據(jù)需求變換桌子的材質(zhì)。在裝修設(shè)計、游戲、元宇宙等領(lǐng)域,該模型都可以很好地輔助設(shè)計人員進(jìn)行創(chuàng)作。
這也是字節(jié)跳動在多模態(tài)大模型領(lǐng)域更大的野心所在。當(dāng)多模態(tài)模型的技術(shù)能力更強、價格更便宜,其將會在更多場景以及更多對AIGC有需求的企業(yè)中使用。
同時,火山引擎升級了火山方舟、扣子和HiAgent三款平臺產(chǎn)品,幫助企業(yè)構(gòu)建自身的AI能力中心,提升開發(fā)AI應(yīng)用的效率。其中,火山方舟發(fā)布了大模型記憶方案,并推出prefix cache和session cache API,以降低延遲和成本?;鹕椒街圻€帶來全域AI搜索,具備場景化搜索推薦一體化、企業(yè)私域信息整合等服務(wù)。
批量更新大模型
新模型發(fā)布的同時,豆包此前發(fā)布的多款大模型也迎來更新。
其中,豆包通用模型pro已全面對齊GPT-4o,使用價格僅為后者的1/8;音樂模型從生成60秒的簡單結(jié)構(gòu),升級到生成3分鐘的完整作品;文生圖模型2.1版本,首次實現(xiàn)精準(zhǔn)生成漢字和一句話P圖的產(chǎn)品化能力。
明年春季,字節(jié)跳動還將發(fā)布具備更長視頻生成能力的豆包視頻生成模型1.5版,豆包端到端實時語音模型也將很快上線,從而解鎖多角色演繹、方言轉(zhuǎn)換等新能力。
相比于市場同類產(chǎn)品,豆包系列大模型發(fā)布的時間并不算早,但一直保持較快速度的更新。豆包系列大模型最新的能力也通過即夢AI和豆包App開放給了普通用戶使用。
本月初,豆包網(wǎng)頁版和豆包App上線了圖片理解功能。測試顯示,該功能可識別圖片中包含的元素和基本特征。同時,用戶還可通過該功能詢問某景點所處的位置或某個角色出自哪部影視作品。
基于字節(jié)自研的豆包文生圖模型、豆包視頻生成模型,即夢AI近期上線了3款視頻生成模型,并接入了最新的豆包文生圖模型。測試顯示,用戶可輸入一句話一鍵生成海報,海報中文字生成的準(zhǔn)確率也大幅提升,讓圖片創(chuàng)作編輯更加靈活。
即夢AI隸屬于字節(jié)跳動旗下剪映業(yè)務(wù),于2024年5月上線,定位是AI內(nèi)容平臺,支持通過自然語言及圖片輸入,生成高質(zhì)量的圖像及視頻。
此前,界面新聞曾獨家報道,字節(jié)跳動旗下創(chuàng)作工具剪映和CapCut,在2024年實現(xiàn)了超過三位數(shù)收入增長,總收入正接近百億元人民幣。同時,剪映和CapCut的全球月活用戶,也已經(jīng)超過8億。
目前,字節(jié)跳動計劃提升即夢的產(chǎn)品優(yōu)先級,嘗試用新的路徑打造AI時代的“抖音”。這也意味著,字節(jié)跳動對大模型在消費端產(chǎn)品落地還有更高的預(yù)期。