界面新聞記者 | 姜菁玲
公眾對ChatGPT的關(guān)注充分點燃了人工智能行業(yè)對大模型的熱情。
兩個月來,百度宣布加碼“文心一言”,原美團聯(lián)合創(chuàng)始人王慧文親自組建大模型創(chuàng)業(yè)團隊,出門問問創(chuàng)始人李志飛宣布將全力投入大模型創(chuàng)業(yè)。一時間,“大模型創(chuàng)業(yè)”成為人工智能圈的熱詞。
“ChatGPT的火爆就像一盞燈點亮了街區(qū),吸引了許多人的目光。但要讓這燈進(jìn)入千家萬戶,我們還需要關(guān)注背后發(fā)電機以及電網(wǎng),也就是大模型和相關(guān)技術(shù)生態(tài)?!敝窃囱芯吭涸洪L黃鐵軍在接受媒體采訪時表示。
智源研究院成立于2018年,是一家人工智能領(lǐng)域的非盈利性研發(fā)機構(gòu),在科技部和北京市委市政府的指導(dǎo)和支持下,由北京市科委和海淀區(qū)政府推動成立。智源研究院希望搭建一個高效有活力的AI研發(fā)平臺,致力于人工智能領(lǐng)域發(fā)展政策、學(xué)術(shù)思想、理論基礎(chǔ)、頂尖人才與產(chǎn)業(yè)生態(tài)的五大源頭創(chuàng)新。
在大模型領(lǐng)域,智源是國內(nèi)最早進(jìn)行大模型研究的科研機構(gòu)之一,曾經(jīng)推出全球最大的超大規(guī)模智能模型“悟道2.0”。
大模型通過同一模型完成多場景任務(wù),成為支撐無數(shù)智能應(yīng)用的基礎(chǔ)平臺,使得人工智能技術(shù)的大規(guī)模應(yīng)用變?yōu)榭赡?,加速了智能時代的真正到來。而一個大模型背后需要大數(shù)據(jù)、大算力以及強算法作為支持,訓(xùn)練大模型往往成本高昂且對技術(shù)要求極高。
為了幫助進(jìn)一步降低大模型開發(fā)和研究門檻,2月28日,智源研究院對外發(fā)布與多家企業(yè)、高校和科研機構(gòu)共建的大模型技術(shù)開源體系FlagOpen (飛智),包括大模型算法、模型、數(shù)據(jù)、工具、評測等重要組成部分,旨在建設(shè)大模型領(lǐng)域的“Linux”。
FlagOpen配套了六個模塊,分別是FlagAI、FlagPerf、FlagEval、FlagData、FlagStudio和FlagBoot:
FlageAI集成了很多主流大模型算法技術(shù),以及多種大模型并行處理和訓(xùn)練加速技術(shù),并支持微調(diào)。
FlagPerf搭建的AI硬件評測體系,支持多種深度學(xué)習(xí)框架,可及時跟進(jìn)最新主流模型評測需求,便于AI芯片廠商插入底層支撐工具,且不以排名為核心目標(biāo)。
FlagEval是覆蓋多個模態(tài)領(lǐng)域、包含評測維度的評測工具,首先開放的是近期很火的多模態(tài)領(lǐng)域-CLIP系列模型評測工具,支持多語言多任務(wù)、開箱即用。
FlagData數(shù)據(jù)工具開源項目集成包含清洗、標(biāo)注、壓縮、統(tǒng)計分析等功能在內(nèi)的多個數(shù)據(jù)處理工具與算法。此前,智源研究院已經(jīng)構(gòu)建了WuDaoCorpora語料庫。
FlagStudio是文生圖、文生音樂等藝術(shù)創(chuàng)作相關(guān)的開源項目集合,集合的算法和模型更貼合中文場景,當(dāng)前主要提供智源研究院文生圖相關(guān)能力的應(yīng)用。
FlagBoot是基于Scala開發(fā)的輕量級高并發(fā)微服務(wù)框架,默認(rèn)完全異步,且沒有宏、隱式轉(zhuǎn)換等晦澀難懂的代碼。極少的代碼量便于開發(fā)者輕易了解背后邏輯,而后進(jìn)行自定義修改。
基于FlagOpen,國內(nèi)外開發(fā)者可以快速開啟各種大模型的嘗試、開發(fā)和研究工作,企業(yè)可以低門檻進(jìn)行大模型研發(fā)。同時,F(xiàn)lagOpen大模型技術(shù)開源體系正逐步實現(xiàn)對多種深度學(xué)習(xí)框架、多種AI芯片的完整支持,支撐AI大模型軟硬件生態(tài)的百花齊放。未來,F(xiàn)lagOpen也將支撐全球AI企業(yè)、機構(gòu)基于FlagOpen構(gòu)建AI大模型軟件發(fā)行版本、平臺、商業(yè)軟件等。
黃鐵軍告訴界面新聞記者,企業(yè)選擇開源項目的驅(qū)動力并不是開源帶來的成本降低,而是問題與風(fēng)險的降低?!俺晒Φ拈_源項目由許多方共同維護,不會因為單一企業(yè)的問題導(dǎo)致整個開源軟件出現(xiàn)問題。同時,由于維護方眾多,開源軟件所出現(xiàn)的問題往往比閉源軟件更快被發(fā)現(xiàn)和解決。”
黃鐵軍還提到,當(dāng)前深度學(xué)習(xí)階段的人工智能系統(tǒng)具有難以透徹理解的技術(shù)特性,智能時代不應(yīng)封閉、必須開放、最好開源,特別是作為基礎(chǔ)平臺的大模型需要全面開源、接受監(jiān)督,才能得到信任、采納和廣泛應(yīng)用。
智源在大模型領(lǐng)域深耕多年。黃鐵軍稱,選擇現(xiàn)在公布FlagOpen開源體系的另一個原因,也是因為大模型的火爆驅(qū)使下,許多沒有接觸過大模型的初創(chuàng)團隊開始嘗試自己訓(xùn)練模型。“既然有這么多人想做這件事,我們在這個時候開源出來,是想給予我們的經(jīng)驗,讓他們更加順利往前走。”
“但大模型創(chuàng)業(yè)需要想清楚到底要做什么,終究還是要落到產(chǎn)品?!秉S鐵軍強調(diào),目前創(chuàng)業(yè)的火熱一方面是好事,體現(xiàn)出(做大模型)這件事的重要性,但另一方面需要警惕在沒想清楚的情況下就盲目投入,可能會帶來算力等重復(fù)性的資源浪費,產(chǎn)生泡沫問題。