正在閱讀:

如何監(jiān)測通用大模型的安全水位?多位專家支招

掃一掃下載界面新聞APP

如何監(jiān)測通用大模型的安全水位?多位專家支招

如何動態(tài)、持續(xù)地監(jiān)測通用大模型的安全水位,是學(xué)界、企業(yè)界、政府部門必須共同面對的重大挑戰(zhàn)。

圖片來源:圖蟲創(chuàng)意

界面新聞記者 | 黃景源

界面新聞編輯 | 彭朋

截至2023年底,國內(nèi)已完成備案的生成式人工智能服務(wù)達(dá)60余款。人工智能大模型在解放生產(chǎn)力、提高生產(chǎn)效率的同時也帶來了一系列問題,例如隱私信息泄漏、版權(quán)歸屬糾紛、內(nèi)容真實(shí)性與合規(guī)性等,如何應(yīng)對隨之而來的安全、治理問題?

9月9日,2024年國家網(wǎng)絡(luò)安全宣傳周上海地區(qū)活動拉開帷幕,在當(dāng)日舉行的主論壇現(xiàn)場,教育部長江學(xué)者、復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院院長楊珉圍繞“AI大模型安全評測與治理”,介紹了人工智能系統(tǒng)安全治理領(lǐng)域的研究成果。

楊珉指出,ChatGPT等通用大模型正成為大家日常生活中頻繁使用的工具,并逐步向具身智能體進(jìn)化,在可預(yù)見的將來會出現(xiàn)AI社會,很多人工智能體會互相影響、協(xié)同工作。這種技術(shù)演變的趨勢背后,大模型生成內(nèi)容的安全風(fēng)險會逐漸外溢,進(jìn)而形成物理世界的風(fēng)險,如何動態(tài)、持續(xù)地監(jiān)測通用大模型的安全水位,是學(xué)界、企業(yè)界、政府部門必須共同面對的重大挑戰(zhàn)。

“當(dāng)前的安全技術(shù)遠(yuǎn)遠(yuǎn)滯后于的AI技術(shù)發(fā)展的整體速度?!?/span>楊珉表示,其中一個技術(shù)是基于個人的技巧發(fā)現(xiàn)安全問題,即誘導(dǎo)問題,它的特點(diǎn)是自動化程度低、成本高昂。楊珉及團(tuán)隊(duì)一直深耕于此,希望尋找到一個通用的普適性的測試集,客觀地檢視當(dāng)前大模型的安全合規(guī)能力。目前部分技術(shù)已在百度、阿里、華為落地應(yīng)用。

此外,楊珉團(tuán)隊(duì)還利用語言學(xué)中“轉(zhuǎn)換生成語法”的原理,建設(shè)了評測自動化、測試覆蓋率高和風(fēng)險發(fā)現(xiàn)能力強(qiáng)的測評平臺?;诖?,楊珉帶領(lǐng)團(tuán)隊(duì)在今年6月發(fā)布第一代測試集,測試的維度包含了歧視性內(nèi)容、商業(yè)違法違規(guī)、侵犯他人權(quán)益以及內(nèi)容不準(zhǔn)確不科學(xué)等31個子類。

楊珉表示, 未來將持續(xù)公布這種動態(tài)的測評結(jié)果,呈現(xiàn)產(chǎn)業(yè)之間在能力上的差異性,希望能助力整個行業(yè)生態(tài)的健康發(fā)展。

上海人工智能實(shí)驗(yàn)室綜合管理部、AI治理負(fù)責(zé)人王迎春總結(jié)指出,大模型的安全問題包括國家安全、行業(yè)安全、社會安全以及人工智能可控性等極端風(fēng)險。應(yīng)對路徑一是治理政策和規(guī)則,二是測評等技術(shù)路徑。

《人工智能安全治理框架》1.0版指出,人工智能系統(tǒng)設(shè)計(jì)、研發(fā)、訓(xùn)練、測試、部署、使用、維護(hù)等生命周期各環(huán)節(jié)都面臨安全風(fēng)險,既面臨自身技術(shù)缺陷、不足帶來的風(fēng)險,也面臨不當(dāng)使用、濫用甚至惡意利用帶來的安全風(fēng)險。

例如,以深度學(xué)習(xí)為代表的人工智能算法內(nèi)部運(yùn)行邏輯復(fù)雜,推理過程屬黑灰盒模式,可能導(dǎo)致輸出結(jié)果難以預(yù)測和確切歸因,如有異常難以快速修正和溯源追責(zé)。

王迎春指出,隨著模型能力的提升,執(zhí)行的任務(wù)更加復(fù)雜,對其的監(jiān)督能力已非人力能及,需要開發(fā)出更多新的技術(shù),將監(jiān)督信號設(shè)計(jì)到模型當(dāng)中,其中就包括上述自動化紅隊(duì)測試等。

他預(yù)言,下一代的大模型發(fā)展應(yīng)該是數(shù)字和物理融合的模型,會帶來新的安全風(fēng)險問題,需要提前進(jìn)行技術(shù)儲備,甚至在研發(fā)模型當(dāng)中就要做技術(shù)的研究。王迎春認(rèn)為,國內(nèi)對于大模型安全的應(yīng)對比較零散,不體系化,政府要構(gòu)建人工智能安全技術(shù)體系圖,有助于有關(guān)部門包括企業(yè)布局相應(yīng)技術(shù)研究,例如模型評測技術(shù)、模型內(nèi)生安全技術(shù)等。

事實(shí)上,針對模型算法安全、數(shù)據(jù)安全和系統(tǒng)安全等內(nèi)生安全風(fēng)險和網(wǎng)絡(luò)域、現(xiàn)實(shí)域、認(rèn)知域、倫理域等應(yīng)用安全風(fēng)險,剛剛發(fā)布的《人工智能安全治理框架》1.0版提出相應(yīng)技術(shù)應(yīng)對和綜合防治措施,以及人工智能安全開發(fā)應(yīng)用指引,為促進(jìn)人工智能健康發(fā)展和規(guī)范應(yīng)用,提供了基礎(chǔ)性、框架性技術(shù)指南。

針對模型算法、訓(xùn)練數(shù)據(jù)、算力設(shè)施、產(chǎn)品服務(wù)、應(yīng)用場景,上述框架提出通過安全軟件開發(fā)、數(shù)據(jù)質(zhì)量提升、安全建設(shè)運(yùn)維、測評監(jiān)測加固等技術(shù)手段提升人工智能產(chǎn)品及應(yīng)用的安全性、公平性、可靠性、魯棒性人工智能安全治理框架的措施。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

如何監(jiān)測通用大模型的安全水位?多位專家支招

如何動態(tài)、持續(xù)地監(jiān)測通用大模型的安全水位,是學(xué)界、企業(yè)界、政府部門必須共同面對的重大挑戰(zhàn)。

圖片來源:圖蟲創(chuàng)意

界面新聞記者 | 黃景源

界面新聞編輯 | 彭朋

截至2023年底,國內(nèi)已完成備案的生成式人工智能服務(wù)達(dá)60余款。人工智能大模型在解放生產(chǎn)力、提高生產(chǎn)效率的同時也帶來了一系列問題,例如隱私信息泄漏、版權(quán)歸屬糾紛、內(nèi)容真實(shí)性與合規(guī)性等,如何應(yīng)對隨之而來的安全、治理問題?

9月9日,2024年國家網(wǎng)絡(luò)安全宣傳周上海地區(qū)活動拉開帷幕,在當(dāng)日舉行的主論壇現(xiàn)場,教育部長江學(xué)者、復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院院長楊珉圍繞“AI大模型安全評測與治理”,介紹了人工智能系統(tǒng)安全治理領(lǐng)域的研究成果。

楊珉指出,ChatGPT等通用大模型正成為大家日常生活中頻繁使用的工具,并逐步向具身智能體進(jìn)化,在可預(yù)見的將來會出現(xiàn)AI社會,很多人工智能體會互相影響、協(xié)同工作。這種技術(shù)演變的趨勢背后,大模型生成內(nèi)容的安全風(fēng)險會逐漸外溢,進(jìn)而形成物理世界的風(fēng)險,如何動態(tài)、持續(xù)地監(jiān)測通用大模型的安全水位,是學(xué)界、企業(yè)界、政府部門必須共同面對的重大挑戰(zhàn)。

“當(dāng)前的安全技術(shù)遠(yuǎn)遠(yuǎn)滯后于的AI技術(shù)發(fā)展的整體速度?!?/span>楊珉表示,其中一個技術(shù)是基于個人的技巧發(fā)現(xiàn)安全問題,即誘導(dǎo)問題,它的特點(diǎn)是自動化程度低、成本高昂。楊珉及團(tuán)隊(duì)一直深耕于此,希望尋找到一個通用的普適性的測試集,客觀地檢視當(dāng)前大模型的安全合規(guī)能力。目前部分技術(shù)已在百度、阿里、華為落地應(yīng)用。

此外,楊珉團(tuán)隊(duì)還利用語言學(xué)中“轉(zhuǎn)換生成語法”的原理,建設(shè)了評測自動化、測試覆蓋率高和風(fēng)險發(fā)現(xiàn)能力強(qiáng)的測評平臺?;诖?,楊珉帶領(lǐng)團(tuán)隊(duì)在今年6月發(fā)布第一代測試集,測試的維度包含了歧視性內(nèi)容、商業(yè)違法違規(guī)、侵犯他人權(quán)益以及內(nèi)容不準(zhǔn)確不科學(xué)等31個子類。

楊珉表示, 未來將持續(xù)公布這種動態(tài)的測評結(jié)果,呈現(xiàn)產(chǎn)業(yè)之間在能力上的差異性,希望能助力整個行業(yè)生態(tài)的健康發(fā)展。

上海人工智能實(shí)驗(yàn)室綜合管理部、AI治理負(fù)責(zé)人王迎春總結(jié)指出,大模型的安全問題包括國家安全、行業(yè)安全、社會安全以及人工智能可控性等極端風(fēng)險。應(yīng)對路徑一是治理政策和規(guī)則,二是測評等技術(shù)路徑。

《人工智能安全治理框架》1.0版指出,人工智能系統(tǒng)設(shè)計(jì)、研發(fā)、訓(xùn)練、測試、部署、使用、維護(hù)等生命周期各環(huán)節(jié)都面臨安全風(fēng)險,既面臨自身技術(shù)缺陷、不足帶來的風(fēng)險,也面臨不當(dāng)使用、濫用甚至惡意利用帶來的安全風(fēng)險。

例如,以深度學(xué)習(xí)為代表的人工智能算法內(nèi)部運(yùn)行邏輯復(fù)雜,推理過程屬黑灰盒模式,可能導(dǎo)致輸出結(jié)果難以預(yù)測和確切歸因,如有異常難以快速修正和溯源追責(zé)。

王迎春指出,隨著模型能力的提升,執(zhí)行的任務(wù)更加復(fù)雜,對其的監(jiān)督能力已非人力能及,需要開發(fā)出更多新的技術(shù),將監(jiān)督信號設(shè)計(jì)到模型當(dāng)中,其中就包括上述自動化紅隊(duì)測試等。

他預(yù)言,下一代的大模型發(fā)展應(yīng)該是數(shù)字和物理融合的模型,會帶來新的安全風(fēng)險問題,需要提前進(jìn)行技術(shù)儲備,甚至在研發(fā)模型當(dāng)中就要做技術(shù)的研究。王迎春認(rèn)為,國內(nèi)對于大模型安全的應(yīng)對比較零散,不體系化,政府要構(gòu)建人工智能安全技術(shù)體系圖,有助于有關(guān)部門包括企業(yè)布局相應(yīng)技術(shù)研究,例如模型評測技術(shù)、模型內(nèi)生安全技術(shù)等。

事實(shí)上,針對模型算法安全、數(shù)據(jù)安全和系統(tǒng)安全等內(nèi)生安全風(fēng)險和網(wǎng)絡(luò)域、現(xiàn)實(shí)域、認(rèn)知域、倫理域等應(yīng)用安全風(fēng)險,剛剛發(fā)布的《人工智能安全治理框架》1.0版提出相應(yīng)技術(shù)應(yīng)對和綜合防治措施,以及人工智能安全開發(fā)應(yīng)用指引,為促進(jìn)人工智能健康發(fā)展和規(guī)范應(yīng)用,提供了基礎(chǔ)性、框架性技術(shù)指南。

針對模型算法、訓(xùn)練數(shù)據(jù)、算力設(shè)施、產(chǎn)品服務(wù)、應(yīng)用場景,上述框架提出通過安全軟件開發(fā)、數(shù)據(jù)質(zhì)量提升、安全建設(shè)運(yùn)維、測評監(jiān)測加固等技術(shù)手段提升人工智能產(chǎn)品及應(yīng)用的安全性、公平性、可靠性、魯棒性人工智能安全治理框架的措施。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。