文 | 智東西 ZeR0
編輯 | 漠影
智東西2月1日?qǐng)?bào)道,今日,美國AI初創(chuàng)公司OpenAI宣布推出一個(gè)AI文本分類器,用于輔助辨別文本是由人類還是AI(人工智能)編寫的。
這款A(yù)I工具可免費(fèi)試用。用戶將待檢測(cè)文本復(fù)制到文本框中,點(diǎn)擊Submit,系統(tǒng)就會(huì)評(píng)估該文本由AI系統(tǒng)生成的可能性,給出評(píng)估結(jié)果。
評(píng)估結(jié)果分成5類:非常不可能、不太可能、不清楚、可能、非??赡苁茿I生成。
目前試用這款A(yù)I文本分類器有一些限制,要求至少1000個(gè)字符,大約150-250個(gè)單詞。
該工具在檢測(cè)大于1000個(gè)字符的英文文本時(shí)效果更好,在檢測(cè)其他語言時(shí)的表現(xiàn)要差得多,而且無法辨別計(jì)算機(jī)代碼是由人類還是AI寫的。
AI文本分類器直通門:https://platform.openai.com/ai-text-classifier
01.針對(duì)AI濫用風(fēng)險(xiǎn),打造“克星”工具
AI文本分類器意在解決ChatGPT爆紅之后引發(fā)的爭議。
OpenAI在去年11月推出的ChatGPT聊天機(jī)器人,不僅能準(zhǔn)確回答專業(yè)問題,還能撰寫詩詞歌賦、廣告文案、散文小說、電影劇本、編程代碼等各類文本,大受使用者的稱贊追捧。
但隨著使用者越來越多,ChatGPT的問題也很快暴露出來。一方面是它本身的局限性,例如素材來源可能涉及抄襲、侵權(quán),或者有時(shí)會(huì)寫出看似正確實(shí)則錯(cuò)誤的文本;另一方面是濫用風(fēng)險(xiǎn),例如有些人會(huì)用AI工具作弊、散播虛假信息等。
為了緩解這些問題,OpenAI打造了一個(gè)全新的AI文本分類器。
這是一個(gè)GPT語言模型,對(duì)從各種來源收集的同一主題的人類編寫文本和AI編寫文本的數(shù)據(jù)集進(jìn)行了微調(diào),使用了來自5個(gè)不同組織的34個(gè)模型生成的文本,以檢測(cè)該文本由AI生成的可能性。
人類編寫文本的數(shù)據(jù)集來自三個(gè)來源:一個(gè)新的維基百科數(shù)據(jù)集、2019年收集的WebText數(shù)據(jù)集、一組作為訓(xùn)練InstructGPT的一部分收集的人類演示。
OpenAI將每個(gè)文本分成了“提示(prompt)”和“回復(fù)(response)”,根據(jù)這些提示,從OpenAI和其他組織訓(xùn)練的各種不同的語言模型中生成了回復(fù)。對(duì)于Web應(yīng)用程序,OpenAI調(diào)整了置信度閾值,以保持低誤報(bào)率;換句話說,只有當(dāng)分類器非常有信心時(shí),它才會(huì)將文本標(biāo)記為可能是AI編寫的。
OpenAI也貼心地為試用者備好了引用這款A(yù)I文本分類器的BibTex格式。
02.1秒給出分類結(jié)果,但偶爾錯(cuò)把人類當(dāng)AI
我們分別用幾段ChatGPT生成文本、幾段外媒新聞報(bào)道內(nèi)容,測(cè)了測(cè)AI文本分類器的表現(xiàn)。
首先,讓ChatGPT就中美前沿人工智能研究的不同之處分析了一通。
▲ChatGPT針對(duì)“中美前沿AI研究有哪些不同”問題的回答
接著將這些文字復(fù)制粘貼到分類器的文本框中。
▲AI文本分類器秒出判斷
結(jié)果,AI文本分類器1秒判斷出這非??赡苁茿I生成的(likely AI-generated)。
換幾段由人類寫的分析生成式AI風(fēng)險(xiǎn)的內(nèi)容:
▲AI分類器很快給出評(píng)估結(jié)果
AI文本分類器這次花得時(shí)間略長,2秒給出結(jié)果:非常不可能是AI生成的(very unlikely AI-generated)。評(píng)估結(jié)果依然準(zhǔn)確。
不過,再提升點(diǎn)難度,分類器就不太靈了。
知名AI研究人員Sebastian Raschka用莎士比亞《麥克白》第一頁的內(nèi)容做測(cè)試,發(fā)現(xiàn)AI文本分類器誤判為“很可能是AI生成的(likely AI-generated)”。
看來在AI文本分類器眼中,莎士比亞已經(jīng)走在了時(shí)代的前面。
Sebastian Raschka還從自己在2015年出版的Python ML書摘錄了好幾段,AI文本分類器的識(shí)別也不是很準(zhǔn),Randy Olson的前言部分被識(shí)別成“不清楚是否由AI生成”,他自己寫的前言部分被識(shí)別成“可能是AI生成的”,第一章部分被識(shí)別成“很可能是AI生成的”。
看到一系列令人啼笑皆非的測(cè)試結(jié)果后,他評(píng)價(jià)說:“在ChatGPT讓你的作業(yè)變得更簡單之后,它現(xiàn)在比以前更難了。現(xiàn)在,你必須多次修改自己的措辭,直到它們看起來不再是AI生成的,然后才能提交。”
03.識(shí)別正確率僅26%,AI文本分類器還有很多局限性
OpenAI在與訓(xùn)練集分布相同的驗(yàn)證集和挑戰(zhàn)集上評(píng)估了其AI文本分類器和之前發(fā)布的分類器,挑戰(zhàn)集由人類編寫的補(bǔ)全(completions)和來自在人類補(bǔ)全上訓(xùn)練的強(qiáng)語言模型的補(bǔ)全組成。
結(jié)果顯示,與OpenAI之前發(fā)布的分類器相比,全新AI文本分類器的可靠性要高得多,在驗(yàn)證集上的AUC得分為0.97,在挑戰(zhàn)集上為0.66(OpenAI之前發(fā)布的分類器在驗(yàn)證集上為0.95,在挑戰(zhàn)集上為0.43)。分類器可靠性通常隨著輸入文本長度的增加而提高。
OpenAI還發(fā)現(xiàn),隨著生成文本模型大小的增加,分類器的性能會(huì)下降。
換句話說,隨著語言模型規(guī)模變大,它的輸出對(duì)AI文本分類器來說更像人類編寫的文本。
OpenAI在博客中坦言其分類器“不完全可靠”,比如在低于1000個(gè)字符的短文本上非常不可靠,即使是較長的文本有時(shí)也會(huì)被錯(cuò)誤標(biāo)記,有時(shí)人類書寫的文本也會(huì)被錯(cuò)判成AI編寫的文本。
在對(duì)英語文本“挑戰(zhàn)集”的評(píng)估中,該分類器正確地將26%的AI創(chuàng)作文本識(shí)別為“可能是AI編寫的”,而在9%的時(shí)間內(nèi)錯(cuò)誤地將人類創(chuàng)作文本標(biāo)記為AI編寫。
OpenAI建議只對(duì)英文文本使用該AI文本分類器,因?yàn)樗谄渌Z言中的表現(xiàn)要差得多,而且在代碼上不可靠。此外,它也很難識(shí)別有標(biāo)準(zhǔn)正確答案的文本,例如你很難判斷“1+1=2”是人類還是AI寫的。AI文本分類器很可能在兒童編寫的文本和非英語文本上出錯(cuò),因?yàn)樗饕窃诔扇司帉懙挠⒄Z內(nèi)容上進(jìn)行訓(xùn)練。
AI書寫的文本可以通過編輯來逃開分類器的檢測(cè)。OpenAI分類器可根據(jù)成功的攻擊進(jìn)行更新和重新訓(xùn)練,但還不清楚從長期來看檢測(cè)是否具有優(yōu)勢(shì)。
OpenAI也提醒道,基于神經(jīng)網(wǎng)絡(luò)的分類器在訓(xùn)練數(shù)據(jù)之外的校準(zhǔn)很差。對(duì)于與訓(xùn)練集中的文本有很大不同的輸入,分類器有時(shí)可能對(duì)錯(cuò)誤的預(yù)測(cè)非常有信心。
04.結(jié)語:著重解決ChatGPT在教育領(lǐng)域構(gòu)成的風(fēng)險(xiǎn)
由于上述局限性,OpenAI建議在確定內(nèi)容來源的調(diào)查中只使用分類器作為眾多因素中的一個(gè),并對(duì)AI產(chǎn)生的虛假信息行為的風(fēng)險(xiǎn)、對(duì)大型語言模型在教育領(lǐng)域構(gòu)成的風(fēng)險(xiǎn)進(jìn)行研究。
OpenAI正與美國教育工作者合作,討論ChatGPT的能力和局限性,并為教育工作者開發(fā)了一個(gè)關(guān)于使用ChatGPT的初步資源,其中概述了一些用途以及相關(guān)的限制和考慮因素。
資源鏈接:
https://platform.openai.com/docs/chatgpt-education
通過將AI文本分類器公開,OpenAI希望從使用者那里獲得更多有價(jià)值的反饋,以進(jìn)一步改進(jìn)OpenAI在檢測(cè)AI生成文本方面的工作。