正在閱讀:

GPT-4來了,支持多模態(tài),全面吊打ChatGPT,“完虐”標準化考試

掃一掃下載界面新聞APP

GPT-4來了,支持多模態(tài),全面吊打ChatGPT,“完虐”標準化考試

未來已至,開發(fā)者快沖。

編譯|智東西 ZeR0

編輯|漠影

智東西3月15日消息,今日凌晨,萬眾矚目的大型多模態(tài)模型GPT-4正式發(fā)布!

OpenAI發(fā)文稱,GPT-4能接受圖像和文本輸入,輸出文本內容,雖然在許多現(xiàn)實場景中的能力不如人類,但在各種專業(yè)和學術基準測試中已做到人類水平的表現(xiàn)。

它強大到什么程度呢?輸入一張手繪草圖,GPT-4能直接生成最終設計的網(wǎng)頁代碼。

它以高分通過各種標準化考試:SAT拿下700分,GRE幾乎滿分,邏輯能力吊打GPT-3.5。

GPT-4在高級推理能力上超越ChatGPT。在律師模擬考試中,ChatGPT背后的GPT-3.5排名在倒數(shù)10%左右,而GPT-4考到了前10%左右。

GPT-4的長度限制提升到32K tokens,即能處理超過25000個單詞的文本,并且可以使用長格式內容創(chuàng)建、擴展對話、文檔搜索和分析等。

OpenAI還貼心地發(fā)布了GPT-4開發(fā)者視頻,手把手教你生成代碼、檢查錯誤信息、報稅等。在視頻中,OpenAI聯(lián)合創(chuàng)始人兼總裁Greg Brockman說了句有點扎心的話:“它并不完美,但你也一樣?!?/p>

OpenAI正通過ChatGPT和API發(fā)布GPT-4的文本輸入功能,圖像輸入功能暫未開放。ChatGPT plus訂閱者可直接獲得有使用上限的GPT-4的試用權,4小時內最多只能發(fā)布100條信息。開發(fā)者也可以申請GPT-4 API,進入候補名單等待通過。

隨著時間的推移,OpenAI會將其自動更新為推薦的穩(wěn)定模型(你可以通過調用gpt-4-0314來鎖定當前版本,OpenAI將支持到6月14日)。定價是每1k prompt tokens 0.03美元,每1k completion tokens 0.06美元。默認速率限制是每分鐘40k tokens和每分鐘200個請求。

gpt-4的上下文長度為8192個tokens。還提供對32768個上下文(約50頁文本)版本gpt-4-32k的有限訪問,該版本也將隨著時間的推移自動更新(當前版本gpt-4-32k-0314,也將支持到6月14日)。價格是每1k prompt tokens 0.06美元,每1K completion tokens 0.12美元。

此外,OpenAI還開源了用于自動評估AI模型性能的框架OpenAI Evals,以便開發(fā)者更好的評測模型的優(yōu)缺點,從而指導團隊進一步改進模型。

01 GPT-4升級成“考霸”,基準測試表現(xiàn)大大優(yōu)于現(xiàn)有大模型

如果是隨意聊天,你可能不太能感受出GPT-3.5與GPT-4之間的區(qū)別。但當任務的復雜性達到足夠的閾值時,GPT-4將明顯比GPT-3.5更可靠、更有創(chuàng)意,并且能夠處理更細微的指令。

為了了解這兩種模型之間的區(qū)別,OpenAI在各種基準測試中進行了測試,包括最初為人類設計的模擬考試。他們使用了最新的公開試題(在奧林匹克競賽和AP自由答題的情況下)或購買 2022-2023年版的模擬考試題。

OpenAI沒有針對這些考試進行專門訓練。在模型訓練期間,考試中的少數(shù)問題被發(fā)現(xiàn)。但OpenAI認為結果具有代表性。詳情可參見GPT-4論文(https://cdn.openai.com/papers/gpt-4.pdf)。

OpenAI還在為機器學習模型設計的傳統(tǒng)基準測試中評估了GPT-4。GPT-4大大優(yōu)于現(xiàn)有的大型語言模型以及大多數(shù)最先進的(SOTA)模型,其中可能包括基準特定的制作或額外的訓練協(xié)議:

許多現(xiàn)有的機器學習(ML)基準測試都是用英語編寫的。為了初步了解它在其他語言中的性能,OpenAI使用Azure Translate將MMLU基準測試(一套涵蓋57個主題的14000個多項選擇題)翻譯成各種語言。

在測試的26種語言中的24種中,GPT-4優(yōu)于GPT-3.5和其他大型語言模型(Chinchilla,PaLM)的英語表現(xiàn),包括拉脫維亞語、威爾士語、斯瓦希里語等資源匱乏的語言。

OpenAI也在內部使用GPT-4,這對支持、銷售、內容審核和編程等功能有很大影響。OpenAI還使用它來協(xié)助人類評估AI輸出,開始了其對齊策略的第二階段。

02 描述照片、看懂圖表、解答論文

GPT-4可以接受文本和圖像提示,這與純文本設置并行,允許用戶指定任何視覺或語言任務。

具體來說,給定由穿插的文本和圖像組成的輸入,它能夠生成自然語言、代碼等文本輸出。在生成帶有文本和照片的文檔、圖表或屏幕截圖等方面,GPT-4展示了與純文本輸入類似的功能。

此外,GPT-4還可以使用為純文本語言模型開發(fā)的測試時(test-time)技術進行增強,包括少量標注數(shù)據(jù)(few-shot)和思維鏈(CoF,chain-of-thought)提示。圖像輸入仍處于研究預覽階段,尚未公開。

OpenAI在官網(wǎng)展示了7個視覺輸入的例子。

1、描述多張圖片內容,發(fā)現(xiàn)不合常理之處

輸入一張由三張圖片拼成的圖,用戶輸入“這張圖有什么奇怪的地方?一張圖一張圖地描述”,GPT-4會分別對每張圖中的內容進行描述,并指出這幅圖把一個大而過時的VGA接口插入一個小而現(xiàn)代的智能手機充電端口是荒謬的。

2、根據(jù)圖表,推理作答

用戶問格魯吉亞和西亞的平均每日肉類消費量總和是多少,讓GPT-4在給答案前提供一個循序漸進的推理,GPT-4也能按需作答。

3、看圖考試

用戶也可以直接給一張考試題的照片,讓GPT-4一步步思考作答。

4、簡練指出圖片的違和之處

用戶問“這張圖片有什么不尋常之處”時,GPT-4簡練地回答出“一名男子正在行駛中的出租車車頂上在熨衣板上熨燙衣服”。

5、閱讀論文,總結摘要與解釋圖表

給幾張論文的照片,GPT-4可以做總結,也可以對用戶指定的圖片的內容進行展開解釋。

6、解讀“雞塊地圖”

讓GPT-4解釋圖中的模因(meme),GPT-4回答說這是個笑話,結合了太空中的地球照片和雞塊這兩個不相關的東西。

7、理解漫畫含義

最后一個示例是讓GPT-4解釋這張漫畫,GPT-4認為它諷刺了統(tǒng)計學習和神經網(wǎng)絡在提高模型性能方面的差異。

OpenAI通過在一套狹窄的標準學術視覺基準上評估GPT-4的性能來預覽。但這些數(shù)字并不能完全代表它的能力,因為OpenAI不斷發(fā)現(xiàn)該模型能夠處理的新的和令人興奮的任務。

OpenAI計劃很快發(fā)布進一步的分析和評估數(shù)字,以及對測試時技術影響的徹底調查。

此外,OpenAI一直在研究其關于定義AI行為的文章中概述計劃的各方面,包括可操縱性。與擁有固定冗長、語調、風格的ChatGPT不同,開發(fā)者(很快還有ChatGPT用戶)現(xiàn)可通過在“系統(tǒng)”消息中描述這些方向來規(guī)定他們的AI的風格和任務。

系統(tǒng)消息(system messages)允許API用戶在一定范圍內自定義用戶體驗。OpenAI將在這方面繼續(xù)做改進(特別是知道系統(tǒng)消息是“越獄”當前模型的最簡單方法,即對邊界的遵守并不完美),但OpenAI鼓勵用戶嘗試一下,并將想法告知他們。

關于可操縱性,OpenAI展示了3個示例。

第一個示例是讓GPT-4作為一位總是以蘇格拉底風格回應的導師,不直接給學生求解某個線性方程組的答案,而是通過將那個問題拆分成更簡單的部分,引導學生學會獨立思考。

第二個示例是讓GPT-4變成“莎士比亞的海盜”,忠于自己的個性,可以看到它在多輪對話過程中時刻保持著自己的“人設”。

第三個示例是讓GPT-4成為一名AI助手,總是用json編寫響應輸出,然后GPT-4的回答畫風就變成了這樣:

03 迄今最好的真實性、穩(wěn)定性、可控性

OpenAI稱其團隊花了6個月的時間,使用對抗性測試程序和從ChatGPT得到的經驗教訓,對GPT-4進行迭代調整,在真實性、可控制性等方面取得了有史以來最好的結果(仍遠非完美)。

過去兩年里,OpenAI重建了整個深度學習堆棧,并與微軟Azure云平臺一起為其工作負載從頭開始共同設計了一臺超級計算機。

一年前,OpenAI訓練GPT-3.5作為系統(tǒng)的第一次“試運行”,發(fā)現(xiàn)并修復了一些錯誤并改進了其理論基礎。結果,GPT-4訓練運行(至少對OpenAI而言)前所未有地穩(wěn)定,成為OpenAI能夠提前準確預測其訓練性能的第一個大型模型。

隨著繼續(xù)專注于可靠的擴展,OpenAI的目標是完善其方法,以幫助自身越來越多地提前預測和準備未來的能力。OpenAI認為這對安全至關重要。

與以前的GPT模型一樣,GPT-4基礎模型經過訓練可以預測文檔中的下一個單詞,并且使用公開可用的數(shù)據(jù)(例如互聯(lián)網(wǎng)數(shù)據(jù))以及OpenAI已獲得許可的數(shù)據(jù)進行訓練。這些數(shù)據(jù)是網(wǎng)絡規(guī)模的數(shù)據(jù)語料庫,包括數(shù)學問題的正確和錯誤解決方案、弱推理和強推理、自相矛盾和一致的陳述,并代表各種各樣的意識形態(tài)和想法。

因此,當有問題提示時,基礎模型能以多種方式進行響應,這些方式可能與用戶意圖相去甚遠。為了使其與護欄(guardrails)內的用戶意圖保持一致,OpenAI使用人類反饋強化學習(RLHF)對模型行為進行微調。

需注意的是,模型的能力似乎主要來自預訓練過程——RLHF并不會提高考試成績(如果不積極努力,它實際上會降低考試成績)。但是模型的控制來自訓練后的過程——基礎模型需要快速的工程設計來知道它應該回答問題。

04 GPT-4的局限性:不完全可靠

盡管功能更加強大,但GPT-4與早期的GPT模型具有相似的局限性。

最重要的是,它仍然不完全可靠(存在事實性“幻覺”并出現(xiàn)推理錯誤)。在使用語言模型輸出時應格外小心,特別是在高風險上下文中,使用符合特定用例需求的確切協(xié)議(例如人工審查、附加上下文的基礎或完全避免高風險使用) 。

不過,GPT-4相對于以前的模型(它們本身在每次迭代中都在改進)顯著減少了幻覺。在OpenAI的內部對抗性真實性評估中,GPT-4的得分比 GPT-3.5高40%。

OpenAI在TruthfulQA等外部基準測試上取得了進展,它測試了模型將事實與對抗性選擇的一組錯誤陳述分開的能力。這些問題與事實不正確的答案相匹配,這些答案在統(tǒng)計上很有吸引力。

GPT-4基本模型在這項任務上只比GPT-3.5稍微好一點;但在RLHF訓練(應用與GPT-3.5相同的過程)后,存在很大的差距。

檢查下面的一些例子,GPT-4拒絕選擇常見的諺語(你教不了老狗新技能,即“年老難學藝”),但它仍然會遺漏一些微妙的細節(jié)(埃爾維斯·普雷斯利不是演員之子)。

GPT-4的輸出可能存在各種偏差,OpenAI還有更多工作要做。

GPT-4普遍缺乏對絕大部分數(shù)據(jù)中斷后(2021年9月)發(fā)生的事件的了解,也沒有從經驗中吸取教訓。它有時會犯一些簡單的推理錯誤,這些錯誤似乎與跨多個領域的能力不相稱,或者在接受用戶明顯的虛假陳述時過于輕信。

有時它會像人類一樣在難題上失敗,例如在它生成的代碼中引入安全漏洞。

GPT-4也可能自信地在其預測中犯錯,在可能出錯時沒有仔細檢查工作。有趣的是,基礎預訓練模型經過高度校準(它對答案的預測置信度通常與正確概率相匹配)。然而,通過OpenAI目前的后訓練過程,校準減少了。

05 OpenAI如何規(guī)避風險?

OpenAI一直在對GPT-4進行迭代,以使其從訓練開始就更安全、更一致。其工作包括預訓練數(shù)據(jù)的選擇和過濾、評估和專家參與、模型安全改進以及監(jiān)控和執(zhí)行。

GPT-4會帶來與之前模型類似的風險,例如生成有害建議、錯誤代碼或不準確信息。同時GPT-4的附加功能會帶來新的風險面。

為了了解這些風險的程度,OpenAI聘請了50多位來自AI對齊風險、網(wǎng)絡安全、生物風險、信任和安全以及國際安全等領域的專家來對模型進行對抗性測試。他們的發(fā)現(xiàn)使OpenAI能夠在需要專業(yè)知識進行評估的高風險領域測試模型行為。這些專家的反饋和數(shù)據(jù)用于模型改進。

GPT-4在RLHF訓練期間加入了一個額外的安全獎勵信號,通過訓練模型拒絕對此類內容的請求來減少有害輸出。獎勵由GPT-4零樣本分類器提供,該分類器根據(jù)安全相關提示判斷安全邊界和完成方式。為了防止模型拒絕有效請求,OpenAI從各種來源收集了多樣化的數(shù)據(jù)集,并在允許和不允許的類別上應用安全獎勵信號(具有正值或負值)。

與GPT-3.5相比,其緩解措施顯著改善了GPT-4的許多安全特性,已將模型響應禁止內容請求的可能性降低了82%,并且GPT-4根據(jù)OpenAI的政策響應敏感請求(如醫(yī)療建議和自我傷害)的頻率提高了29%。

 

總的來說,OpenAI的模型級干預提高了引發(fā)不良行為的難度,但依然無法做到完全規(guī)避。OpenAI強調目前需用部署時安全技術(如監(jiān)控濫用)來補充這些限制。

GPT-4和后續(xù)模型有可能以有益和有害的方式對社會產生重大影響。OpenAI正在與外部研究人員合作,以改進理解和評估潛在影響的方式,以及對未來系統(tǒng)中可能出現(xiàn)的危險功能進行評估,并將很快分享更多關于GPT-4和其他AI系統(tǒng)的潛在社會和經濟影響的想法。

06.構建可預測擴展的深度學習堆棧

GPT-4項目的一大重點是構建可預測擴展的深度學習堆棧。主要原因是,對于像GPT-4這樣的非常大的訓練運行,進行廣泛的特定于模型的調整是不可行的。OpenAI開發(fā)的基礎設施和優(yōu)化在多個尺度上具有非常可預測的行為。

為了驗證這種可擴展性,OpenAI通過從使用相同方法訓練但計算量減少到原來的1/10000的模型進行推斷,準確預測了GPT-4在其內部代碼庫(不屬于訓練集)上的最終損失:

現(xiàn)在OpenAI可以準確地預測其在訓練期間優(yōu)化的指標(損失),開始開發(fā)方法來預測更多可解釋的指標,例如成功預測了HumanEval數(shù)據(jù)集子集的通過率,從計算量減少至原來的1/1000的模型推斷:

有些能力仍難以預測。例如Inverse Scaling Prize是一項競賽,目的是尋找隨著模型計算量的增加而變得更糟的度量指標,而hindsight neglect是獲勝者之一。就像最近的另一個結果一樣,GPT-4 扭轉了趨勢:

OpenAI認為,準確預測未來的機器學習能力是安全的重要組成部分,但相對于其潛在影響而言,它并沒有得到足夠的重視。OpenAI正在加大力度開發(fā)方法,為社會提供更好的未來系統(tǒng)預期指導,并希望這成為該領域的共同目標。

07 開源軟件框架Evals,用于評估GPT-4

OpenAI正在開源其軟件框架OpenAI Evals,用于創(chuàng)建和運行基準測試以評估GPT-4等模型,同時逐個樣本地檢查它們的性能。

OpenAI使用Evals來指導其模型的開發(fā),其用戶可以應用該框架來跟蹤模型版本(現(xiàn)在將定期發(fā)布)的性能和不斷發(fā)展的產品集成。例如Stripe 使用Evals來補充他們的人工評估,以衡量其基于GPT的文檔工具的準確性。

因為代碼都是開源的,所以Evals支持編寫新的類來實現(xiàn)自定義評估邏輯。但根據(jù)OpenAI的經驗,許多基準測試都遵循少數(shù)“模板”之一,所以他們也囊括了內部最有用的模板(包括“模型分級評估”的模板——OpenAI發(fā)現(xiàn)GPT-4在檢查自己的工作方面驚人地強大)。通常構建新eval最有效的方法是實例化這些模板之一,并提供數(shù)據(jù)。

OpenAI希望Evals成為一種共享和眾包基準測試的工具,代表最廣泛的故障模式和困難任務。作為示例,OpenAI創(chuàng)建了一個邏輯難題eval,其中包含十個GPT-4失敗的提示。Evals也兼容現(xiàn)有的基準測試;OpenAI已有一些實現(xiàn)學術基準的筆記本和一些集成CoQA(小子集)的變體作示例。

OpenAI邀請每個人都使用Evals來測試其模型,提交最有趣的示例,給與貢獻、問題和反饋。

08 結語:OpenAI擴展深度學習的最新里程碑

GPT-4是OpenAI在擴展深度學習道路上的最新里程碑。OpenAI期待GPT-4成為一個有價值的工具,通過為許多應用提供動力來改善生活。

正如OpenAI所言,前方還有很多工作要做,這需要通過社區(qū)在模型之上構建、探索和貢獻的集體努力,來持續(xù)將模型變得越來越強。

本文為轉載內容,授權事宜請聯(lián)系原著作權人。

OpenAI

  • OpenAI將開源SimpleQA新基準,以衡量大模型真實性
  • 科技早報|OpenAI或與博通和臺積電共同制造自研芯片;小米15系列4499元起售

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

GPT-4來了,支持多模態(tài),全面吊打ChatGPT,“完虐”標準化考試

未來已至,開發(fā)者快沖。

編譯|智東西 ZeR0

編輯|漠影

智東西3月15日消息,今日凌晨,萬眾矚目的大型多模態(tài)模型GPT-4正式發(fā)布!

OpenAI發(fā)文稱,GPT-4能接受圖像和文本輸入,輸出文本內容,雖然在許多現(xiàn)實場景中的能力不如人類,但在各種專業(yè)和學術基準測試中已做到人類水平的表現(xiàn)。

它強大到什么程度呢?輸入一張手繪草圖,GPT-4能直接生成最終設計的網(wǎng)頁代碼。

它以高分通過各種標準化考試:SAT拿下700分,GRE幾乎滿分,邏輯能力吊打GPT-3.5。

GPT-4在高級推理能力上超越ChatGPT。在律師模擬考試中,ChatGPT背后的GPT-3.5排名在倒數(shù)10%左右,而GPT-4考到了前10%左右。

GPT-4的長度限制提升到32K tokens,即能處理超過25000個單詞的文本,并且可以使用長格式內容創(chuàng)建、擴展對話、文檔搜索和分析等。

OpenAI還貼心地發(fā)布了GPT-4開發(fā)者視頻,手把手教你生成代碼、檢查錯誤信息、報稅等。在視頻中,OpenAI聯(lián)合創(chuàng)始人兼總裁Greg Brockman說了句有點扎心的話:“它并不完美,但你也一樣。”

OpenAI正通過ChatGPT和API發(fā)布GPT-4的文本輸入功能,圖像輸入功能暫未開放。ChatGPT plus訂閱者可直接獲得有使用上限的GPT-4的試用權,4小時內最多只能發(fā)布100條信息。開發(fā)者也可以申請GPT-4 API,進入候補名單等待通過。

隨著時間的推移,OpenAI會將其自動更新為推薦的穩(wěn)定模型(你可以通過調用gpt-4-0314來鎖定當前版本,OpenAI將支持到6月14日)。定價是每1k prompt tokens 0.03美元,每1k completion tokens 0.06美元。默認速率限制是每分鐘40k tokens和每分鐘200個請求。

gpt-4的上下文長度為8192個tokens。還提供對32768個上下文(約50頁文本)版本gpt-4-32k的有限訪問,該版本也將隨著時間的推移自動更新(當前版本gpt-4-32k-0314,也將支持到6月14日)。價格是每1k prompt tokens 0.06美元,每1K completion tokens 0.12美元。

此外,OpenAI還開源了用于自動評估AI模型性能的框架OpenAI Evals,以便開發(fā)者更好的評測模型的優(yōu)缺點,從而指導團隊進一步改進模型。

01 GPT-4升級成“考霸”,基準測試表現(xiàn)大大優(yōu)于現(xiàn)有大模型

如果是隨意聊天,你可能不太能感受出GPT-3.5與GPT-4之間的區(qū)別。但當任務的復雜性達到足夠的閾值時,GPT-4將明顯比GPT-3.5更可靠、更有創(chuàng)意,并且能夠處理更細微的指令。

為了了解這兩種模型之間的區(qū)別,OpenAI在各種基準測試中進行了測試,包括最初為人類設計的模擬考試。他們使用了最新的公開試題(在奧林匹克競賽和AP自由答題的情況下)或購買 2022-2023年版的模擬考試題。

OpenAI沒有針對這些考試進行專門訓練。在模型訓練期間,考試中的少數(shù)問題被發(fā)現(xiàn)。但OpenAI認為結果具有代表性。詳情可參見GPT-4論文(https://cdn.openai.com/papers/gpt-4.pdf)。

OpenAI還在為機器學習模型設計的傳統(tǒng)基準測試中評估了GPT-4。GPT-4大大優(yōu)于現(xiàn)有的大型語言模型以及大多數(shù)最先進的(SOTA)模型,其中可能包括基準特定的制作或額外的訓練協(xié)議:

許多現(xiàn)有的機器學習(ML)基準測試都是用英語編寫的。為了初步了解它在其他語言中的性能,OpenAI使用Azure Translate將MMLU基準測試(一套涵蓋57個主題的14000個多項選擇題)翻譯成各種語言。

在測試的26種語言中的24種中,GPT-4優(yōu)于GPT-3.5和其他大型語言模型(Chinchilla,PaLM)的英語表現(xiàn),包括拉脫維亞語、威爾士語、斯瓦希里語等資源匱乏的語言。

OpenAI也在內部使用GPT-4,這對支持、銷售、內容審核和編程等功能有很大影響。OpenAI還使用它來協(xié)助人類評估AI輸出,開始了其對齊策略的第二階段。

02 描述照片、看懂圖表、解答論文

GPT-4可以接受文本和圖像提示,這與純文本設置并行,允許用戶指定任何視覺或語言任務。

具體來說,給定由穿插的文本和圖像組成的輸入,它能夠生成自然語言、代碼等文本輸出。在生成帶有文本和照片的文檔、圖表或屏幕截圖等方面,GPT-4展示了與純文本輸入類似的功能。

此外,GPT-4還可以使用為純文本語言模型開發(fā)的測試時(test-time)技術進行增強,包括少量標注數(shù)據(jù)(few-shot)和思維鏈(CoF,chain-of-thought)提示。圖像輸入仍處于研究預覽階段,尚未公開。

OpenAI在官網(wǎng)展示了7個視覺輸入的例子。

1、描述多張圖片內容,發(fā)現(xiàn)不合常理之處

輸入一張由三張圖片拼成的圖,用戶輸入“這張圖有什么奇怪的地方?一張圖一張圖地描述”,GPT-4會分別對每張圖中的內容進行描述,并指出這幅圖把一個大而過時的VGA接口插入一個小而現(xiàn)代的智能手機充電端口是荒謬的。

2、根據(jù)圖表,推理作答

用戶問格魯吉亞和西亞的平均每日肉類消費量總和是多少,讓GPT-4在給答案前提供一個循序漸進的推理,GPT-4也能按需作答。

3、看圖考試

用戶也可以直接給一張考試題的照片,讓GPT-4一步步思考作答。

4、簡練指出圖片的違和之處

用戶問“這張圖片有什么不尋常之處”時,GPT-4簡練地回答出“一名男子正在行駛中的出租車車頂上在熨衣板上熨燙衣服”。

5、閱讀論文,總結摘要與解釋圖表

給幾張論文的照片,GPT-4可以做總結,也可以對用戶指定的圖片的內容進行展開解釋。

6、解讀“雞塊地圖”

讓GPT-4解釋圖中的模因(meme),GPT-4回答說這是個笑話,結合了太空中的地球照片和雞塊這兩個不相關的東西。

7、理解漫畫含義

最后一個示例是讓GPT-4解釋這張漫畫,GPT-4認為它諷刺了統(tǒng)計學習和神經網(wǎng)絡在提高模型性能方面的差異。

OpenAI通過在一套狹窄的標準學術視覺基準上評估GPT-4的性能來預覽。但這些數(shù)字并不能完全代表它的能力,因為OpenAI不斷發(fā)現(xiàn)該模型能夠處理的新的和令人興奮的任務。

OpenAI計劃很快發(fā)布進一步的分析和評估數(shù)字,以及對測試時技術影響的徹底調查。

此外,OpenAI一直在研究其關于定義AI行為的文章中概述計劃的各方面,包括可操縱性。與擁有固定冗長、語調、風格的ChatGPT不同,開發(fā)者(很快還有ChatGPT用戶)現(xiàn)可通過在“系統(tǒng)”消息中描述這些方向來規(guī)定他們的AI的風格和任務。

系統(tǒng)消息(system messages)允許API用戶在一定范圍內自定義用戶體驗。OpenAI將在這方面繼續(xù)做改進(特別是知道系統(tǒng)消息是“越獄”當前模型的最簡單方法,即對邊界的遵守并不完美),但OpenAI鼓勵用戶嘗試一下,并將想法告知他們。

關于可操縱性,OpenAI展示了3個示例。

第一個示例是讓GPT-4作為一位總是以蘇格拉底風格回應的導師,不直接給學生求解某個線性方程組的答案,而是通過將那個問題拆分成更簡單的部分,引導學生學會獨立思考。

第二個示例是讓GPT-4變成“莎士比亞的海盜”,忠于自己的個性,可以看到它在多輪對話過程中時刻保持著自己的“人設”。

第三個示例是讓GPT-4成為一名AI助手,總是用json編寫響應輸出,然后GPT-4的回答畫風就變成了這樣:

03 迄今最好的真實性、穩(wěn)定性、可控性

OpenAI稱其團隊花了6個月的時間,使用對抗性測試程序和從ChatGPT得到的經驗教訓,對GPT-4進行迭代調整,在真實性、可控制性等方面取得了有史以來最好的結果(仍遠非完美)。

過去兩年里,OpenAI重建了整個深度學習堆棧,并與微軟Azure云平臺一起為其工作負載從頭開始共同設計了一臺超級計算機。

一年前,OpenAI訓練GPT-3.5作為系統(tǒng)的第一次“試運行”,發(fā)現(xiàn)并修復了一些錯誤并改進了其理論基礎。結果,GPT-4訓練運行(至少對OpenAI而言)前所未有地穩(wěn)定,成為OpenAI能夠提前準確預測其訓練性能的第一個大型模型。

隨著繼續(xù)專注于可靠的擴展,OpenAI的目標是完善其方法,以幫助自身越來越多地提前預測和準備未來的能力。OpenAI認為這對安全至關重要。

與以前的GPT模型一樣,GPT-4基礎模型經過訓練可以預測文檔中的下一個單詞,并且使用公開可用的數(shù)據(jù)(例如互聯(lián)網(wǎng)數(shù)據(jù))以及OpenAI已獲得許可的數(shù)據(jù)進行訓練。這些數(shù)據(jù)是網(wǎng)絡規(guī)模的數(shù)據(jù)語料庫,包括數(shù)學問題的正確和錯誤解決方案、弱推理和強推理、自相矛盾和一致的陳述,并代表各種各樣的意識形態(tài)和想法。

因此,當有問題提示時,基礎模型能以多種方式進行響應,這些方式可能與用戶意圖相去甚遠。為了使其與護欄(guardrails)內的用戶意圖保持一致,OpenAI使用人類反饋強化學習(RLHF)對模型行為進行微調。

需注意的是,模型的能力似乎主要來自預訓練過程——RLHF并不會提高考試成績(如果不積極努力,它實際上會降低考試成績)。但是模型的控制來自訓練后的過程——基礎模型需要快速的工程設計來知道它應該回答問題。

04 GPT-4的局限性:不完全可靠

盡管功能更加強大,但GPT-4與早期的GPT模型具有相似的局限性。

最重要的是,它仍然不完全可靠(存在事實性“幻覺”并出現(xiàn)推理錯誤)。在使用語言模型輸出時應格外小心,特別是在高風險上下文中,使用符合特定用例需求的確切協(xié)議(例如人工審查、附加上下文的基礎或完全避免高風險使用) 。

不過,GPT-4相對于以前的模型(它們本身在每次迭代中都在改進)顯著減少了幻覺。在OpenAI的內部對抗性真實性評估中,GPT-4的得分比 GPT-3.5高40%。

OpenAI在TruthfulQA等外部基準測試上取得了進展,它測試了模型將事實與對抗性選擇的一組錯誤陳述分開的能力。這些問題與事實不正確的答案相匹配,這些答案在統(tǒng)計上很有吸引力。

GPT-4基本模型在這項任務上只比GPT-3.5稍微好一點;但在RLHF訓練(應用與GPT-3.5相同的過程)后,存在很大的差距。

檢查下面的一些例子,GPT-4拒絕選擇常見的諺語(你教不了老狗新技能,即“年老難學藝”),但它仍然會遺漏一些微妙的細節(jié)(埃爾維斯·普雷斯利不是演員之子)。

GPT-4的輸出可能存在各種偏差,OpenAI還有更多工作要做。

GPT-4普遍缺乏對絕大部分數(shù)據(jù)中斷后(2021年9月)發(fā)生的事件的了解,也沒有從經驗中吸取教訓。它有時會犯一些簡單的推理錯誤,這些錯誤似乎與跨多個領域的能力不相稱,或者在接受用戶明顯的虛假陳述時過于輕信。

有時它會像人類一樣在難題上失敗,例如在它生成的代碼中引入安全漏洞。

GPT-4也可能自信地在其預測中犯錯,在可能出錯時沒有仔細檢查工作。有趣的是,基礎預訓練模型經過高度校準(它對答案的預測置信度通常與正確概率相匹配)。然而,通過OpenAI目前的后訓練過程,校準減少了。

05 OpenAI如何規(guī)避風險?

OpenAI一直在對GPT-4進行迭代,以使其從訓練開始就更安全、更一致。其工作包括預訓練數(shù)據(jù)的選擇和過濾、評估和專家參與、模型安全改進以及監(jiān)控和執(zhí)行。

GPT-4會帶來與之前模型類似的風險,例如生成有害建議、錯誤代碼或不準確信息。同時GPT-4的附加功能會帶來新的風險面。

為了了解這些風險的程度,OpenAI聘請了50多位來自AI對齊風險、網(wǎng)絡安全、生物風險、信任和安全以及國際安全等領域的專家來對模型進行對抗性測試。他們的發(fā)現(xiàn)使OpenAI能夠在需要專業(yè)知識進行評估的高風險領域測試模型行為。這些專家的反饋和數(shù)據(jù)用于模型改進。

GPT-4在RLHF訓練期間加入了一個額外的安全獎勵信號,通過訓練模型拒絕對此類內容的請求來減少有害輸出。獎勵由GPT-4零樣本分類器提供,該分類器根據(jù)安全相關提示判斷安全邊界和完成方式。為了防止模型拒絕有效請求,OpenAI從各種來源收集了多樣化的數(shù)據(jù)集,并在允許和不允許的類別上應用安全獎勵信號(具有正值或負值)。

與GPT-3.5相比,其緩解措施顯著改善了GPT-4的許多安全特性,已將模型響應禁止內容請求的可能性降低了82%,并且GPT-4根據(jù)OpenAI的政策響應敏感請求(如醫(yī)療建議和自我傷害)的頻率提高了29%。

 

總的來說,OpenAI的模型級干預提高了引發(fā)不良行為的難度,但依然無法做到完全規(guī)避。OpenAI強調目前需用部署時安全技術(如監(jiān)控濫用)來補充這些限制。

GPT-4和后續(xù)模型有可能以有益和有害的方式對社會產生重大影響。OpenAI正在與外部研究人員合作,以改進理解和評估潛在影響的方式,以及對未來系統(tǒng)中可能出現(xiàn)的危險功能進行評估,并將很快分享更多關于GPT-4和其他AI系統(tǒng)的潛在社會和經濟影響的想法。

06.構建可預測擴展的深度學習堆棧

GPT-4項目的一大重點是構建可預測擴展的深度學習堆棧。主要原因是,對于像GPT-4這樣的非常大的訓練運行,進行廣泛的特定于模型的調整是不可行的。OpenAI開發(fā)的基礎設施和優(yōu)化在多個尺度上具有非??深A測的行為。

為了驗證這種可擴展性,OpenAI通過從使用相同方法訓練但計算量減少到原來的1/10000的模型進行推斷,準確預測了GPT-4在其內部代碼庫(不屬于訓練集)上的最終損失:

現(xiàn)在OpenAI可以準確地預測其在訓練期間優(yōu)化的指標(損失),開始開發(fā)方法來預測更多可解釋的指標,例如成功預測了HumanEval數(shù)據(jù)集子集的通過率,從計算量減少至原來的1/1000的模型推斷:

有些能力仍難以預測。例如Inverse Scaling Prize是一項競賽,目的是尋找隨著模型計算量的增加而變得更糟的度量指標,而hindsight neglect是獲勝者之一。就像最近的另一個結果一樣,GPT-4 扭轉了趨勢:

OpenAI認為,準確預測未來的機器學習能力是安全的重要組成部分,但相對于其潛在影響而言,它并沒有得到足夠的重視。OpenAI正在加大力度開發(fā)方法,為社會提供更好的未來系統(tǒng)預期指導,并希望這成為該領域的共同目標。

07 開源軟件框架Evals,用于評估GPT-4

OpenAI正在開源其軟件框架OpenAI Evals,用于創(chuàng)建和運行基準測試以評估GPT-4等模型,同時逐個樣本地檢查它們的性能。

OpenAI使用Evals來指導其模型的開發(fā),其用戶可以應用該框架來跟蹤模型版本(現(xiàn)在將定期發(fā)布)的性能和不斷發(fā)展的產品集成。例如Stripe 使用Evals來補充他們的人工評估,以衡量其基于GPT的文檔工具的準確性。

因為代碼都是開源的,所以Evals支持編寫新的類來實現(xiàn)自定義評估邏輯。但根據(jù)OpenAI的經驗,許多基準測試都遵循少數(shù)“模板”之一,所以他們也囊括了內部最有用的模板(包括“模型分級評估”的模板——OpenAI發(fā)現(xiàn)GPT-4在檢查自己的工作方面驚人地強大)。通常構建新eval最有效的方法是實例化這些模板之一,并提供數(shù)據(jù)。

OpenAI希望Evals成為一種共享和眾包基準測試的工具,代表最廣泛的故障模式和困難任務。作為示例,OpenAI創(chuàng)建了一個邏輯難題eval,其中包含十個GPT-4失敗的提示。Evals也兼容現(xiàn)有的基準測試;OpenAI已有一些實現(xiàn)學術基準的筆記本和一些集成CoQA(小子集)的變體作示例。

OpenAI邀請每個人都使用Evals來測試其模型,提交最有趣的示例,給與貢獻、問題和反饋。

08 結語:OpenAI擴展深度學習的最新里程碑

GPT-4是OpenAI在擴展深度學習道路上的最新里程碑。OpenAI期待GPT-4成為一個有價值的工具,通過為許多應用提供動力來改善生活。

正如OpenAI所言,前方還有很多工作要做,這需要通過社區(qū)在模型之上構建、探索和貢獻的集體努力,來持續(xù)將模型變得越來越強。

本文為轉載內容,授權事宜請聯(lián)系原著作權人。