正在閱讀:

OpenAI推出GPT-4,SAT數(shù)學(xué)超過89%人類考生,法律考試超過90%考生

掃一掃下載界面新聞APP

OpenAI推出GPT-4,SAT數(shù)學(xué)超過89%人類考生,法律考試超過90%考生

GPT-4 在其他各種考試中也表現(xiàn)出色。

界面新聞|范劍磊

文|Edu指南

3月15日 OpenAI 周二發(fā)布多模態(tài)大語言模型GPT-4,該模型是OpenAI 在調(diào)用和響應(yīng)深度學(xué)習(xí)模型制作方面的最新里程碑,并且在重要考試中勝過其大多數(shù)人類考生。

根據(jù) OpenAI 的描述,該模型展示了“在各種專業(yè)和學(xué)術(shù)領(lǐng)域?qū)?biāo)人類水平的表現(xiàn)”。GPT-4 在模擬律師考試中獲得了前10%的成績,而其前身 GPT-3.5(ChatGPT 的基礎(chǔ))得分排位在后 10% 左右。

GPT-4 在其他各種考試中也表現(xiàn)出色,例如美國高校入學(xué)考試 SAT 數(shù)學(xué)考試,其獲得了800 分中的 700 分成績。然而,它暫時(shí)并不具備所有學(xué)科能力,例如在AP英語語言和作文中僅獲得 2 分。

需要考慮的一件事:OpenAI 的 GPT 系列本質(zhì)上是一個(gè)反流引擎系列,利用它訓(xùn)練的材料并重新組裝它來解決用戶的查詢。有時(shí)是對的,有時(shí)是錯(cuò)的。它可以回憶考試的細(xì)節(jié)——而人類用戶可能很難對所有細(xì)節(jié)都記得清清楚楚,它的回復(fù)可能更像是對人類必須參加的各類考試的評論。

OpenAI 首席執(zhí)行官山姆奧特曼Sam Altman在談到 GPT-4 時(shí)承認(rèn):“它仍然存在缺陷,仍然有限,而且在第一次使用時(shí)可能讓人印象深刻,但當(dāng)人們花更多時(shí)間使用后可能做不到這個(gè)程度(即多輪對話查詢后得到的回應(yīng)可能出現(xiàn)缺陷)?!?/p>

GPT-4 是一個(gè)大型多模態(tài)模型,它支持通過文本和圖像輸入查詢,并以文本形式返回答案。當(dāng)前開發(fā)者可以通過列入候補(bǔ)名單的 GPT-4 API 等待使用,而個(gè)人用戶通過 ChatGPT Plus 訂閱使用。當(dāng)前基于圖像的輸入仍在完善中。

盡管增加了圖像輸入機(jī)制,但 OpenAI 并未公開或提供對其模型制作的相關(guān)信息。這家備受關(guān)注的公司選擇不公布有關(guān)其規(guī)模、訓(xùn)練方式以及流程中包含哪些數(shù)據(jù)的詳細(xì)信息。

“鑒于競爭格局和 GPT-4 等大型模型的安全影響,本報(bào)告不包含有關(guān)架構(gòu)(包括模型大小)、硬件、訓(xùn)練計(jì)算、數(shù)據(jù)集構(gòu)建、訓(xùn)練方法或類似內(nèi)容的更多詳細(xì)信息,”該公司在其技術(shù)論文中表示。

在YouTube 上的直播中,OpenAI 總裁兼聯(lián)合創(chuàng)始人 Greg Brockman 通過要求各模型用一句話概括OpenAI GPT-4博客文章,每個(gè)詞語都以字母“G”開頭,以此證明GPT-4和GPT-3.5之間的區(qū)別。

GPT-3.5 根本就沒有嘗試回應(yīng)。GPT 4 返回“GPT-4 產(chǎn)生了突破性的、巨大的收益,極大地激發(fā)了廣義的 AI 目標(biāo)(GPT-4 generates ground-breaking, grandiose gains, greatly galvanizing generalized AI goals)" ?!?當(dāng) Brockman 告訴模型,句子中包含“AI”不算數(shù)時(shí),GPT-4 在另一個(gè)沒有“AI”的句子中修改了它的回應(yīng)。

然后他繼續(xù)讓 GPT-4 為 Discord 機(jī)器人生成 Python 代碼。更令人印象深刻的是,他拍了一張笑話網(wǎng)站的手繪模型照片,將圖像發(fā)送到 Discord,關(guān)聯(lián)的 GPT-4 模型以 HTML 和 JavaScript 代碼響應(yīng),實(shí)現(xiàn)了模型網(wǎng)站。

最后,Brockman 設(shè)置 GPT-4 來分析 16 頁美國稅法,以返回具有特定財(cái)務(wù)狀況的夫婦 Alice 和 Bob 的標(biāo)準(zhǔn)扣除額。OpenAI 的模型給出了正確答案,并解釋了所涉及的計(jì)算。

除了更好的推理,從其改進(jìn)的測試分?jǐn)?shù)中可以明顯看出,GPT-4 提高了協(xié)作性(按照指示迭代以改進(jìn)以前的輸出),能夠更好地處理大量文本(分析或輸出大約 25,000 個(gè)單詞的中篇小說) ,以及接受基于圖像的輸入(用于對象識別,盡管該功能尚未公開)。

更重要的是,根據(jù) OpenAI 的說法,GPT-4 應(yīng)該比其更早版本更不容易犯錯(cuò)。

“我們花了六個(gè)月的時(shí)間使用我們的對抗性測試程序和 ChatGPT 的經(jīng)驗(yàn)教訓(xùn)迭代調(diào)整 GPT-4,從而在真實(shí)性、可控性和拒絕超出安全范圍方面取得了有史以來最好的結(jié)果(盡管遠(yuǎn)非完美) ”,OpenAI表示。

人們可能已經(jīng)從微軟 Bing 問答功能首次亮相時(shí)就熟悉過這種“遠(yuǎn)非完美”的安全級別,事實(shí)證明它使用了 GPT-4作為其 Prometheus 模型的基礎(chǔ)。

OpenAI 承認(rèn) GPT-4 像它早前版本一樣會出現(xiàn)“扭曲事實(shí)并犯推理錯(cuò)誤”,但該公司稱新模型降低了犯錯(cuò)程度。

GPT-4 相對于以前的模型顯著減少了事實(shí)歪曲

“雖然仍然是一個(gè)真正的問題,但 GPT-4相對于以前模型更少出現(xiàn)事實(shí)歪曲的表現(xiàn)(這些模型本身在每次迭代中都在改進(jìn)),”該公司解釋說?!霸谖覀儍?nèi)部的對抗性真實(shí)性評估中,GPT-4 的得分比我們最新的 GPT-3.5 高 40%?!?/p>

GPT-4 的定價(jià)是每 1000個(gè)提示token 0.03 美元和每 1000個(gè)完成token 0.06 美元,其中一個(gè)token大約是四個(gè)字符。還有一個(gè)默認(rèn)速率限制為每分鐘 40,000 個(gè)token和每分鐘 200 個(gè)請求。

此外,OpenAI 開源了Evals,這是一個(gè)用于評估和校對測試機(jī)器學(xué)習(xí)模型(包括它自己的模型)的程序。

盡管人工智能風(fēng)險(xiǎn)的擔(dān)憂一直都在,但企業(yè)急于將人工智能模型推向市場。在 GPT-4 到來的同一天,由前 OpenAI 員工組建的初創(chuàng)公司 Anthropic推出了自己的基于聊天的助手 Claude,用于處理和生成文本摘要、搜索、問答、編程等。

谷歌擔(dān)心在相關(guān)模型的營銷方面落后,因此推出了一個(gè)名為PaLM 的 API,用于與各種大型語言模型和一個(gè)名為 MakerSuite 的原型環(huán)境進(jìn)行交互。

幾周前,F(xiàn)acebook 推出了LLaMA 大型語言模型,斯坦福大學(xué)的研究人員現(xiàn)已將其轉(zhuǎn)變?yōu)锳lpaca 模型,未來或?qū)⒂懈鼜V泛的競爭。

“還有很多工作要做,我們期待通過社區(qū)在模型之上構(gòu)建、探索和貢獻(xiàn)的集體努力來改進(jìn)這個(gè)模型,”O(jiān)penAI 表示。

參閱

https://openai.com/research/gpt-4

https://www.theregister.com/2023/03/14/openai_gpt4_ai/

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

OpenAI

  • 強(qiáng)達(dá)電路年交付產(chǎn)品型號近10萬款,業(yè)內(nèi)領(lǐng)先!
  • OpenAI和微軟據(jù)悉就轉(zhuǎn)型后的股權(quán)分割聘請投資銀行

評論

暫無評論哦,快來評價(jià)一下吧!

下載界面新聞

微信公眾號

微博

OpenAI推出GPT-4,SAT數(shù)學(xué)超過89%人類考生,法律考試超過90%考生

GPT-4 在其他各種考試中也表現(xiàn)出色。

界面新聞|范劍磊

文|Edu指南

3月15日 OpenAI 周二發(fā)布多模態(tài)大語言模型GPT-4,該模型是OpenAI 在調(diào)用和響應(yīng)深度學(xué)習(xí)模型制作方面的最新里程碑,并且在重要考試中勝過其大多數(shù)人類考生。

根據(jù) OpenAI 的描述,該模型展示了“在各種專業(yè)和學(xué)術(shù)領(lǐng)域?qū)?biāo)人類水平的表現(xiàn)”。GPT-4 在模擬律師考試中獲得了前10%的成績,而其前身 GPT-3.5(ChatGPT 的基礎(chǔ))得分排位在后 10% 左右。

GPT-4 在其他各種考試中也表現(xiàn)出色,例如美國高校入學(xué)考試 SAT 數(shù)學(xué)考試,其獲得了800 分中的 700 分成績。然而,它暫時(shí)并不具備所有學(xué)科能力,例如在AP英語語言和作文中僅獲得 2 分。

需要考慮的一件事:OpenAI 的 GPT 系列本質(zhì)上是一個(gè)反流引擎系列,利用它訓(xùn)練的材料并重新組裝它來解決用戶的查詢。有時(shí)是對的,有時(shí)是錯(cuò)的。它可以回憶考試的細(xì)節(jié)——而人類用戶可能很難對所有細(xì)節(jié)都記得清清楚楚,它的回復(fù)可能更像是對人類必須參加的各類考試的評論。

OpenAI 首席執(zhí)行官山姆奧特曼Sam Altman在談到 GPT-4 時(shí)承認(rèn):“它仍然存在缺陷,仍然有限,而且在第一次使用時(shí)可能讓人印象深刻,但當(dāng)人們花更多時(shí)間使用后可能做不到這個(gè)程度(即多輪對話查詢后得到的回應(yīng)可能出現(xiàn)缺陷)?!?/p>

GPT-4 是一個(gè)大型多模態(tài)模型,它支持通過文本和圖像輸入查詢,并以文本形式返回答案。當(dāng)前開發(fā)者可以通過列入候補(bǔ)名單的 GPT-4 API 等待使用,而個(gè)人用戶通過 ChatGPT Plus 訂閱使用。當(dāng)前基于圖像的輸入仍在完善中。

盡管增加了圖像輸入機(jī)制,但 OpenAI 并未公開或提供對其模型制作的相關(guān)信息。這家備受關(guān)注的公司選擇不公布有關(guān)其規(guī)模、訓(xùn)練方式以及流程中包含哪些數(shù)據(jù)的詳細(xì)信息。

“鑒于競爭格局和 GPT-4 等大型模型的安全影響,本報(bào)告不包含有關(guān)架構(gòu)(包括模型大?。⒂布?、訓(xùn)練計(jì)算、數(shù)據(jù)集構(gòu)建、訓(xùn)練方法或類似內(nèi)容的更多詳細(xì)信息,”該公司在其技術(shù)論文中表示。

在YouTube 上的直播中,OpenAI 總裁兼聯(lián)合創(chuàng)始人 Greg Brockman 通過要求各模型用一句話概括OpenAI GPT-4博客文章,每個(gè)詞語都以字母“G”開頭,以此證明GPT-4和GPT-3.5之間的區(qū)別。

GPT-3.5 根本就沒有嘗試回應(yīng)。GPT 4 返回“GPT-4 產(chǎn)生了突破性的、巨大的收益,極大地激發(fā)了廣義的 AI 目標(biāo)(GPT-4 generates ground-breaking, grandiose gains, greatly galvanizing generalized AI goals)" ?!?當(dāng) Brockman 告訴模型,句子中包含“AI”不算數(shù)時(shí),GPT-4 在另一個(gè)沒有“AI”的句子中修改了它的回應(yīng)。

然后他繼續(xù)讓 GPT-4 為 Discord 機(jī)器人生成 Python 代碼。更令人印象深刻的是,他拍了一張笑話網(wǎng)站的手繪模型照片,將圖像發(fā)送到 Discord,關(guān)聯(lián)的 GPT-4 模型以 HTML 和 JavaScript 代碼響應(yīng),實(shí)現(xiàn)了模型網(wǎng)站。

最后,Brockman 設(shè)置 GPT-4 來分析 16 頁美國稅法,以返回具有特定財(cái)務(wù)狀況的夫婦 Alice 和 Bob 的標(biāo)準(zhǔn)扣除額。OpenAI 的模型給出了正確答案,并解釋了所涉及的計(jì)算。

除了更好的推理,從其改進(jìn)的測試分?jǐn)?shù)中可以明顯看出,GPT-4 提高了協(xié)作性(按照指示迭代以改進(jìn)以前的輸出),能夠更好地處理大量文本(分析或輸出大約 25,000 個(gè)單詞的中篇小說) ,以及接受基于圖像的輸入(用于對象識別,盡管該功能尚未公開)。

更重要的是,根據(jù) OpenAI 的說法,GPT-4 應(yīng)該比其更早版本更不容易犯錯(cuò)。

“我們花了六個(gè)月的時(shí)間使用我們的對抗性測試程序和 ChatGPT 的經(jīng)驗(yàn)教訓(xùn)迭代調(diào)整 GPT-4,從而在真實(shí)性、可控性和拒絕超出安全范圍方面取得了有史以來最好的結(jié)果(盡管遠(yuǎn)非完美) ”,OpenAI表示。

人們可能已經(jīng)從微軟 Bing 問答功能首次亮相時(shí)就熟悉過這種“遠(yuǎn)非完美”的安全級別,事實(shí)證明它使用了 GPT-4作為其 Prometheus 模型的基礎(chǔ)。

OpenAI 承認(rèn) GPT-4 像它早前版本一樣會出現(xiàn)“扭曲事實(shí)并犯推理錯(cuò)誤”,但該公司稱新模型降低了犯錯(cuò)程度。

GPT-4 相對于以前的模型顯著減少了事實(shí)歪曲

“雖然仍然是一個(gè)真正的問題,但 GPT-4相對于以前模型更少出現(xiàn)事實(shí)歪曲的表現(xiàn)(這些模型本身在每次迭代中都在改進(jìn)),”該公司解釋說?!霸谖覀儍?nèi)部的對抗性真實(shí)性評估中,GPT-4 的得分比我們最新的 GPT-3.5 高 40%。”

GPT-4 的定價(jià)是每 1000個(gè)提示token 0.03 美元和每 1000個(gè)完成token 0.06 美元,其中一個(gè)token大約是四個(gè)字符。還有一個(gè)默認(rèn)速率限制為每分鐘 40,000 個(gè)token和每分鐘 200 個(gè)請求。

此外,OpenAI 開源了Evals,這是一個(gè)用于評估和校對測試機(jī)器學(xué)習(xí)模型(包括它自己的模型)的程序。

盡管人工智能風(fēng)險(xiǎn)的擔(dān)憂一直都在,但企業(yè)急于將人工智能模型推向市場。在 GPT-4 到來的同一天,由前 OpenAI 員工組建的初創(chuàng)公司 Anthropic推出了自己的基于聊天的助手 Claude,用于處理和生成文本摘要、搜索、問答、編程等。

谷歌擔(dān)心在相關(guān)模型的營銷方面落后,因此推出了一個(gè)名為PaLM 的 API,用于與各種大型語言模型和一個(gè)名為 MakerSuite 的原型環(huán)境進(jìn)行交互。

幾周前,F(xiàn)acebook 推出了LLaMA 大型語言模型,斯坦福大學(xué)的研究人員現(xiàn)已將其轉(zhuǎn)變?yōu)锳lpaca 模型,未來或?qū)⒂懈鼜V泛的競爭。

“還有很多工作要做,我們期待通過社區(qū)在模型之上構(gòu)建、探索和貢獻(xiàn)的集體努力來改進(jìn)這個(gè)模型,”O(jiān)penAI 表示。

參閱

https://openai.com/research/gpt-4

https://www.theregister.com/2023/03/14/openai_gpt4_ai/

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。