當(dāng)?shù)貢r(shí)間3月25日,美國(guó)開(kāi)放人工智能研究中心(OpenAI)宣布推出4o圖像生成功能,OpenAI的CEO奧特曼稱GPT-4o為“有史以來(lái)最好的模型”,并宣布將全面免費(fèi)開(kāi)放基礎(chǔ)功能,API調(diào)用價(jià)格下調(diào)50%。
奧特曼當(dāng)?shù)貢r(shí)間周二直播活動(dòng)中宣布,正式推出基于 GPT-4o 模型的原生圖像生成功能,不再調(diào)用獨(dú)立的 DALL-E 文生圖模型。利用GPT-4o的多模態(tài)能力,ChatGPT在圖像生成時(shí)能更加精確地遵循指示、更精確地渲染圖像上的文字,同時(shí)支持多輪迭代優(yōu)化圖像時(shí)保持角色形象一致。
從官方給出的示例來(lái)看,不管是生成黑板板書(shū),還是印刷體、展示科學(xué)常識(shí)的繪圖,ChatGPT在生成圖像文字領(lǐng)域終于從完全不能用,達(dá)到接近商用的程度。
不過(guò),OpenAI承認(rèn)新圖像生成器還存在局限性,會(huì)受到模型幻覺(jué)影響,在密集文字和非拉丁語(yǔ)文字圖像生成方面易出問(wèn)題。
ChatGPT在2022年底上線,最初只能生成和編輯文本,不能生成圖像。大約一年后,OpenAI發(fā)布第三代圖像生成模型DALL-E 3,并集成到ChatGPT,但兩者一直是互相獨(dú)立的系統(tǒng),AI圖像生成器“理解提示詞能力差”。
此次推出基于 GPT-4o 模型的原生圖像生成功能的舉措,被視為應(yīng)對(duì)谷歌Gemini等競(jìng)品的技術(shù)壓力。
今年阿里巴巴、谷歌先后推出能準(zhǔn)確生成文字的文生圖模型。其中,谷歌其旗艦?zāi)P椭坏?Gemini 2.0 Flash 推出實(shí)驗(yàn)性原生圖像輸出功能之后,在社交媒體上迅速傳播。但Gemini 2.0 Flash 的圖像組件幾乎沒(méi)有防護(hù)措施,人們可以去除水印并創(chuàng)建描繪受版權(quán)保護(hù)角色的圖像。
OpenAI 首席運(yùn)營(yíng)官布拉德?萊特卡普在一份聲明中表示:“在輸出方面,我們尊重藝術(shù)家的權(quán)利,并且我們有相應(yīng)的政策來(lái)防止我們生成直接模仿任何在世藝術(shù)家作品的圖像?!?/p>
即日起,所有Plus、Pro、Team及免費(fèi)用戶將陸續(xù)在ChatGPT和Sora中體驗(yàn)該功能,企業(yè)版與教育版即將接入,Sora平臺(tái)同步啟用。開(kāi)發(fā)者即將通過(guò)API調(diào)用GPT-4o圖像生成功能,接口權(quán)限將于未來(lái)數(shù)周內(nèi)開(kāi)放。