正在閱讀:

ChatGPT 4o圖像生成功能重大升級(jí),免費(fèi)開(kāi)放基礎(chǔ)功能使用

掃一掃下載界面新聞APP

ChatGPT 4o圖像生成功能重大升級(jí),免費(fèi)開(kāi)放基礎(chǔ)功能使用

ChatGPT在生成圖像文字領(lǐng)域終于從完全不能用,達(dá)到接近商用的程度。

圖片來(lái)源:界面圖庫(kù) 匡達(dá)

當(dāng)?shù)貢r(shí)間3月25日,美國(guó)開(kāi)放人工智能研究中心(OpenAI)宣布推出4o圖像生成功能,OpenAI的CEO奧特曼稱GPT-4o為“有史以來(lái)最好的模型”,并宣布將全面免費(fèi)開(kāi)放基礎(chǔ)功能,API調(diào)用價(jià)格下調(diào)50%。

奧特曼當(dāng)?shù)貢r(shí)間周二直播活動(dòng)中宣布,正式推出基于 GPT-4o 模型的原生圖像生成功能,不再調(diào)用獨(dú)立的 DALL-E 文生圖模型。利用GPT-4o的多模態(tài)能力,ChatGPT在圖像生成時(shí)能更加精確地遵循指示、更精確地渲染圖像上的文字,同時(shí)支持多輪迭代優(yōu)化圖像時(shí)保持角色形象一致。

從官方給出的示例來(lái)看,不管是生成黑板板書(shū),還是印刷體、展示科學(xué)常識(shí)的繪圖,ChatGPT在生成圖像文字領(lǐng)域終于從完全不能用,達(dá)到接近商用的程度。

不過(guò),OpenAI承認(rèn)新圖像生成器還存在局限性,會(huì)受到模型幻覺(jué)影響,在密集文字和非拉丁語(yǔ)文字圖像生成方面易出問(wèn)題。

ChatGPT在2022年底上線,最初只能生成和編輯文本,不能生成圖像。大約一年后,OpenAI發(fā)布第三代圖像生成模型DALL-E 3,并集成到ChatGPT,但兩者一直是互相獨(dú)立的系統(tǒng),AI圖像生成器“理解提示詞能力差”。

此次推出基于 GPT-4o 模型的原生圖像生成功能的舉措,被視為應(yīng)對(duì)谷歌Gemini等競(jìng)品的技術(shù)壓力。

今年阿里巴巴、谷歌先后推出能準(zhǔn)確生成文字的文生圖模型。其中,谷歌其旗艦?zāi)P椭坏?Gemini 2.0 Flash 推出實(shí)驗(yàn)性原生圖像輸出功能之后,在社交媒體上迅速傳播。但Gemini 2.0 Flash 的圖像組件幾乎沒(méi)有防護(hù)措施,人們可以去除水印并創(chuàng)建描繪受版權(quán)保護(hù)角色的圖像。

OpenAI 首席運(yùn)營(yíng)官布拉德?萊特卡普在一份聲明中表示:“在輸出方面,我們尊重藝術(shù)家的權(quán)利,并且我們有相應(yīng)的政策來(lái)防止我們生成直接模仿任何在世藝術(shù)家作品的圖像?!?/p>

即日起,所有Plus、Pro、Team及免費(fèi)用戶將陸續(xù)在ChatGPT和Sora中體驗(yàn)該功能,企業(yè)版與教育版即將接入,Sora平臺(tái)同步啟用。開(kāi)發(fā)者即將通過(guò)API調(diào)用GPT-4o圖像生成功能,接口權(quán)限將于未來(lái)數(shù)周內(nèi)開(kāi)放。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。

OpenAI

  • OpenAI接近敲定400億美元新融資,預(yù)計(jì)今年收入將增長(zhǎng)兩倍
  • 科技早報(bào) | 谷歌發(fā)布新一代推理模型反擊OpenAI;寶馬與阿里達(dá)成AI領(lǐng)域戰(zhàn)略

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

ChatGPT 4o圖像生成功能重大升級(jí),免費(fèi)開(kāi)放基礎(chǔ)功能使用

ChatGPT在生成圖像文字領(lǐng)域終于從完全不能用,達(dá)到接近商用的程度。

圖片來(lái)源:界面圖庫(kù) 匡達(dá)

當(dāng)?shù)貢r(shí)間3月25日,美國(guó)開(kāi)放人工智能研究中心(OpenAI)宣布推出4o圖像生成功能,OpenAI的CEO奧特曼稱GPT-4o為“有史以來(lái)最好的模型”,并宣布將全面免費(fèi)開(kāi)放基礎(chǔ)功能,API調(diào)用價(jià)格下調(diào)50%。

奧特曼當(dāng)?shù)貢r(shí)間周二直播活動(dòng)中宣布,正式推出基于 GPT-4o 模型的原生圖像生成功能,不再調(diào)用獨(dú)立的 DALL-E 文生圖模型。利用GPT-4o的多模態(tài)能力,ChatGPT在圖像生成時(shí)能更加精確地遵循指示、更精確地渲染圖像上的文字,同時(shí)支持多輪迭代優(yōu)化圖像時(shí)保持角色形象一致。

從官方給出的示例來(lái)看,不管是生成黑板板書(shū),還是印刷體、展示科學(xué)常識(shí)的繪圖,ChatGPT在生成圖像文字領(lǐng)域終于從完全不能用,達(dá)到接近商用的程度。

不過(guò),OpenAI承認(rèn)新圖像生成器還存在局限性,會(huì)受到模型幻覺(jué)影響,在密集文字和非拉丁語(yǔ)文字圖像生成方面易出問(wèn)題。

ChatGPT在2022年底上線,最初只能生成和編輯文本,不能生成圖像。大約一年后,OpenAI發(fā)布第三代圖像生成模型DALL-E 3,并集成到ChatGPT,但兩者一直是互相獨(dú)立的系統(tǒng),AI圖像生成器“理解提示詞能力差”。

此次推出基于 GPT-4o 模型的原生圖像生成功能的舉措,被視為應(yīng)對(duì)谷歌Gemini等競(jìng)品的技術(shù)壓力。

今年阿里巴巴、谷歌先后推出能準(zhǔn)確生成文字的文生圖模型。其中,谷歌其旗艦?zāi)P椭坏?Gemini 2.0 Flash 推出實(shí)驗(yàn)性原生圖像輸出功能之后,在社交媒體上迅速傳播。但Gemini 2.0 Flash 的圖像組件幾乎沒(méi)有防護(hù)措施,人們可以去除水印并創(chuàng)建描繪受版權(quán)保護(hù)角色的圖像。

OpenAI 首席運(yùn)營(yíng)官布拉德?萊特卡普在一份聲明中表示:“在輸出方面,我們尊重藝術(shù)家的權(quán)利,并且我們有相應(yīng)的政策來(lái)防止我們生成直接模仿任何在世藝術(shù)家作品的圖像。”

即日起,所有Plus、Pro、Team及免費(fèi)用戶將陸續(xù)在ChatGPT和Sora中體驗(yàn)該功能,企業(yè)版與教育版即將接入,Sora平臺(tái)同步啟用。開(kāi)發(fā)者即將通過(guò)API調(diào)用GPT-4o圖像生成功能,接口權(quán)限將于未來(lái)數(shù)周內(nèi)開(kāi)放。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。