GPT Image

GPT Image
截图
由GPT Image 2生成的英语维基百科“截图”
由GPT Image 2生成的英语维基百科“截图”
開發者OpenAI
首次发布2025年3月25日​(2025-03-25
当前版本2(2026年4月21日​(2026-04-21
前任DALL-E
类型图像生成编辑
网站ChatGPT Images 2.0

GPT Image是由OpenAI开发的一系列图像生成编辑模型。GPT Image是GPT系列中文本转图像的一个变体,运用深度学习技术,能够依据自然语言描述或现有图像,精准地生成数字图像。GPT Image是DALL-E的继任者,已作为ChatGPT Images功能原生集成于ChatGPT中,同时也可通过API供外部调用。GPT Image于2025年3月发布后迅速在社交媒体上走红,尤以其能够生成吉卜力工作室风格图像的能力而备受瞩目。此外,GPT Image也已集成至Microsoft CopilotApple Intelligence服务中。

歷史

OpenAI 於2025年3月25日的部落格文章中公開了 GPT Image 的首個模型,稱之為「GPT-4o圖像生成」(GPT-4o image generation),該模型是基於 GPT-4o 模型開發以生成圖像。[1] 該功能最初僅開放給付費使用者,由於需求量極大,向免費使用者的推送被推遲。[2] 隨後該功能的使用受到限制,萨姆·奥尔特曼表示由於使用量過大,GPU「快融化了」。[3] OpenAI 隨後表示,在發布首週內,全球超過1.3億名使用者已生成了超過7億張圖片。[4] 該模型被命名為 GPT Image 1gpt-image-1),並於4月23日導入至 API 中。一款具備成本效益的版本 GPT Image 1 Minigpt-image-1-mini)於10月6日(即2025年 OpenAI 開發者大會)發布,其 API 費用比 GPT Image 1 便宜 80%。[5][6]

名為 GPT Image 1.5gpt-image-1.5)的新模型於12月16日推出,該模型以「ChatGPT Images」之名向全球所有使用者推送,並隨即開放 API 存取。[7] OpenAI 聲稱該新模型能夠在保持細節完整的同時進行精確編輯,且生成圖像的速度最高可達原先的四倍。與 GPT Image 1 相比,GPT Image 1.5 的 API 圖像輸入與輸出費用降低了 20%。[8]

2026年4月,OpenAI 發布了 GPT Image 2gpt-image-2),在其生成過程中引入了推理模型。[9]

功能

不同於 DALL-E 2 與 DALL-E 3 等基於扩散模型的先前版本,GPT Image 模型屬於自我迴歸模型,並具備多項新功能,包含影像編輯轉換、先進的照相寫實主義,以及精確遵循指令的能力。[10] GPT Image 能夠生成三種尺寸的圖像,分別為 1024 × 1024(1:1,正方形)、1536 × 1024(3:2,橫向)以及 1024 × 1536(2:3,直向)像素[11]

GPT Image 1.5 解決了先前模型中存在的過早裁切(premature cropping)以及偏暖色調的問題,[1] 但在生成特定藝術風格時出現了退步的情況。此外,最新的模型在處理多張人臉以及包含中文、阿拉伯文、希伯來文等特定語言時,依然存在弱點。[7]

評價

科技評論家普遍認為 GPT Image 是圖像生成領域的重大進展。TechRadar 強調 GPT Image 1 展現了令人印象深刻的效能,能夠生成從寫實場景到風格化插圖等廣泛的作品,並指出與早期工具相比,其在文字渲染與多模態整合方面有著顯著的提升。然而,Heise Online 報導指出,GPT Image 1 仍存在一些技術弱點,例如過度銳化產生的偽影(artifacts)、偏暖色調的偏差,以及在渲染人體姿勢與物件重疊時常見的錯誤,這表明儘管整體表現強勁,其輸出成果的逼真度仍有局限性。[12]

参考来源

  1. ^ 1.0 1.1 Introducing 4o Image Generation. OpenAI. 25 March 2025 [17 December 2025]. (原始内容存档于5 October 2025). 
  2. ^ Roth, Emma. ChatGPT's new image generator is delayed for free users. The Verge. March 26, 2025 [March 26, 2025]. 
  3. ^ Welch, Chris. OpenAI says "our GPUs are melting" as it limits ChatGPT image generation requests. The Verge. March 27, 2025 [March 28, 2025]. 
  4. ^ Introducing our latest image generation model in the API. OpenAI. 23 April 2025 [30 April 2025]. 
  5. ^ OpenAI DevDay 2025. OpenAI. 6 October 2025 [17 December 2025]. (原始内容存档于21 October 2025). 
  6. ^ Matthias Bastian. Developers can now build and deploy both apps and agents directly on the ChatGPT platform. The Decoder. 6 October 2025 [17 December 2025]. (原始内容存档于7 October 2025). 
  7. ^ 7.0 7.1 The new ChatGPT Images is here. OpenAI. 16 December 2025 [17 December 2025]. (原始内容存档于17 December 2025). 
  8. ^ Pricing. OpenAI Platform. OpenAI. [17 December 2025]. 
  9. ^ Silberling, Amanda. ChatGPT's new Images 2.0 model is surprisingly good at generating text. TechCrunch. 2026-04-21 [2026-04-21] (美国英语). 
  10. ^ Addendum to GPT-4o System Card: Native image generation (PDF). OpenAI. 25 March 2025 [17 December 2025]. (原始内容 (PDF)存档于20 August 2025). 
  11. ^ Image generation. OpenAI Platform. OpenAI. [17 December 2025]. 
  12. ^ Volker Zota. Image generator from GPT-4o: what is probably behind the technical breakthrough. Heise Online. 8 April 2025 [17 December 2025]. (原始内容存档于17 December 2025). 

外部連結