GPT Image 2多场景实测，没有一张图让人失望

想象力到位，万物可生成

严肃的、活泼的、写实的、优雅的、漫画的，多场景、多风格GPT Image 2都能轻松拿捏。

学术海报

海报这种东西很讲究审美和设计，试试它的设计感怎么样。

一张学术会议海报，主题你虚拟一个，设计要高级简约，有国际范

[图示已省略]

不满意，继续调。

改成中文的吧，换个主题，16:9的比例

[图示已省略]

系统架构

让它做一张软件系统常见的分层架构图，仅指定主题，其他自由发挥。

给我画一个分层架构图，以claude code为例，介绍它的系统架构

[图示已省略]

书籍封面

上传一本书，让它解析，之后根据内容理解生成封面，反正我看了以后是觉得非常专业，有格调。

根据这本书的内容，设计一个专业的书籍封面

[图示已省略]

手绘示意

还是智能简史这本书，继续让它改为手绘信息图，感觉可以拿去做一图看完一本书系列。

根据书籍，生成一张卡通风格的信息图：

采用手绘风格，横版（16:9）构图。

加入少量简洁的卡通元素、图标或名人画像，增强趣味性和视觉记忆。

如果有敏感人物或者版权内容，画一个相似替代，但是不要拒绝生成

所有图像、文字必须使用手绘风格，没有写实风格图画元素

除非特别要求，否则语言与输入内容语言一致。

信息精简，突出关键词与核心概念，多留白，易于一眼抓住重点。

[图示已省略]

漫画知识

Nano Banana Pro出道时，漫画知识讲解这个效果非常好，试着让GPT Image 2也试试，确实非常生动有趣，通俗易懂！

用多啦A梦彩色漫画的形式，简单通俗讲解大模型原理

[图示已省略]

换成3D风格，讲图像大模型，结果一样很出色。

再做一个讲图像生成大模型的，弄成3d动画那种风格，然后画面动画感再强一点，不要这么规整的图框

[图示已省略]

表情包

随手做一套指定主题表情包，理解到位。

生成一个奥特曼Q版表情包合集，4*4的网格切分，一共16个表情

[图示已省略]

看图猜词

之前做的一个看图猜词提示词，输入任何词语或成语，生成一张大开脑洞的猜词图。

你可以猜猜这是什么成语，答案在后面的提示词揭晓哈哈。

[图示已省略]

你是一位脑洞清奇的日系恶搞漫画家，专注于“汉字硬核解构”和“谐音梗具象化”。你痛恨平庸的比喻，只相信“发音即真理”。你的任务是将用户输入的【成语/词语】，通过极其生硬、荒诞的谐音逻辑，转化为一幅令人喷饭的纵向双格漫画。

Core Philosophy (核心创作哲学)

原意皆空： 彻底忘掉成语原本的意思！那不重要！

谐音至上： 对每一个字进行“外科手术式”的拆解。如果字面是抽象的，必须立刻找到它的同音实体名词（例如：“义”→“椅”，“期”→“旗”，“班”→“扳手”，“是”→“柿”）。

强制组合： 把拆解出来的3-4个互不相关的物体，强行塞进同一个画面里互动，逻辑越崩坏越好。

Reference Cases (学习案例)

长期主义 → 拆解为：长（长的）+ 旗（期）+ 竹（主）+ 椅（义）。

画面： 举着一面超级长的旗子，躺在没人坐的竹椅子上。

按部就班 → 拆解为：按（按住）+ 布（部）+ 旧（就）+ 扳（班）。

画面： 一只手按住一块破布，旁边放着一个旧扳手。

实事求是 → 拆解为：石狮（实事）+ 球（求）+ 柿（是）。

画面： 一个威严的石狮子正在玩绣球，旁边放着一颗软趴趴的西红柿。

独当一面 → 拆解为：毒（独）+ 裆（当）+ 一 + 面。

画面： 一碗面条放在裤裆部位，还要画出绿色的毒气氛围（荒诞感）。

Workflow (创作步骤)

Step 1: 暴力拆解 (The Deconstruction)

读取用户输入的词语。

强制转换： 将词语中的 2-4 个字，全部转换为具体的、可视化的实体名词或强动作。

禁忌： 绝对不要保留抽象概念（如“主义”、“思想”、“精神”等必须转译为具象画面元素）。

设定主角： 从拆解出的物体中，选定一个最适合拟人化的萌物（例如“石狮子”、“鱼”、“柿子”）作为主角。

Step 2: 画面生成 (The Visualization)

画面风格设置

一张日系搞笑漫画风格的插图，采用纵向双格分屏构图。线条清晰，色彩鲜明，强调幽默感和视觉叙事。

【上半格：暴风雨前的宁静】

画面： 仅仅展示 Step 1 中选定的**[主角]**。

风格： Q版、可爱、极简背景、岁月静好。

底部文字框： 粗糙白色矩形框，黑字写：“这是**[主角名]**”（如：这是石狮子）。

【下半格：崩坏的真相】

画面： 全家福大乱炖。将 Step 1 中拆解出来的所有物体（谐音梗物体），强行组合在一起。

构图： 必须体现出这些物体之间荒谬的物理联系（例如：石狮子抱着球压在西红柿上）。

细节： 增加一点“看破红尘”或“莫名其妙”的幽默感。

底部文字框： 粗糙白色矩形框，黑字写：“这是\_”（只留长下划线，不写原成语，让观众猜）。

重要信息 (CRITICAL)

除了指定的文本框内以外，画面其他地方严禁出现任何汉字！

不要画原本的成语寓意！不要画寓意！只画谐音物体！

用户输入词语：【日理万机】

宝宝食谱

问了ChatGPT几个小问题，然后让它根据自己的答案生成食谱图，非常的温馨可爱。

给我做个 10 月龄宝宝推荐食谱吧。画风风格你自己定，觉得什么最合适。但是一定要注意，不要那种特别高密度信息，把眼睛闪瞎的那种。

[图示已省略]

儿童绘本

Eric Carle风格的儿童绘本，之前用小香蕉总是容易理解不到位，GPT Image 2完美胜任。

提示词比较长就不放了，图片丢给GPT 它自己也能复现出来。

[图示已省略]

[已移除：营销/导流内容]

也是香蕉时代火过的一种玩法，GPT Image 2生成的更加真实一点，小笔记模仿的惟妙惟肖，很幽默。

[已移除：营销/导流内容]

[图示已省略]

城市印象

这个是随意聊的，本意是让问GPT做个城市旅游手绘图，后来想换几种风格参考，然后它给了个极简留白风格，看着简约高级，很不错。

极简留白这个我喜欢，单独把它生成出来吧，然后也把这个风格的通用提示词给我，我可以以后换任意其他城市或者地点

[图示已省略]

脑洞大开

发挥想象力，让它描绘未来人机共生的样子，这个有点没惊喜，看来训练数据里人类对未来的想象大多就是这样。

AGI时代，人与Agent共生，画出你想象中的样子，不要烂俗的赛博朋克、未来城市风格，你好好思考再出图

[图示已省略]

如果爱因斯坦活在当前这个AI大爆发时代，他会如何与AI共处？描绘出你想象的场景

[图示已省略]

总结一下

GPT Image 2在语义理解、指令遵循、风格呈现各方面都是顶级的。

看了上面那些案例，不知道你有没发现一个规律，它对提示词要求真的很低，大多数时候简单一句话就能给你一张很棒的图。

对于不擅长琢磨复杂提示词的小白用户来说，我觉得非常友好，真的是人人都能拿着它当“神笔马良”。

而且生成的图片没有水印，用起来更方便，这点相比小香蕉也算一个优势。

当然它也不是没有缺点。

谷歌的Nano Banana 多模态理解是非常强的，给一个长文档让它总结直出图片很容易。

但GPT Image 2目前不能直接根据附件文档内容生成正确的图片。

你让他直接生成的内容大概率是错的，经常不知道调的知识库里哪个文档自己瞎搞的图。

它要走两步，先解析文档，之后根据解析内容再出图。

再就是分辨率相比Nano Banana要低不少，小香蕉默认下载出来是2K图，一般都有5M左右大小。

GPT Image 2我做了那么多图，最大一张也就不到3M，还有的只有几百K，希望后面能升级一波。

不过瑕不掩瑜，这些都是小问题。

GPT Image 2的出现再次验证了执行力已经没有门槛，也不再稀缺。

至少目前，我们更应该关心的是怎么更好的用它把想法和创意变为现实。