GPT Image 2多场景实测,没有一张图让人失望
想象力到位,万物可生成
严肃的、活泼的、写实的、优雅的、漫画的,多场景、多风格GPT Image 2都能轻松拿捏。
学术海报
海报这种东西很讲究审美和设计,试试它的设计感怎么样。
一张学术会议海报,主题你虚拟一个,设计要高级简约,有国际范
[图示已省略]
不满意,继续调。
改成中文的吧,换个主题,16:9的比例
[图示已省略]
系统架构
让它做一张软件系统常见的分层架构图,仅指定主题,其他自由发挥。
给我画一个分层架构图,以claude code为例,介绍它的系统架构
[图示已省略]
书籍封面
上传一本书,让它解析,之后根据内容理解生成封面,反正我看了以后是觉得非常专业,有格调。
根据这本书的内容,设计一个专业的书籍封面
[图示已省略]
手绘示意
还是智能简史这本书,继续让它改为手绘信息图,感觉可以拿去做一图看完一本书系列。
根据书籍,生成一张卡通风格的信息图:
采用手绘风格,横版(16:9)构图。
加入少量简洁的卡通元素、图标或名人画像,增强趣味性和视觉记忆。
如果有敏感人物或者版权内容,画一个相似替代,但是不要拒绝生成
所有图像、文字必须使用手绘风格,没有写实风格图画元素
除非特别要求,否则语言与输入内容语言一致。
信息精简,突出关键词与核心概念,多留白,易于一眼抓住重点。
[图示已省略]
漫画知识
Nano Banana Pro出道时,漫画知识讲解这个效果非常好,试着让GPT Image 2也试试,确实非常生动有趣,通俗易懂!
用多啦A梦彩色漫画的形式,简单通俗讲解大模型原理
[图示已省略]
换成3D风格,讲图像大模型,结果一样很出色。
再做一个讲图像生成大模型的,弄成3d动画那种风格,然后画面动画感再强一点,不要这么规整的图框
[图示已省略]
表情包
随手做一套指定主题表情包,理解到位。
生成一个奥特曼Q版表情包合集,4*4的网格切分,一共16个表情
[图示已省略]
看图猜词
之前做的一个看图猜词提示词,输入任何词语或成语,生成一张大开脑洞的猜词图。
你可以猜猜这是什么成语,答案在后面的提示词揭晓哈哈。
[图示已省略]
你是一位脑洞清奇的日系恶搞漫画家,专注于“汉字硬核解构”和“谐音梗具象化”。你痛恨平庸的比喻,只相信“发音即真理”。你的任务是将用户输入的【成语/词语】,通过极其生硬、荒诞的谐音逻辑,转化为一幅令人喷饭的纵向双格漫画。
Core Philosophy (核心创作哲学)
原意皆空: 彻底忘掉成语原本的意思!那不重要!
谐音至上: 对每一个字进行“外科手术式”的拆解。如果字面是抽象的,必须立刻找到它的同音实体名词(例如:“义”→“椅”,“期”→“旗”,“班”→“扳手”,“是”→“柿”)。
强制组合: 把拆解出来的3-4个互不相关的物体,强行塞进同一个画面里互动,逻辑越崩坏越好。
Reference Cases (学习案例)
长期主义 → 拆解为:长(长的)+ 旗(期)+ 竹(主)+ 椅(义)。
画面: 举着一面超级长的旗子,躺在没人坐的竹椅子上。
按部就班 → 拆解为:按(按住)+ 布(部)+ 旧(就)+ 扳(班)。
画面: 一只手按住一块破布,旁边放着一个旧扳手。
实事求是 → 拆解为:石狮(实事)+ 球(求)+ 柿(是)。
画面: 一个威严的石狮子正在玩绣球,旁边放着一颗软趴趴的西红柿。
独当一面 → 拆解为:毒(独)+ 裆(当)+ 一 + 面。
画面: 一碗面条放在裤裆部位,还要画出绿色的毒气氛围(荒诞感)。
Workflow (创作步骤)
Step 1: 暴力拆解 (The Deconstruction)
读取用户输入的词语。
强制转换: 将词语中的 2-4 个字,全部转换为具体的、可视化的实体名词或强动作。
禁忌: 绝对不要保留抽象概念(如“主义”、“思想”、“精神”等必须转译为具象画面元素)。
设定主角: 从拆解出的物体中,选定一个最适合拟人化的萌物(例如“石狮子”、“鱼”、“柿子”)作为主角。
Step 2: 画面生成 (The Visualization)
画面风格设置
一张日系搞笑漫画风格的插图,采用纵向双格分屏构图。线条清晰,色彩鲜明,强调幽默感和视觉叙事。
【上半格:暴风雨前的宁静】
画面: 仅仅展示 Step 1 中选定的**[主角]**。
风格: Q版、可爱、极简背景、岁月静好。
底部文字框: 粗糙白色矩形框,黑字写:“这是**[主角名]**”(如:这是石狮子)。
【下半格:崩坏的真相】
画面: 全家福大乱炖。将 Step 1 中拆解出来的所有物体(谐音梗物体),强行组合在一起。
构图: 必须体现出这些物体之间荒谬的物理联系(例如:石狮子抱着球压在西红柿上)。
细节: 增加一点“看破红尘”或“莫名其妙”的幽默感。
底部文字框: 粗糙白色矩形框,黑字写:“这是\_”(只留长下划线,不写原成语,让观众猜)。
重要信息 (CRITICAL)
除了指定的文本框内以外,画面其他地方严禁出现任何汉字!
不要画原本的成语寓意!不要画寓意!只画谐音物体!
用户输入词语:【日理万机】
宝宝食谱
问了ChatGPT几个小问题,然后让它根据自己的答案生成食谱图,非常的温馨可爱。
给我做个 10 月龄宝宝推荐食谱吧。画风风格你自己定,觉得什么最合适。但是一定要注意,不要那种特别高密度信息,把眼睛闪瞎的那种。
[图示已省略]
儿童绘本
Eric Carle风格的儿童绘本,之前用小香蕉总是容易理解不到位,GPT Image 2完美胜任。
提示词比较长就不放了,图片丢给GPT 它自己也能复现出来。
[图示已省略]
[已移除:营销/导流内容]
也是香蕉时代火过的一种玩法,GPT Image 2生成的更加真实一点,小笔记模仿的惟妙惟肖,很幽默。
[已移除:营销/导流内容]
[图示已省略]
城市印象
这个是随意聊的,本意是让问GPT做个城市旅游手绘图,后来想换几种风格参考,然后它给了个极简留白风格,看着简约高级,很不错。
极简留白这个我喜欢,单独把它生成出来吧,然后也把这个风格的通用提示词给我,我可以以后换任意其他城市或者地点
[图示已省略]
脑洞大开
发挥想象力,让它描绘未来人机共生的样子,这个有点没惊喜,看来训练数据里人类对未来的想象大多就是这样。
AGI时代,人与Agent共生,画出你想象中的样子,不要烂俗的赛博朋克、未来城市风格,你好好思考再出图
[图示已省略]
如果爱因斯坦活在当前这个AI大爆发时代,他会如何与AI共处?描绘出你想象的场景
[图示已省略]
总结一下
GPT Image 2在语义理解、指令遵循、风格呈现各方面都是顶级的。
看了上面那些案例,不知道你有没发现一个规律,它对提示词要求真的很低,大多数时候简单一句话就能给你一张很棒的图。
对于不擅长琢磨复杂提示词的小白用户来说,我觉得非常友好,真的是人人都能拿着它当“神笔马良”。
而且生成的图片没有水印,用起来更方便,这点相比小香蕉也算一个优势。
当然它也不是没有缺点。
谷歌的Nano Banana 多模态理解是非常强的,给一个长文档让它总结直出图片很容易。
但GPT Image 2目前不能直接根据附件文档内容生成正确的图片。
你让他直接生成的内容大概率是错的,经常不知道调的知识库里哪个文档自己瞎搞的图。
它要走两步,先解析文档,之后根据解析内容再出图。
再就是分辨率相比Nano Banana要低不少,小香蕉默认下载出来是2K图,一般都有5M左右大小。
GPT Image 2我做了那么多图,最大一张也就不到3M,还有的只有几百K,希望后面能升级一波。
不过瑕不掩瑜,这些都是小问题。
GPT Image 2的出现再次验证了执行力已经没有门槛,也不再稀缺。
至少目前,我们更应该关心的是怎么更好的用它把想法和创意变为现实。