标题:OpenAI 推出「自由生图」功能:GPT-4o 助力 ChatGPT 玩转图像创作
【OpenAI 新闻】
今日破晓,OpenAI 静悄悄地推出了革命性的新功能——基于 GPT-4o 技术的「自由生图」功能,即 Images in ChatGPT。这一创新让图像的创建与定制变得前所未有的简单。
轻松实现图像定制
自「自由生图」功能上线以来,用户仅需描述自己的需求,无论是精确的尺寸、色彩,还是透明背景等细节,都可以轻松实现。就像与 GPT-4o 进行自然对话一样,你只需简单描述你的想象,即可得到相应的图像。
实例说明
例如,你可以这样向 GPT-4o 描述一幅图像:一个手机拍摄的玻璃白板广角图像,位于俯瞰海湾大桥的房间内。画面中,一位女士穿着带有 OpenAI 标志的 T 恤在写字,字迹自然却略显凌乱,同时可见摄影师的倒影。
图像与文字同步
GPT-4o 还能根据提供的文字内容,在生成的图像上同步添加相应的笔记。当你输入“摄影师的自拍照,她转身和他击掌”的指令后,图像中的人物动作以及白板上的反光都会相应地发生变化。
全面开放,体验不限
目前,这一功能已向所有 ChatGPT 订阅层级用户开放,包括免费用户。不过,免费用户的使用次数有所限制。由于生成的图片更加详细,渲染时间相对较长,通常需要约一分钟。
默认图像生成器
OpenAI 表示,这一功能将成为 ChatGPT 的默认图像生成器,并可在 Sora 中使用。开发人员也将很快通过 API 利用 GPT-4o 生成图像,并在未来几周内推出访问权限。
五大改进能力
OpenAI 强调,这一功能是基于在线图像和文本的联合分布训练模型开发的,模型通过结合后训练,具备视觉流畅性,能够生成有用、一致且具上下文感知的图像。
1. 文本渲染能力
GPT-4o 现在可以将精确符号与图像融合,通过自然对话优化图像,在图像中添加文字以提升含义,并在聊天中确保图像的一致性。
2. 多轮生成
用户可以通过与 GPT-4o 的自然对话来优化图像,结合图像和文本信息,确保内容的一致性。例如,在设计电子游戏角色时,可以在多次迭代中保持角色的外观连贯。
3. 指令遵循
GPT-4o 的图像生成遵循详细的提示,注重细节。它能够处理多达 10-20 个不同的对象,相较于其他系统处理约 5-8 个对象时的困难,提供了更精确的图像控制。
4. 上下文学习能力
GPT-4o 可对用户上传的图像进行分析和学习,将图像细节与上下文无缝整合,为图像生成提供信息。
5. 世界知识
GPT-4o 可分析学习用户上传图像,将其细节融入上下文指导图像生成,原生图像生成使模型更智能高效。
风格多样,应用广泛
通过对多种风格图像的训练,模型能够创建或转换逼真图像,并按要求生成特定场景的照片。例如,你可以生成一张狗仔队风格的抓拍照片,或者一张逼真的 2006 年夏天的多伦多农贸市场照片。
局限性
目前,模型仍存在一些局限性,如裁剪较长图像时可能截不全;图像生成也可能虚构信息,尤其是在低上下文提示的情况下。
安全措施
OpenAI 还强调了在新功能中实施的安全措施,以防止滥用行为。所有生成的图像都包含数字水印,标明其由 AI 生成,且用户拥有这些图像的完整使用权,但需遵守使用政策。
结语
OpenAI 的「自由生图」功能无疑为图像创作领域带来了巨大的变革。随着技术的不断进步,我们期待未来能看到更多令人惊叹的图像作品。
(本文由锦鲤整理,如需转载或投稿,请直接在公众号内留言。)