在使用人工智能生成图像的领域,OpenAI 不断取得进展,似乎突破了可能性的极限。 证据就是今年九月的演示 达尔-E 3,一种新算法,代表了文本到图像生成领域的真正革命。
达尔-E 3 是一个基于 DALL-E 2 和 ChatGPT 的模型,但最重要的是,它在以下任务中脱颖而出 将文本描述“翻译”成图像,具有很高的细节和精确度。 考虑到迄今为止泄露的图像(我们在本文中包含其中一些图像),结果令人印象深刻。
这个强大的人工智能模型 它仍处于开发和研究的早期阶段。。 然而,迄今为止所知道的无疑会引起人们的热情。 这是图像生成技术未来的宣告,一个看似无国界的场景,无疑会让我们多次哑口无言。
关于 DALL-E 3 还有许多细节有待透露,但根据已知的信息,我们可以简要介绍一下该工具可以为我们提供什么:
什么是文本到图像生成?
这是人工智能对我们生活影响最明显的领域之一。 DALL-E 3 等模型创建神经网络,将文本转换为生动、高度逼真的图像。
这些型号 理解和解释我们的写作,捕捉复杂的细节、颜色和上下文,以生成引人注目的视觉表现。 这种生成图像的新方式有许多应用:艺术、设计、内容创作……是将创意变为现实的强大工具。
一种从文本生成图像的新方法
DALL-E 3 专为重新定义从文本生成图像的方式而设计。 迄今为止提出的解决方案常常存在不足,因为它们忽略了某些单词或表达方式。 换句话说:只有那些精通快速工程语言的用户才能利用它。
相反,DALL-E 3 代表了彻底的改变。 这一进步意味着任何用户都可以使用这项技术 并获得令人难以置信的结果,没有复杂性。
与 ChatGPT 完美集成,DALL-E 3 成为满足我们需求的富有创造力和响应能力的合作伙伴。 我们要做的就是通过文字和描述将我们的想法传达给它,让算法完成剩下的工作: 赋予我们的思想生命,生成极具视觉冲击力的个性化图像。
更精确
在 DALL-E 的先前版本中,出现了与其他生成人工智能模型相同的问题。 解释复杂文本消息的方式并不总是正确的。 有时,生成图像时甚至会混淆概念,从而产生荒谬或怪诞的结果。
但与他的前任不同的是, DALL-E 3 旨在以极高的准确度理解文本提示,以前所未有的方式捕捉细微差别和细节。
道德问题和透明度
围绕人工智能生成的图像的伦理争论已经成为许多人的话题,而不仅仅是专家。 为了 避免生成含有暴力、色情内容或可能煽动仇恨的图像,DALL-E 3 采用了某些安全措施,限制了内容生成的某些方面。 它还具有防止生成公众人物图像的过滤器,从而保护他们的隐私并打击这种形式的行为 假新闻.
DALL-E 3 负责人的另一个关注点是尽可能向用户保证其图像的“真实性”。 事实并非如此,因为随着人工智能生成的内容在互联网上变得越来越频繁,它也会增长 在识别所述内容时需要尽可能透明。 同样,目的是避免欺骗和误解,为负责任地使用这项新技术奠定基础。 如果这不是嵌合体的话。
为此,OpenAI 正在积极研究新方法来帮助人们区分人工智能生成的图像和人类创建的图像。 现在正在测试一个已命名的内部工具 “来源分类器”。 理论上,借助该仪器,可以确定图像是否由 DALL-E 3 生成,因此是否不是真实图像。
fecha的lanzamiento
如果一切按计划进行,DALL-E 3 将于 2023 年 XNUMX 月向公众展示。第一个有机会了解新算法如何工作的将是 ChatGPT Plus 和 ChatGPT Enterprise 的用户。 OpenAI 打算分阶段实施 DALL-E 3,即关闭其功能,尽管尚未确定公开和免费发布的具体日期。

