Неужели OpenAI это сделала! Долгожданное улучшение генерации изображений

OpenAI запускает генерацию изображений GPT-4o с улучшенным текстом и инструкциями фото 1

OpenAI представила усовершенствованный генератор изображений в составе GPT-4o.

Известно, что новая генерация изображений GPT-4o решает такие нюансы, как проблемы с отображением лого, текста и прочих элементов.

База знаний и контекст чата позволяют улучшенной модели точно воспроизводить текст и корректнее следовать инструкциям. Также она дает возможность редактировать загруженные картинки или создавать новые на основе загруженного изображения.

Доступность

Новый генератор уже открывается всем пользователям ChatGPT Plus, Pro, Free, Team. Так как эта модель будет стандартной для генерации картинки в ChatGPT, пользователям больше не придется выбирать ее вручную, перед тем как ввести запрос.

При настройке изображения можно указывать соотношение сторон, НЕХ-коды и даже прозрачный фон. Ожидается, что в ближайшие недели обновленный генератор также станет доступным для пользователей ChatGPT Enterprise и Edu.

OpenAI запускает генерацию изображений GPT-4o с улучшенным текстом и инструкциями фото 2

Какие есть ограничения модели?

Время генерации: из-за повышенной детализации время создания изображения может составить до одной минуты.
Кадрирование: длинные картинки, особенно в нижней части, могут обрезаться очень плотно.
Выдумывание деталей: запросы с недостаточной информацией в контексте могут стать причиной того, что модель начнет «додумывать» детали самостоятельно.
Лимитированные знания: создавая сложные концепции, модель может некорректно воспроизводить более чем 10-20 объектов одновременно.
Нюансы с не латинским языком: присутствует риск искаженного или некорректного отображения символов.
Редактирование отдельных деталей изображения не всегда получается без побочных изменений на картинке.
Модель может не четко отображать мелкие детали.

Планируется, что OpenAI приступит к исправлению этих ограничений в ближайшие недели- месяцы.

Кроме того, все картинки, созданные посредством этого генератора, включат в себя C2PA-метаданные. В то же время внутренний OpenAI инструмент сможет анализировать их происхождение.