DALL-E 3
DALL-E 3 — флагманская модель генерации изображений OpenAI, интегрированная в ChatGPT. Точно следует текстовым описаниям, поддерживает HD-разрешение 1024×1024 до 1792×1024.
Тарифы
- Доступ через ChatGPT с лимитами
- Базовое разрешение 1024×1024
- Ограниченное число генераций в день
- 50 генераций в 3 часа
- HD режим (1024×1792, 1792×1024)
- Более быстрая очередь
- Прямой API доступ
- Все соотношения сторон
- Программная генерация
- Высокая детализация
- Улучшенное разрешение деталей
- Лучший результат для сложных сцен
Плюсы и минусы
Плюсы
- Точное следование промпту — лучшее в классе на момент выхода
- Интеграция с ChatGPT: GPT-4 автоматически улучшает промпт
- Поддержка текста на изображениях (буквы, надписи)
- HD режим с детализацией до 1792×1024 пикселей
- Широкие стили: фото, масло, акварель, цифровое искусство
Минусы
- Нет режима редактирования / inpainting через публичный API
- Запрещает генерацию реальных людей и ряда стилей
- $0,04–$0,08 за изображение дороже Stable Diffusion (self-hosted)
- Максимальное разрешение ограничено 1792×1024 пикселей
Подробный обзор
DALL-E 3 — третье поколение модели генерации изображений от OpenAI, выпущенное в октябре 2023 года. Главное достижение по сравнению с DALL-E 2 — кардинально улучшенное следование текстовым описаниям: модель значительно точнее воспроизводит сложные сцены с несколькими объектами, пространственными отношениями и мелкими деталями.
Особенность DALL-E 3 в экосистеме OpenAI — нативная интеграция с GPT-4 в ChatGPT: когда пользователь описывает желаемое изображение, GPT-4 автоматически переписывает промпт, добавляя художественные детали и уточнения для получения наилучшего результата. Это снижает порог вхождения: даже короткое описание «кот в шляпе» превращается в детальный промпт с указанием стиля, освещения и композиции.
Технические характеристики и стили
DALL-E 3 поддерживает генерацию в форматах 1024×1024 (квадрат), 1024×1792 (вертикальный портрет) и 1792×1024 (горизонтальный пейзаж). HD режим ($0,08 за изображение) добавляет дополнительный проход детализации, значительно улучшая текстуры, лица и мелкие элементы. Поддерживаемые стили — vivid (насыщенный, творческий) и natural (реалистичный, приближенный к фото).
Важная особенность: DALL-E 3 умеет воспроизводить текст на изображениях — вывески, надписи на упаковке, заголовки плакатов. Это было серьёзной слабостью предыдущих генераторов изображений. Модель также хорошо справляется с инфографикой, схемами и иллюстрациями в заданном корпоративном стиле.
Доступность и ограничения
DALL-E 3 доступна через ChatGPT (Free и Plus), API OpenAI и Microsoft Copilot (Azure OpenAI). Стоимость через API: $0,04 (standard) и $0,08 (HD) за изображение — без скидок за объём. По политике безопасности модель отказывает в генерации изображений реальных людей по имени, откровенного контента и материалов, нарушающих авторские права. В сравнении с Midjourney и Stable Diffusion художественное качество DALL-E 3 ниже, но предсказуемость и точность следования промпту — выше.