Stable Diffusion 3.5
Семейство открытых моделей генерации изображений на MMDiT. Large (8.1B), Large Turbo (4 шага инференса) и Medium (2.5B, 9.9 ГБ VRAM). Типографика, сложные промпты. Бесплатно для коммерческого использования до $1M выручки.
Тарифы
- 3.5 кредитов
- Community License
- До $1M выручки
Плюсы и минусы
Плюсы
- Открытые веса — локальный запуск, LoRA, дообучение
- Medium работает на 9.9 ГБ VRAM
- Large Turbo — 4 шага с сохранением качества
- Бесплатно до $1M выручки
Минусы
- Лицензия ограничивает бесплатное использование $1M
- Large — 8.1B параметров, нужна мощная GPU
- Уступает Midjourney в фотореализме
- Stability AI — финансовые трудности
Подробный обзор
Что такое Stable Diffusion 3.5
Stable Diffusion 3.5 — семейство открытых моделей генерации изображений от Stability AI на архитектуре MMDiT (Multimodal Diffusion Transformer). Три варианта: Large (8.1B параметров), Large Turbo (ускоренная генерация за 4 шага) и Medium (2.5B, от 9.9 ГБ VRAM).
Ключевые возможности
Улучшенная типографика — корректный рендеринг текста на изображениях. Понимание сложных композиционных промптов. Large Turbo генерирует за 4 шага с минимальной потерей качества. Medium запускается на потребительских GPU с 9.9 ГБ VRAM (RTX 3060, RTX 4060).
Community License — бесплатно для коммерческого использования при выручке до $1M/год. Поддержка LoRA-адаптеров, дообучение на собственных данных. Веса на HuggingFace.
Сравнение с конкурентами
В отличие от DALL-E 3 и Midjourney, SD 3.5 можно запустить локально и дообучить. Medium-версия работает на обычном GPU, тогда как FLUX 2.0 требует минимум 16 ГБ VRAM. По качеству фотореализма уступает Midjourney v8, но превосходит в стилизации и контроле.
Как начать
Скачать веса с HuggingFace (stabilityai/stable-diffusion-3.5-large или medium). Запустить через ComfyUI, Automatic1111 или Stability AI API ($0.035/изображение). Для дообучения — используйте LoRA с kohya_ss.