Семейство открытых моделей генерации изображений на MMDiT. Large (8.1B), Large Turbo (4 шага инференса) и Medium (2.5B, 9.9 ГБ VRAM). Типографика, сложные промпты. Бесплатно для коммерческого использования до $1M выручки.
Stable Diffusion 3.5 — семейство открытых моделей генерации изображений от Stability AI на архитектуре MMDiT (Multimodal Diffusion Transformer). Три варианта: Large (8.1B параметров), Large Turbo (ускоренная генерация за 4 шага) и Medium (2.5B, от 9.9 ГБ VRAM).
Ключевые возможности
Улучшенная типографика — корректный рендеринг текста на изображениях. Понимание сложных композиционных промптов. Large Turbo генерирует за 4 шага с минимальной потерей качества. Medium запускается на потребительских GPU с 9.9 ГБ VRAM (RTX 3060, RTX 4060).
Community License — бесплатно для коммерческого использования при выручке до $1M/год. Поддержка LoRA-адаптеров, дообучение на собственных данных. Веса на HuggingFace.
Сравнение с конкурентами
В отличие от DALL-E 3 и Midjourney, SD 3.5 можно запустить локально и дообучить. Medium-версия работает на обычном GPU, тогда как FLUX 2.0 требует минимум 16 ГБ VRAM. По качеству фотореализма уступает Midjourney v8, но превосходит в стилизации и контроле.
Как начать
Скачать веса с HuggingFace (stabilityai/stable-diffusion-3.5-large или medium). Запустить через ComfyUI, Automatic1111 или Stability AIAPI ($0.035/изображение). Для дообучения — используйте LoRA с kohya_ss.