Каталог моделей
🧠 Мультимодальная💬 Текст🎨 Изображения💻 Код API

GPT-4o

OpenAIДата выхода: 13 мая 2024Контекст: 128K токенов Сайт

GPT-4o — мультимодальная флагманская модель OpenAI с нативной обработкой текста, изображений и аудио. Выпущена в мае 2024 года, стала стандартом качества для сложных задач.

Тарифы

Бесплатно
Бесплатно
  • Доступ через ChatGPT Free с лимитами
  • Ограниченное количество запросов в день
  • Без API доступа
ChatGPT Plus
$20мес
  • Неограниченный GPT-4o в чате
  • Приоритетный доступ
  • Генерация изображений DALL-E
API — ввод
$2.501M токенов
  • Полный API доступ
  • Поддержка vision (изображения)
  • JSON-режим и функции
API — вывод
$10.001M токенов
  • Streaming ответы
  • Параллельные запросы
  • SLA для Enterprise

Плюсы и минусы

Плюсы

  • Нативная мультимодальность: текст, изображения и аудио в одной модели
  • Высокая скорость работы по сравнению с GPT-4 Turbo
  • Отличное качество кода и рассуждений
  • Широкая экосистема: плагины, API, ChatGPT
  • Поддержка более 50 языков включая русский

Минусы

  • Закрытый исходный код, нет возможности самостоятельного развёртывания
  • Стоимость API выше бюджетных аналогов
  • Иногда отказывается выполнять специфические задачи из-за фильтров
  • Контекстное окно 128K уступает Gemini 1M

Подробный обзор

GPT-4o (читается «GPT-4 omni») — флагманская мультимодальная модель OpenAI, представленная 13 мая 2024 года. Приставка «omni» отражает ключевое отличие от предшественников: модель нативно обрабатывает текст, изображения и аудио в единой архитектуре, без конвейеров из отдельных компонентов. Это обеспечивает значительно более быстрые и естественные ответы по сравнению с GPT-4 Turbo.

На момент выхода GPT-4o установила новые стандарты в большинстве академических бенчмарков: MMLU (88,7%), HumanEval для кода (90,2%), MATH (76,6%). В тестах на понимание изображений и рассуждение с визуальным контентом модель превзошла GPT-4V. Особенно заметны улучшения в скорости — задержка ответа снизилась примерно вдвое.

Возможности и применение

GPT-4o отлично справляется с широким спектром задач: от написания и редактирования текстов на русском языке до разработки программного обеспечения, анализа данных и работы с изображениями. Модель поддерживает function calling, JSON-режим и vision — анализ фотографий, скриншотов, диаграмм и документов. В ChatGPT Plus доступна также генерация изображений через интегрированный DALL-E.

Контекстное окно в 128 000 токенов позволяет обрабатывать большие документы, длинные кодовые базы и объёмные переписки. API GPT-4o широко используется в корпоративных приложениях, чат-ботах, системах анализа документов и инструментах автоматизации. Модель доступна в ChatGPT Free (с ограничениями), ChatGPT Plus ($20/мес) и через OpenAI API.

Цены и доступность

Стоимость через API составляет $2,50 за миллион входных токенов и $10,00 за миллион выходных токенов. Для сравнения, GPT-4 Turbo стоил $10/$30 — то есть GPT-4o в 4 раза дешевле при сопоставимом качестве. При использовании кэширования промптов (Prompt Caching) стоимость входных токенов снижается ещё на 50%. Пользователи ChatGPT Free получают доступ к GPT-4o с дневными лимитами, ChatGPT Plus даёт приоритетный доступ без жёстких ограничений.

Вопросы и ответы

Чем GPT-4o отличается от GPT-4 Turbo?+
GPT-4o работает быстрее (задержка ≈ вдвое меньше), стоит дешевле ($2,5 vs $10 за 1M входных токенов) и нативно обрабатывает изображения и аудио без отдельных моделей. По качеству на большинстве бенчмарков они сопоставимы, GPT-4o немного лучше в мультимодальных задачах.
Можно ли использовать GPT-4o бесплатно?+
Да. В ChatGPT Free доступен GPT-4o с ограничениями по количеству запросов в день. При превышении лимита система автоматически переключается на GPT-4o Mini. Для неограниченного использования нужна подписка ChatGPT Plus за $20/мес.
Поддерживает ли GPT-4o русский язык?+
Да, GPT-4o отлично работает с русским языком: понимает, генерирует и переводит тексты. Качество на русском несколько ниже, чем на английском, но для большинства задач оно более чем достаточно. Модель поддерживает более 50 языков.

Похожие модели

Текст

GigaChat 2.0

Сбер

Флагманская российская языковая модель от Сбера. Контекст 128K токенов, долговременная память, встроенный интерпретатор кода и автономный веб-поиск. Лучшее понимание русского языка среди всех моделей.

Бесплатно
Текст

Qwen 3

Alibaba Cloud

Серия LLM от Alibaba с гибридным рассуждением. 8 моделей: 6 плотных (0.6B-32B) и 2 MoE (30B/3B, 235B/22B). 36 трлн токенов обучения, 119 языков. Думающий режим для сложных задач, быстрый для простых. Apache 2.0.

$0.05/1M input
Мультимодальная

Claude Sonnet 4.6

Anthropic

Оптимальная модель Anthropic по соотношению цены и качества из семейства Claude 4.6. Приближается к Opus по интеллекту при значительно меньшей стоимости. Отлично справляется с кодингом, анализом документов, агентными задачами и computer use. Контекст 1M токенов, до 64K токенов на выходе. Идеальна для повседневных рабочих задач, где нужен баланс между скоростью, качеством и ценой.

$20/мес
Мультимодальная

GPT-5.4

OpenAI

Флагманская модель OpenAI с контекстным окном в 1 млн токенов. Лидирует в рейтингах по комплексным задачам: рассуждения, анализ, генерация кода и работа с длинными документами. Доступна в версиях Standard, Thinking и Pro. Поддерживает текст, изображения и код. На 33% меньше галлюцинаций по сравнению с GPT-5.2

Бесплатно
Мультимодальная

Muse Spark

Meta

Первая закрытая модель Meta от Superintelligence Labs. Мультимодальная модель рассуждений: текст, изображения, речь. Уникальный Contemplating Mode — мульти-агентная параллельная система. Три режима: Instant, Thinking, Contemplating. Бесплатно через meta.ai.

Бесплатно

Используете GPT-4o?

Поделитесь опытом в нашем сообществе

Написать пост