GPT-4o
GPT-4o — мультимодальная флагманская модель OpenAI с нативной обработкой текста, изображений и аудио. Выпущена в мае 2024 года, стала стандартом качества для сложных задач.
Тарифы
- Доступ через ChatGPT Free с лимитами
- Ограниченное количество запросов в день
- Без API доступа
- Неограниченный GPT-4o в чате
- Приоритетный доступ
- Генерация изображений DALL-E
- Полный API доступ
- Поддержка vision (изображения)
- JSON-режим и функции
- Streaming ответы
- Параллельные запросы
- SLA для Enterprise
Плюсы и минусы
Плюсы
- Нативная мультимодальность: текст, изображения и аудио в одной модели
- Высокая скорость работы по сравнению с GPT-4 Turbo
- Отличное качество кода и рассуждений
- Широкая экосистема: плагины, API, ChatGPT
- Поддержка более 50 языков включая русский
Минусы
- Закрытый исходный код, нет возможности самостоятельного развёртывания
- Стоимость API выше бюджетных аналогов
- Иногда отказывается выполнять специфические задачи из-за фильтров
- Контекстное окно 128K уступает Gemini 1M
Подробный обзор
GPT-4o (читается «GPT-4 omni») — флагманская мультимодальная модель OpenAI, представленная 13 мая 2024 года. Приставка «omni» отражает ключевое отличие от предшественников: модель нативно обрабатывает текст, изображения и аудио в единой архитектуре, без конвейеров из отдельных компонентов. Это обеспечивает значительно более быстрые и естественные ответы по сравнению с GPT-4 Turbo.
На момент выхода GPT-4o установила новые стандарты в большинстве академических бенчмарков: MMLU (88,7%), HumanEval для кода (90,2%), MATH (76,6%). В тестах на понимание изображений и рассуждение с визуальным контентом модель превзошла GPT-4V. Особенно заметны улучшения в скорости — задержка ответа снизилась примерно вдвое.
Возможности и применение
GPT-4o отлично справляется с широким спектром задач: от написания и редактирования текстов на русском языке до разработки программного обеспечения, анализа данных и работы с изображениями. Модель поддерживает function calling, JSON-режим и vision — анализ фотографий, скриншотов, диаграмм и документов. В ChatGPT Plus доступна также генерация изображений через интегрированный DALL-E.
Контекстное окно в 128 000 токенов позволяет обрабатывать большие документы, длинные кодовые базы и объёмные переписки. API GPT-4o широко используется в корпоративных приложениях, чат-ботах, системах анализа документов и инструментах автоматизации. Модель доступна в ChatGPT Free (с ограничениями), ChatGPT Plus ($20/мес) и через OpenAI API.
Цены и доступность
Стоимость через API составляет $2,50 за миллион входных токенов и $10,00 за миллион выходных токенов. Для сравнения, GPT-4 Turbo стоил $10/$30 — то есть GPT-4o в 4 раза дешевле при сопоставимом качестве. При использовании кэширования промптов (Prompt Caching) стоимость входных токенов снижается ещё на 50%. Пользователи ChatGPT Free получают доступ к GPT-4o с дневными лимитами, ChatGPT Plus даёт приоритетный доступ без жёстких ограничений.