Gemini 2.0 Flash
Gemini 2.0 Flash — быстрая и дешёвая мультимодальная модель Google с контекстом 1M токенов. Поддерживает текст, изображения, аудио и видео. Есть бесплатный уровень через Google AI Studio.
Тарифы
- 15 RPM, 1500 запросов в день
- Лимит: 1M токенов в минуту
- Без платёжной карты
- Полный API через Google AI / Vertex
- Мультимодальные запросы
- Function calling
- Streaming
- Grounding с Google Search
- Нативная генерация изображений
- Длинный контекст > 128K токенов
- Batch processing
- Аудио и видео входные данные
Плюсы и минусы
Плюсы
- Рекордный контекст 1 миллион токенов — крупнейший среди коммерческих моделей
- Сверхнизкая цена: $0,10/$0,40 за 1M токенов
- Бесплатный уровень через Google AI Studio без карты
- Поддержка нативной мультимодальности: текст, фото, аудио, видео
- Интеграция с Google Search (Grounding) для актуальных данных
Минусы
- Иногда уступает GPT-4o и Sonnet 3.5 в сложных рассуждениях
- Нестабильность в следовании инструкциям на сложных задачах
- Grounding с поиском доступен не во всех регионах
- Качество на русском языке несколько ниже, чем у топовых конкурентов
Подробный обзор
Gemini 2.0 Flash — флагманская быстрая модель нового поколения от Google DeepMind, представленная 11 декабря 2024 года в рамках серии Gemini 2.0. Она пришла на смену Gemini 1.5 Flash и принесла улучшения во всех ключевых метриках: скорости, качестве рассуждений и мультимодальных возможностях, при сохранении сверхнизкой стоимости.
Главное технологическое преимущество — контекстное окно в 1 миллион токенов, доступное в коммерческом API. Это эквивалентно примерно 750 000 словам или целой небольшой библиотеке текстов. Для сравнения, GPT-4o и Claude Sonnet 3.5 ограничены 128K и 200K токенами соответственно. Такой контекст открывает возможности для анализа больших кодовых баз, длинных видеозаписей и многодокументного RAG.
Мультимодальность и новые возможности
Gemini 2.0 Flash поддерживает нативную обработку всех модальностей: текст, изображения (включая генерацию через Imagen), аудио и видеофайлы. Новая функция — Grounding с Google Search: модель автоматически обращается к актуальным результатам поиска при ответе на вопросы о текущих событиях. Это устраняет проблему устаревших знаний, характерную для большинства LLM.
Через Google AI Studio модель доступна бесплатно: 15 запросов в минуту, 1500 запросов в день и до 1M токенов в минуту — без необходимости вводить платёжные данные. Это делает Gemini 2.0 Flash лучшим выбором для экспериментов, прототипирования и учебных проектов. В коммерческих приложениях при высоких объёмах стоимость $0,10/1M токенов делает её самой экономичной мультимодальной моделью высокого класса.
Применение и экосистема
Gemini 2.0 Flash доступна через Google AI Studio, Gemini API и Google Cloud Vertex AI. Модель используется в Google Workspace (Gemini в Gmail, Docs, Sheets), Android (Gemini на устройстве) и сторонних приложениях через API. Поддерживает OpenAI-совместимый endpoint, что упрощает миграцию с GPT-моделей без изменения кода.