Модель распознавания речи Microsoft. 25 языков включая русский. В 2.5 раза быстрее Azure Fast. Лучший WER на FLEURS, обгоняя Whisper, GPT-Transcribe и Gemini Flash-Lite. Аудиофайлы до 200 МБ.

Тарифы, обзор, бенчмарки →

Qwen 3

Alibaba Cloud

Серия LLM от Alibaba с гибридным рассуждением. 8 моделей: 6 плотных (0.6B-32B) и 2 MoE (30B/3B, 235B/22B). 36 трлн токенов обучения, 119 языков. Думающий режим для сложных задач, быстрый для простых. Apache 2.0.

Тарифы, обзор, бенчмарки →

Вопросы и ответы

Qwen 3 умеет распознавать речь?+

Базовая версия Qwen 3 — языковая модель для текста. MAI-Transcribe-1 специализируется на STT.

Зачем комбинировать эти модели?+

MAI-Transcribe-1 даёт точную транскрипцию, Qwen 3 (с MMLU 87.1%) анализирует и генерирует ответы.

Какой языковой охват?+

MAI-Transcribe-1 поддерживает 100+ языков для транскрипции, Qwen 3 оптимален для китайского и английского.