MAI-Transcribe-1 транскрибирует аудио, Seedance 2.0 генерирует видео — полностью разные инструменты.
Модель распознавания речи Microsoft. 25 языков включая русский. В 2.5 раза быстрее Azure Fast. Лучший WER на FLEURS, обгоняя Whisper, GPT-Transcribe и Gemini Flash-Lite. Аудиофайлы до 200 МБ.
Тарифы, обзор, бенчмарки →Мультимодальная видео-модель ByteDance второго поколения. Принимает текст, изображения, видео и аудио одновременно — до 9 картинок, 3 видео и 3 аудио за один запрос. Генерирует видео до 15 секунд с нативным аудио, мультишотовой нарезкой и стабильными персонажами. #1 на Artificial Analysis Video Arena с Elo 1269 по text-to-video и 1351 по image-to-video.
Тарифы, обзор, бенчмарки →* Бенчмарки — стандартизированные тесты для оценки качества ИИ-моделей. Чем выше балл, тем лучше модель справляется с задачей.