Microsoft представила свои первые собственные AI-модели — MAI-Voice-1 и MAI-1-preview. До этого компания в основном использовала технологии OpenAI, но теперь решила строить свою экосистему.
Что умеют нейросетки
- MAI-Voice-1: умеет сгенерировать минуту речи меньше чем за секунду на одном GPU. Уже встроен в Copilot Daily (читает новости) и в функции, которые превращают тексты в подкасты. В Copilot Labs можно выбрать голос, стиль речи и проверить модель на себе.
- MAI-1-preview: текстовый помощник, обученный на 15 000 Nvidia H100 GPU. Фокус — повседневные задачи и простые текстовые запросы в Copilot.
«Объединение разных моделей под разные сценарии откроет огромную ценность», — пишет Microsoft AI.
Глава Microsoft AI Мустафа Сулейман подчёркивает: эти модели делаются не для корпораций, а для пользователей. Идея — сделать «компаньона для жизни», который работает быстро и помогает в бытовых сценариях.
Почему это важно
- Скорость: Voice-модель Microsoft обещает рекордную производительность.
- Независимость: теперь Copilot не только «фронт» для OpenAI, но и платформа со своими мозгами.
- Будущее: Microsoft хочет не одну «супермодель», а целый «оркестр» специализированных ИИ.
«Объединение разных моделей под разные сценарии откроет огромную ценность», — пишет Microsoft AI.
Как они выглядит на фоне конкурентов
| Модель | Интеграции / доступность | Стоимость / аппарат | Что умеет | Примечание |
|---|---|---|---|---|
| MAI-Voice-1 | Copilot Daily, Podcasts, Copilot Labs | 1 минута аудио < 1 с на 1 GPU | Очень быстрая генерация речи, выбор стиля и голоса | Если данные верны — это прорыв, но независимых тестов мало |
| MAI-1-preview | LMArena, скоро — Copilot | ~15 000 H100 GPU | Текстовые задачи, MoE-архитектура, следование инструкциям | В рейтингах пока на уровне GPT-4.1 Flash |
| OpenAI Realtime | Realtime API, SIP, мультимодальность | $32–64 за 1M аудио-токенов | Речевые агенты, функции, speech-to-speech, image input | Готовая зрелая платформа, но дорогая |
| xAI Grok | Пока ограниченно, в экосистему X (Twitter/X) | ~200 000 GPU | Общая языковая модель | Мощная инфраструктура, но деталей про речь нет |
И что дальше
MAI-1-preview уже тестируется на LMArena, а Voice-модель встраивается в продукты Microsoft.
Если компания действительно будет двигаться в сторону «оркестра специализированных моделей», то Copilot может стать не просто «надстройкой над GPT», а самостоятельным игроком в гонке больших AI.





