Microsoft показала свои первые AI-модели. Они быстрые, голосовые и хотят конкурировать с OpenAI

Microsoft показала свои первые AI-модели. Они быстрые, голосовые и хотят конкурировать с OpenAI

Microsoft представила свои первые собственные AI-модели — MAI-Voice-1 и MAI-1-preview. До этого компания в основном использовала технологии OpenAI, но теперь решила строить свою экосистему.

Что умеют нейросетки

  • MAI-Voice-1: умеет сгенерировать минуту речи меньше чем за секунду на одном GPU. Уже встроен в Copilot Daily (читает новости) и в функции, которые превращают тексты в подкасты. В Copilot Labs можно выбрать голос, стиль речи и проверить модель на себе.
  • MAI-1-preview: текстовый помощник, обученный на 15 000 Nvidia H100 GPU. Фокус — повседневные задачи и простые текстовые запросы в Copilot.

«Объединение разных моделей под разные сценарии откроет огромную ценность», — пишет Microsoft AI.


Глава Microsoft AI Мустафа Сулейман подчёркивает: эти модели делаются не для корпораций, а для пользователей. Идея — сделать «компаньона для жизни», который работает быстро и помогает в бытовых сценариях.

Почему это важно

  1. Скорость: Voice-модель Microsoft обещает рекордную производительность.
  2. Независимость: теперь Copilot не только «фронт» для OpenAI, но и платформа со своими мозгами.
  3. Будущее: Microsoft хочет не одну «супермодель», а целый «оркестр» специализированных ИИ.

«Объединение разных моделей под разные сценарии откроет огромную ценность», — пишет Microsoft AI.

Как они выглядит на фоне конкурентов

МодельИнтеграции / доступностьСтоимость / аппаратЧто умеетПримечание
MAI-Voice-1Copilot Daily, Podcasts, Copilot Labs1 минута аудио < 1 с на 1 GPUОчень быстрая генерация речи, выбор стиля и голосаЕсли данные верны — это прорыв, но независимых тестов мало
MAI-1-previewLMArena, скоро — Copilot~15 000 H100 GPUТекстовые задачи, MoE-архитектура, следование инструкциямВ рейтингах пока на уровне GPT-4.1 Flash
OpenAI RealtimeRealtime API, SIP, мультимодальность$32–64 за 1M аудио-токеновРечевые агенты, функции, speech-to-speech, image inputГотовая зрелая платформа, но дорогая
xAI GrokПока ограниченно, в экосистему X (Twitter/X)~200 000 GPUОбщая языковая модельМощная инфраструктура, но деталей про речь нет

И что дальше

MAI-1-preview уже тестируется на LMArena, а Voice-модель встраивается в продукты Microsoft.

Если компания действительно будет двигаться в сторону «оркестра специализированных моделей», то Copilot может стать не просто «надстройкой над GPT», а самостоятельным игроком в гонке больших AI.

Что ещё почитать

Поделиться: