Microsoft показала свои первые AI-модели. Они быстрые, голосовые и хотят конкурировать с OpenAI

08/09/2025AI звучит, AI и работа

Microsoft представила свои первые собственные AI-модели — MAI-Voice-1 и MAI-1-preview. До этого компания в основном использовала технологии OpenAI, но теперь решила строить свою экосистему.

Что умеют нейросетки

MAI-Voice-1: умеет сгенерировать минуту речи меньше чем за секунду на одном GPU. Уже встроен в Copilot Daily (читает новости) и в функции, которые превращают тексты в подкасты. В Copilot Labs можно выбрать голос, стиль речи и проверить модель на себе.
MAI-1-preview: текстовый помощник, обученный на 15 000 Nvidia H100 GPU. Фокус — повседневные задачи и простые текстовые запросы в Copilot.

«Объединение разных моделей под разные сценарии откроет огромную ценность», — пишет Microsoft AI.

Глава Microsoft AI Мустафа Сулейман подчёркивает: эти модели делаются не для корпораций, а для пользователей. Идея — сделать «компаньона для жизни», который работает быстро и помогает в бытовых сценариях.

Почему это важно

Скорость: Voice-модель Microsoft обещает рекордную производительность.
Независимость: теперь Copilot не только «фронт» для OpenAI, но и платформа со своими мозгами.
Будущее: Microsoft хочет не одну «супермодель», а целый «оркестр» специализированных ИИ.

«Объединение разных моделей под разные сценарии откроет огромную ценность», — пишет Microsoft AI.

Как они выглядит на фоне конкурентов

Модель	Интеграции / доступность	Стоимость / аппарат	Что умеет	Примечание
MAI-Voice-1	Copilot Daily, Podcasts, Copilot Labs	1 минута аудио < 1 с на 1 GPU	Очень быстрая генерация речи, выбор стиля и голоса	Если данные верны — это прорыв, но независимых тестов мало
MAI-1-preview	LMArena, скоро — Copilot	~15 000 H100 GPU	Текстовые задачи, MoE-архитектура, следование инструкциям	В рейтингах пока на уровне GPT-4.1 Flash
OpenAI Realtime	Realtime API, SIP, мультимодальность	$32–64 за 1M аудио-токенов	Речевые агенты, функции, speech-to-speech, image input	Готовая зрелая платформа, но дорогая
xAI Grok	Пока ограниченно, в экосистему X (Twitter/X)	~200 000 GPU	Общая языковая модель	Мощная инфраструктура, но деталей про речь нет

И что дальше

MAI-1-preview уже тестируется на LMArena, а Voice-модель встраивается в продукты Microsoft.

Если компания действительно будет двигаться в сторону «оркестра специализированных моделей», то Copilot может стать не просто «надстройкой над GPT», а самостоятельным игроком в гонке больших AI.