Gemini Omni: ИИ, который редактирует видео через промпты

Google представила Gemini Omni Flash — модель, которая создаёт и редактирует видео из текста, картинок, аудио и видео. Разбираем, что она умеет и зачем нужна авторам, маркетологам и обычным пользователям.

Компания представила Gemini Omni Flash — новую модель для генерации и редактирования видео. Ей можно дать текст, картинку, видео или аудио, а на выходе получить новый ролик.

И главное: ролик можно дальше править обычными командами в чате. Не «откройте таймлайн, найдите слой, поправьте маску», а человеческое: «сделай свет мягче», «измени ракурс», «перенеси персонажа в другое место», «добавь эффект движения».

Google пытается сделать не просто генератор красивых видео, а модель, которая понимает контекст сцены и помнит предыдущие правки.

Что такое Gemini Omni

Gemini Omni — новая мультимодальная модель Google. Мультимодальная — значит, она работает не только с текстом. В неё можно загружать разные типы входных данных: текст, изображения, видео и аудио. А дальше модель собирает из этого видео.

Первая версия называется Gemini Omni Flash. Сейчас главный фокус — именно видео. Google пишет, что со временем Omni будет поддерживать и другие форматы вывода, например изображения и аудио.

Что умеет Gemini Omni

1. Редактировать видео через обычный диалог

Главная фишка Omni — видео можно править словами.

Например, вы сняли или сгенерировали ролик. Потом пишете:

Сделай скульптуру из пузырей.
Затем измени свет.
Потом поменяй ракурс.
Теперь добавь объект над рукой.

И модель должна не забыть, что уже происходило в сцене. Google отдельно подчёркивает, что каждая новая инструкция строится на предыдущей: персонажи остаются узнаваемыми, сцена сохраняет логику, физика не должна разваливаться на глазах.

Это важно, потому что у многих видеогенераторов сейчас проблема такая: первый результат может быть эффектным, но стоит попросить «чуть-чуть поправить», и всё превращается в новое видео. Персонаж другой, стиль другой, сцена другая, настроение тоже куда-то ушло за хлебом.

Omni пытается решить именно эту боль.

2. Менять действие внутри видео

Google показывает, что с помощью Omni можно не только менять визуальный стиль, но и вмешиваться в само действие.

Например, попросить, чтобы зеркало стало жидким, рука превратилась в отражающий материал, свет в окнах включался в ритм музыки или объект начал вести себя иначе.

Для обычного человека это означает простую вещь: можно брать реальное видео или черновик и превращать его в более выразительный ролик без тяжёлого монтажа и спецэффектов.

Для автора контента — быстрее делать Shorts, Reels, обложки, тизеры и визуальные вставки.

Для преподавателя — собирать объясняющие видео.

Для маркетолога — быстро проверять визуальные идеи до того, как подключать продакшн.

Для уставшего взрослого — наконец-то не открывать 12 вкладок с туториалами по After Effects.

3. Создавать объясняющие видео

Omni умеет не только «сделай красиво», но и «объясни сложную штуку визуально».

В статье Google приводит пример с claymation-видео про фолдинг белка: модель должна собрать короткую объясняющую сцену в стиле пластилиновой анимации.

Вот тут начинается интересное для блогов, курсов, презентаций и продуктовых команд. Потому что много идей сложно объяснять текстом. Иногда проще показать:

как работает функция;

что происходит внутри процесса;

почему пользователь застревает;

как устроена воронка;

чем один сценарий отличается от другого;

что изменится после запуска новой фичи.

Раньше для такого нужен был дизайнер, моушн-дизайнер, сценарист и немного веры в бюджет. Теперь хотя бы черновик можно собрать через промпт.

4. Использовать разные референсы одновременно

Omni может брать несколько входных данных и собирать из них один ролик.

Например:

картинку персонажа;

видео с движением;

аудио с ритмом;

текстовое описание стиля.

И затем попросить модель: «возьми движение отсюда, персонажа отсюда, стиль вот такой, синхронизируй с музыкой». Google пишет, что на старте для аудио будут поддерживаться голосовые референсы, а другие типы аудио добавят позже.

Это очень похоже на то, как люди на самом деле ставят задачу дизайнеру или монтажёру:

«Вот референс по настроению».

«Вот персонаж».

«Вот музыка».

«Вот пример движения».

«Собери в таком духе, но не копируй один в один».

Теперь такую задачу можно будет формулировать прямо модели.

Где это пригодится

Самый очевидный сценарий — соцсети.

Нужно сделать короткий ролик для Reels, Shorts, TikTok, Telegram или YouTube? Можно быстрее собрать визуальный черновик.

Но польза шире.

Для авторов и блогеров

Можно делать видеообъяснялки, визуальные метафоры, заставки, нарезки, промо для статей и постов.

Например:

«Покажи, как человек открывает 20 вкладок, а потом ИИ собирает всё в один аккуратный план».

Или:

«Сделай ролик про хаос в голове перед дедлайном, но в мягком футуристичном стиле».

Для маркетологов

Можно тестировать идеи кампаний до продакшна.

Не обязательно сразу идти в студию, искать оператора, собирать мудборд и спорить три часа про «чуть более живую энергию». Сначала можно сгенерировать несколько направлений и понять, есть ли там вообще идея.

Для редакторов и контент-дизайнеров

Можно превращать сложные объяснения в короткие визуальные сценарии.

Например, не просто писать «мы упростили путь пользователя», а показать, как старый сценарий был лабиринтом, а новый стал прямой дорожкой.

Для образования и курсов

Можно быстро собирать визуальные объяснения: процессы, схемы, абстрактные понятия, научные темы, исторические сцены, метафоры.

И да, это не заменяет хорошего преподавателя. Но сильно помогает, когда нужно сделать материал не таким, будто его выгрузили из методички 2007 года.

Что с безопасностью

Google пишет, что все видео, созданные через Omni, будут получать невидимый цифровой водяной знак SynthID. Такие видео можно будет проверить через Gemini app, Gemini в Chrome и Google Search.

Это важный момент, потому что чем проще становится генерация видео, тем проще становится и производство фейков. Особенно если речь о людях, голосах и реалистичных сценах.

Также Google отдельно говорит про цифровые аватары: пользователи смогут создавать видео со своей цифровой версией через функцию Avatars. А вот возможности изменения чужой речи и аудио компания пока тестирует осторожно.

Перевод с корпоративного на человеческий: «Да, мы понимаем, что это может быть опасно, поэтому выкатываем не всё сразу».

Где доступен Gemini Omni

Gemini Omni Flash запускается для подписчиков Google AI Plus, Pro и Ultra через Gemini app и Google Flow. Также Google пишет, что модель появится бесплатно для пользователей YouTube Shorts и YouTube Create App начиная с этой недели. Для разработчиков и корпоративных клиентов API обещают в ближайшие недели.

То есть пока это не «открыли всем и навсегда». Доступ будет раскатываться постепенно.

Промпты, которые можно попробовать

Промпт для ролика к статье

Создай короткое видео 8–10 секунд для статьи о [тема].

Сцена: [что должно происходить].
Настроение: [спокойное / футуристичное / ироничное / тревожное / вдохновляющее].
Стиль: [реалистичный / редакционный / 3D / пастельный / cinematic / минималистичный].
Главная метафора: [например, хаос превращается в структуру].
Формат: вертикальное видео 9:16 для Shorts/Reels.
Без текста на экране, оставь место сверху для заголовка.

Промпт для объясняющего видео

Создай короткое объясняющее видео о том, как работает [процесс].

Покажи процесс через простую визуальную метафору: [метафора].
Видео должно быть понятно человеку без технического бэкграунда.
Сцены должны логично переходить одна в другую.
Стиль: чистый, современный, без перегруза деталями.
Длительность: 10 секунд.

Промпт для рекламного визуала

Создай короткий проморолик для [продукт / курс / рассылка].

Целевая аудитория: [кто].
Проблема аудитории: [какая боль].
Визуальная идея: [что показываем].
Настроение: полезно, живо, без пафоса.
Стиль: современный editorial visual, мягкий свет, чистая композиция.
Формат: 9:16.
Оставь место для заголовка и CTA.

Промпт для редактирования видео

Отредактируй это видео, сохранив основную сцену и персонажа.

Измени только:
1. [что меняем]
2. [что добавляем]
3. [какой эффект нужен]

Не меняй:
1. композицию;
2. внешность персонажа;
3. общий стиль;
4. движение камеры.

Сделай результат более [нужное качество: мягким / динамичным / кинематографичным / понятным].

Главное

Gemini Omni Flash — это новая модель Google для генерации и редактирования видео из разных типов входных данных: текста, изображений, видео и аудио. Её главная ставка — редактирование через разговор и сохранение контекста между правками.

Для обычного пользователя это значит меньше ручного монтажа и больше быстрых визуальных черновиков.

Для авторов, редакторов, маркетологов и преподавателей — новый способ быстро превращать идеи в видео.

Пока не стоит ждать магии без ошибок. Видео по-прежнему сложный формат: физика, движение, руки, лица, голос, синхронизация, права, безопасность — всё это будет ломаться и требовать проверки.

Но направление уже понятно: скоро мы будем не просто писать промпты для картинок. Мы будем собирать ролики как документы — через черновик, правки и нормальное человеческое «сделай вот так, только лучше».

Что ещё почитать?