Как писать промпты для Veo 3: подробный гайд

Важно: хоть вы и работаете с русскоязычным контентом, промпты для Veo 3 лучше писать на английском языке. Модель обучена на англоязычном видео и точнее понимает стиль, речь и аудио.
Совет: сначала сформулируйте промпт по-русски, потом переведите на английский. Или пишите сразу на английском и добавляйте перевод в скобках — так проще проверять, всё ли вы передали верно.

Основы: что нужно указывать в промпте

Veo 3 — это модель от Google, которая создаёт видео с озвучкой по текстовому описанию. Она умеет добавлять голоса, звуковые эффекты и даже музыку. Чтобы получить качественный результат, нужно не просто «описать сцену», а продумать её как режиссёр. Хороший промпт помогает модели понять, что вы хотите. Учитывайте:

Объект — кто или что в кадре
Контекст — где всё происходит
Действие — что делает объект
Стиль — визуальная эстетика
Движение камеры — как снято
Композиция — крупный план, общий, зум
Атмосфера — свет, настроение, звук

Пример:

Слабый промпт:
A man answers a rotary phone
(Мужчина поднимает дисковый телефон)

Сильный промпт:
A desperate man in a green trench coat picks up a rotary phone on a brick wall, under eerie green neon light. Shaky dolly zoom closes in on his tense face. Blurred background, neon shadows.
(Отчаявшийся мужчина в зелёном плаще поднимает дисковый телефон со стены из кирпича под зловещим зелёным неоном. Дрожащая камера делает зум на его напряжённое лицо. Фон размывается, в кадре неоновые тени.)

Общий промпт без деталей: Мужчина поднимает дисковый телефон

Промпт с деталями: Отчаявшийся мужчина в зелёном плаще поднимает дисковый телефон со стены из кирпича под зловещим зелёным неоном. Дрожащая камера делает зум на его напряжённое лицо. Фон размывается, в кадре неоновые тени.

Один промпт — один результат

Если вы уже работали с такими моделями, как Midjourney или Flux, вы знаете, что при повторении одного и того же промпта с разными сидами можно получить заметные вариации результата.

С Veo 3 всё иначе. Даже при довольно простом промпте модель выдаёт почти одинаковые видео. Вы можете получить одного и того же персонажа в той же одежде, в похожей обстановке. Это удобно, если в сгенерированном видео есть мелкая ошибка — например, сбой озвучки или странный момент в движении: просто запустите тот же промпт с другим сидом и получите почти то же самое, но без багов.

Но если вы в режиме исследования и хотите посмотреть разные варианты сцены — повторять один и тот же промпт бессмысленно: результат будет почти одинаковым, а деньги потратите зря.

Например, мы дважды запустили промпт “a woman laughs” (женщина смеётся) с разными сидами. Она выглядит одинаково, в той же одежде, смеётся так же, в том же помещении и даже с теми же серёжками. Такая стабильность — редкость для генеративных моделей.

Первый вариант видео

вариация этого видео

Если вы пока не уверены, чего именно хотите — начните с нескольких разных по настроению и содержанию промптов.
Если вы уже знаете какие-то элементы будущего видео — тогда будьте максимально конкретны именно в них.

В этом видео, например, можно поэкспериментировать с описанием:

внешности женщины (цвет волос, причёска, оттенок кожи)
её одежды
окружающей обстановки
как именно она смеётся
почему она смеётся

Вот пара примеров:

A woman laughs long and loudly, she’s in an office meeting and she’s embarrassed afterwards
(Женщина громко и долго смеётся во время офисной встречи, а потом ей становится неловко)

A woman laughs quietly, she’s at home watching a tv show
(Женщина тихо смеётся, сидя дома и смотря телешоу)

Женщина громко и долго смеётся во время офисного совещания, а затем испытывает неловкость.

Женщина тихо смеётся, находясь дома и смотря телевизионное шоу.

Устойчивые персонажи

Чтобы герой выглядел одинаково в разных сценах, используйте точное описание:

John, a man in his 40s with short brown hair, wearing a blue jacket and glasses, looking thoughtful
(Джон, мужчина около 40 лет, короткие каштановые волосы, синий пиджак, очки, задумчивый вид)

Такой шаблон можно повторять из промпта в промпт.

Джон, мужчина около сорока лет с короткими каштановыми волосами, в синем пиджаке и очках, с задумчивым выражением лица, говорит: Привет, я тоже Джон, и выгляжу примерно так же, как тот парень вон там (без субтитров!). Он находится в ярко освещённой комнате.

Джон, мужчина около сорока лет с короткими каштановыми волосами, в синем пиджаке и очках, с задумчивым выражением лица, говорит: Привет, меня зовут Джон, я персонаж, придуманный для этой статьи в блоге (без субтитров!).

Как задать звук

Чтобы получить нужное аудио, указывайте:

Что говорят персонажи
Фон: улица, толпа, тишина
Звуки: звонок, ветер, шаги
Музыку: жанр, настроение

Пример:
sounds of distant bands, noisy crowd, ambient background of a busy festival field
(звуки отдалённой музыки, шумная толпа, фоновый шум переполненного фестиваля)

ссылка на Телеграм-чат

Как писать диалоги

Можно задать реплику явно:

A woman says: Hello, I’m back.
(Женщина говорит: Привет, я вернулась.)

Или неявно:

A woman introduces herself with a smile.
(Женщина представляется с улыбкой.)

Держите фразы короткими — до 8 секунд.

Чтобы избежать лишних субтитров:

Пишите no subtitles
Не используйте кавычки внутри кавычек
Можно повторить: No subtitles. No subtitles!

Джон, мужчина около сорока лет с короткими каштановыми волосами, в синем пиджаке и очках, с задумчивым выражением лица, говорит: Вы дали мне очень длинный промпт, и теперь мне приходится говорить очень быстро и неестественно, чтобы уложиться во все эти слова за 8 секунд. В конце я просто задохнусь, фух.

Слишком коротко (и с ИИ-бредом): Джон, мужчина около сорока лет с короткими каштановыми волосами, в синем пиджаке и очках, с задумчивым выражением лица, говорит: Привет, я Джон.

Доверяем Veo 3 написать реплики

Если вы не уверены в своих силах как сценарист — используйте неявные диалоговые промпты. Это позволит модели самой сгенерировать реплику. К тому же, вы всегда можете выписать удачные фразы из полученного видео, чтобы использовать их в следующих генерациях.

Вот пример: мы попросили Veo 3 создать видео, где стендап-комик рассказывает шутку.

В первом случае — модель сама придумывает шутку
Во втором — мы вставляем текст шутки в промпт вручную

Стендап-комик рассказывает неловкую шутку на музыкальном фестивале, на фоне слышны звуки отдалённых групп, шумная толпа, общее фоновое звучание переполненного фестивального поля (без студийной аудитории).

Стендап-комик рассказывает неловкую шутку на музыкальном фестивале:
— Знаете, что самое классное на музыкальных фестивалях? Смотреть, как 20 тысяч человек делают вид, что знали эту группу до сегодняшнего дня, пока снимают вертикальные видео, которые никогда не пересмотрят.

Камера и стили

Veo 3 хорошо реагирует на команды:

eye level, zoom in, pan shot, dolly shot
(на уровне глаз, зум, панорама, движение камеры)
a selfie video of…
(селфи-видео…)

Примеры стилей:

In the style of LEGO: A man sits by a campfire, shaking hands with a bear.
(В стиле LEGO: Мужчина сидит у костра и жмёт лапу медведю.)

Вертикальные видео

Сейчас Veo 3 работает только в 16:9. Чтобы получить вертикальный формат 9:16 — используйте Luma Reframe Video.

Физика и апскейл

Модель реалистично передаёт движение (падения, взаимодействие, плавность) даже в мультяшных стилях.
Для повышения качества — используйте Topaz Labs Video AI для апскейла до 4K 60fps.