Как правильно писать промпты для Veo 3: гайд по генерации видео с аудио

Как правильно писать промпты для Veo 3: гайд по генерации видео с аудио

Важно: хоть вы и работаете с русскоязычным контентом, промпты для Veo 3 лучше писать на английском языке. Модель обучена на англоязычном видео и точнее понимает стиль, речь и аудио.

Совет: сначала сформулируйте промпт по-русски, потом переведите на английский. Или пишите сразу на английском и добавляйте перевод в скобках — так проще проверять, всё ли вы передали верно.

Основы: что нужно указывать в промпте

Veo 3 — это модель от Google, которая создаёт видео с озвучкой по текстовому описанию. Она умеет добавлять голоса, звуковые эффекты и даже музыку. Чтобы получить качественный результат, нужно не просто «описать сцену», а продумать её как режиссёр. Хороший промпт помогает модели понять, что вы хотите. Учитывайте:

  • Объект — кто или что в кадре
  • Контекст — где всё происходит
  • Действие — что делает объект
  • Стиль — визуальная эстетика
  • Движение камеры — как снято
  • Композиция — крупный план, общий, зум
  • Атмосфера — свет, настроение, звук

Пример:

Слабый промпт:
A man answers a rotary phone
(Мужчина поднимает дисковый телефон)

Сильный промпт:
A desperate man in a green trench coat picks up a rotary phone on a brick wall, under eerie green neon light. Shaky dolly zoom closes in on his tense face. Blurred background, neon shadows.
(Отчаявшийся мужчина в зелёном плаще поднимает дисковый телефон со стены из кирпича под зловещим зелёным неоном. Дрожащая камера делает зум на его напряжённое лицо. Фон размывается, в кадре неоновые тени.)

Общий промпт без деталей: Мужчина поднимает дисковый телефон
Промпт с деталями: Отчаявшийся мужчина в зелёном плаще поднимает дисковый телефон со стены из кирпича под зловещим зелёным неоном. Дрожащая камера делает зум на его напряжённое лицо. Фон размывается, в кадре неоновые тени.

Один промпт — один результат

Если вы уже работали с такими моделями, как Midjourney или Flux, вы знаете, что при повторении одного и того же промпта с разными сидами можно получить заметные вариации результата.

С Veo 3 всё иначе. Даже при довольно простом промпте модель выдаёт почти одинаковые видео. Вы можете получить одного и того же персонажа в той же одежде, в похожей обстановке. Это удобно, если в сгенерированном видео есть мелкая ошибка — например, сбой озвучки или странный момент в движении: просто запустите тот же промпт с другим сидом и получите почти то же самое, но без багов.

Но если вы в режиме исследования и хотите посмотреть разные варианты сцены — повторять один и тот же промпт бессмысленно: результат будет почти одинаковым, а деньги потратите зря.

Например, мы дважды запустили промпт “a woman laughs” (женщина смеётся) с разными сидами. Она выглядит одинаково, в той же одежде, смеётся так же, в том же помещении и даже с теми же серёжками. Такая стабильность — редкость для генеративных моделей.

Первый вариант видео
вариация этого видео

Если вы пока не уверены, чего именно хотите — начните с нескольких разных по настроению и содержанию промптов.
Если вы уже знаете какие-то элементы будущего видео — тогда будьте максимально конкретны именно в них.

В этом видео, например, можно поэкспериментировать с описанием:

  • внешности женщины (цвет волос, причёска, оттенок кожи)
  • её одежды
  • окружающей обстановки
  • как именно она смеётся
  • почему она смеётся

Вот пара примеров:

A woman laughs long and loudly, she’s in an office meeting and she’s embarrassed afterwards
(Женщина громко и долго смеётся во время офисной встречи, а потом ей становится неловко)

A woman laughs quietly, she’s at home watching a tv show
(Женщина тихо смеётся, сидя дома и смотря телешоу)

Женщина громко и долго смеётся во время офисного совещания, а затем испытывает неловкость.
Женщина тихо смеётся, находясь дома и смотря телевизионное шоу.

Устойчивые персонажи

Чтобы герой выглядел одинаково в разных сценах, используйте точное описание:

John, a man in his 40s with short brown hair, wearing a blue jacket and glasses, looking thoughtful
(Джон, мужчина около 40 лет, короткие каштановые волосы, синий пиджак, очки, задумчивый вид)

Такой шаблон можно повторять из промпта в промпт.

Джон, мужчина около сорока лет с короткими каштановыми волосами, в синем пиджаке и очках, с задумчивым выражением лица, говорит: Привет, я тоже Джон, и выгляжу примерно так же, как тот парень вон там (без субтитров!). Он находится в ярко освещённой комнате.
Джон, мужчина около сорока лет с короткими каштановыми волосами, в синем пиджаке и очках, с задумчивым выражением лица, говорит: Привет, меня зовут Джон, я персонаж, придуманный для этой статьи в блоге (без субтитров!).

Как задать звук

Чтобы получить нужное аудио, указывайте:

  • Что говорят персонажи
  • Фон: улица, толпа, тишина
  • Звуки: звонок, ветер, шаги
  • Музыку: жанр, настроение

Пример:
sounds of distant bands, noisy crowd, ambient background of a busy festival field
(звуки отдалённой музыки, шумная толпа, фоновый шум переполненного фестиваля)

Как писать диалоги

Можно задать реплику явно:

A woman says: Hello, I’m back.
(Женщина говорит: Привет, я вернулась.)

Или неявно:

A woman introduces herself with a smile.
(Женщина представляется с улыбкой.)

Держите фразы короткими — до 8 секунд.

Чтобы избежать лишних субтитров:

  • Пишите no subtitles
  • Не используйте кавычки внутри кавычек
  • Можно повторить: No subtitles. No subtitles!
Джон, мужчина около сорока лет с короткими каштановыми волосами, в синем пиджаке и очках, с задумчивым выражением лица, говорит: Вы дали мне очень длинный промпт, и теперь мне приходится говорить очень быстро и неестественно, чтобы уложиться во все эти слова за 8 секунд. В конце я просто задохнусь, фух.
Слишком коротко (и с ИИ-бредом): Джон, мужчина около сорока лет с короткими каштановыми волосами, в синем пиджаке и очках, с задумчивым выражением лица, говорит: Привет, я Джон.

Доверяем Veo 3 написать реплики

Если вы не уверены в своих силах как сценарист — используйте неявные диалоговые промпты. Это позволит модели самой сгенерировать реплику. К тому же, вы всегда можете выписать удачные фразы из полученного видео, чтобы использовать их в следующих генерациях.

Вот пример: мы попросили Veo 3 создать видео, где стендап-комик рассказывает шутку.

  • В первом случае — модель сама придумывает шутку
  • Во втором — мы вставляем текст шутки в промпт вручную
Стендап-комик рассказывает неловкую шутку на музыкальном фестивале, на фоне слышны звуки отдалённых групп, шумная толпа, общее фоновое звучание переполненного фестивального поля (без студийной аудитории).
Стендап-комик рассказывает неловкую шутку на музыкальном фестивале:
— Знаете, что самое классное на музыкальных фестивалях? Смотреть, как 20 тысяч человек делают вид, что знали эту группу до сегодняшнего дня, пока снимают вертикальные видео, которые никогда не пересмотрят.

Камера и стили

Veo 3 хорошо реагирует на команды:

  • eye level, zoom in, pan shot, dolly shot
    (на уровне глаз, зум, панорама, движение камеры)
  • a selfie video of…
    (селфи-видео…)

Примеры стилей:

In the style of LEGO: A man sits by a campfire, shaking hands with a bear.
(В стиле LEGO: Мужчина сидит у костра и жмёт лапу медведю.)

Вертикальные видео

Сейчас Veo 3 работает только в 16:9. Чтобы получить вертикальный формат 9:16 — используйте Luma Reframe Video.

Физика и апскейл

Модель реалистично передаёт движение (падения, взаимодействие, плавность) даже в мультяшных стилях.
Для повышения качества — используйте Topaz Labs Video AI для апскейла до 4K 60fps.

Мини-гайд по хорошему промпту:

  1. Пишите на английском и добавляйте перевод в скобках.
  2. Будьте конкретны: кто, где, что делает, как снято, что слышно.
  3. Избегайте повторов: одинаковый промпт — одинаковое видео.
  4. Опишите персонажа один раз и используйте повторно.
  5. Задавайте звук явно.
  6. Пишите короткие реплики.
  7. Убирайте субтитры с помощью no subtitles.
  8. Экспериментируйте со стилями и движением камеры.

Что почитать:

В статье использованы материалы с сайта replicate.com

Поделиться: