Руководство по созданию промптов для Kling AI (Клинг)

Что касается создания видео с помощью искусственного интеллекта, Kling AI (Клинг) действительно выделяется как отличный инструмент, который позволяет превращать текст или изображения в короткие видеоролики. Чтобы по-настоящему использовать возможности этой платформы, важно понимать, как писать эффективные промпты.

Так как компания Kling только что выпустила свои первые официальные рекомендации на английском языке, в этой статье я разложу по полочкам структуру промптов для Kling AI, приведу примеры и расскажу о вариантах движения камеры, чтобы вы могли создавать зрелищные видео с помощью ИИ.

Структура промпта Kling AI

(Структура промпта Kling AI)

Subject (Субъект)
Subject Description (Описание субъекта)
Subject Movement (Движение субъекта)
Scene (Сцена)
Scene Description (Описание сцены)
Optional (Необязательно)

Формула промпта:

Subject(Subject Description) + Subject Movement + Scene(Scene Description) + (Camera Language + Lighting + Atmosphere)

Давай разберем каждый элемент подробнее:

Subject
Основной объект в вашем видео (например, человек, животное, предмет)

Subject Description
Подробности о внешности и позе объекта

Subject Movement
Как именно объект двигается в ролике длительностью 5–10 секунд

Scene
Окружение, в котором происходит действие

Scene Description
Детали оформления сцены

Необязательные элементы:

Camera Language
Как камера снимает сцену

Lighting
Тип и качество освещения

Atmosphere
Общее настроение или атмосфера видео

Примеры промптов

Давайте посмотрим несколько примеров, чтобы понять, как эта структура работает на практике.

Basic Prompt (Базовый промпт)

"A giant panda is reading a book in a café."

(Гигантская панда читает книгу в кафе.)

Enhanced Prompt (Расширенный промпт)

"A giant panda, wearing black-rimmed glasses, is reading a book in a café. The book rests on a table where a steaming cup of coffee sits beside it, next to the café's window."

(Гигантская панда в черных очках читает книгу в кафе. Книга лежит на столе рядом с дымящейся чашкой кофе у окна.)

Advanced Prompt (Продвинутый промпт)

"Shot in medium range, with a blurred background and atmospheric lighting, a giant panda, adorned with black-rimmed glasses, is seen reading a book in a café. The book lies on a table, accompanied by a steaming cup of coffee, next to the cafe windows. Movie-level color palette."

(Средний план с размытым фоном и атмосферным освещением: гигантская панда в черных очках читает книгу в кафе. Книга лежит на столе рядом с дымящейся чашкой кофе у окна. Цвета уровня кино.)

Важно: Базовая структура промпта, показанная выше, — это не единственный вариант. Kling также приводит примеры, где описание кадра и движение камеры ставятся в начало, а сам субъект упоминается позже.

Пример:

"The camera zooms into a beacon tower on the Great Wall, first-person perspective, high-speed flight, symmetrical composition, motion blur, and atmospheric lighting."

(Камера приближается к сигнальной башне на Великой Китайской стене, вид от первого лица, высокоскоростной полет, симметричная композиция, размытие движения и атмосферное освещение.)

Этот промпт делает акцент на движении камеры и атмосфере, которые относятся к необязательным элементам структуры. Здесь нет явного описания объекта и его движения, поэтому он не полностью соответствует рекомендованной схеме.

Другой пример:

"A circling camera shot captures a handsome young man dressed in ancient clothing, wearing white, seated by the pond with his eyes closed, meditating."

(Камера движется по кругу вокруг красивого молодого мужчины в древней белой одежде. Он сидит у пруда с закрытыми глазами и медитирует.)

Этот вариант больше подходит под структуру: есть субъект, описание, сцена и движение камеры. Камера, правда, указана в начале, а не в конце.

Если бы мы следовали точному порядку элементов по Kling, промпт выглядел бы так:

"A handsome young man (dressed in flowing white ancient clothing, serene expression) sits cross-legged by a tranquil pond. He remains still, eyes closed in deep meditation. The pond (surrounded by lush greenery) reflects the sky. Camera: slow circling."

(Красивый молодой мужчина (в свободной белой древней одежде, с умиротворенным выражением лица) сидит со скрещенными ногами у спокойного пруда. Он неподвижен, глаза закрыты в глубокой медитации. Пруд (окружен густой зеленью) отражает небо. Камера: медленное движение по кругу.)

Совет: учитывайте рекомендации по структуре промпта, но также опирайтесь на живые примеры — это помогает понять, что реально работает.

Советы по созданию эффективных промптов для Kling AI

Используйте простые слова и понятные конструкции предложений
Старайтесь делать визуальное описание лаконичным, чтобы оно подходило для короткого ролика длительностью 5–10 секунд
Избегайте точных чисел, так как ИИ часто путается в их воспроизведении
(например, вместо 5 trees (5 деревьев) или 6 puppies (6 щенков) лучше написать “несколько деревьев”, “несколько щенков”)
Если планируете разделение экрана, обязательно указывайте количество ракурсов
(например, 4 camera angles, representing spring, summer, autumn, and winter — 4 ракурса камеры, показывающие весну, лето, осень и зиму)
Будьте осторожны со сложными физическими движениями, так как ИИ может не справляться с их точной анимацией
(например, bouncing of a ball — отскок мяча или the trajectory of a high-altitude throw — траектория высокого броска)

Промпты для режима Image-to-Video

Помимо генерации видео только из текста, Kling AI предлагает мощную функцию Image-to-Video, которая меняет подход к созданию видеоконтента.

Тем не менее, всё равно потребуется текстовый промпт, чтобы ИИ понимал, что именно нужно делать.

Для режима Image-to-Video самое главное — контролировать движение объекта на изображении.

Вот формула промпта для Kling в этом режиме:

Subject + Movement, Background + Movement

Subject
Основной объект в видео (люди, животные, растения, предметы и так далее)

Movement
Описание того, как движется или что делает объект

Background
Фон сцены, в которой происходит действие

Пример с котом-астронавтом:


Cat walking forward on the alien landscape, his tail swaying gently. Vibrant meteor shower fills the sky, with meteors streaking across.

(Кот идет вперед по инопланетному ландшафту, его хвост мягко покачивается. Яркий метеоритный дождь заполняет небо, метеоры пролетают по нему.)

Основные элементы структуры промпта при работе с изображением — это сам объект и его движение.

В отличие от режима Text-to-Video, где обязательно нужно описывать сцену, в Image-to-Video сцена уже задается вашим исходным изображением. Поэтому здесь достаточно просто указать объекты и описать, что с ними происходит.

Пример:

Изображение антропоморфной зебры было сгенерировано в Flux, а потом анимировано с помощью Kling в режиме Image-to-Video, чтобы показать, как зебра прыгает.

Промпт:

man in zebra costume jumps in the air, seen mid jump his feet off the ground, positioned towards the camera, static shot

(Мужчина в костюме зебры подпрыгивает в воздухе, снят в момент прыжка, его ноги оторваны от земли, он обращен к камере, статичный кадр.)

Аналогично можно анимировать сразу два изображения, где задается финальный кадр (end frame).

Это позволяет показать переход от одного состояния к другому, например, как персонаж меняет позу или начинает какое-то действие.

Промпт задал ИИ контекст, что действие — это пение.

В итоге была сгенерирована анимация женщины, которая поет.

Конечно, вот текст без упоминаний «я» и личных замечаний:

Замечено, что Kling часто делает так, что персонажи начинают улыбаться во время пения. Если требуется более серьезная сцена, можно использовать поле негативного промпта и указать

smiling

(улыбка), чтобы исключить это.
Или сразу уточнить характер исполнения, например:

singing a sad song

(поет грустную песню)
или

singing a solemn song

(поет торжественную песню)

Советы по созданию качественных промптов для Image-to-Video

Будьте максимально конкретны в описании объекта и его действий.
Вместо простого wear sunglasses (в очках) лучше использовать Mona Lisa puts on sunglasses with her hand (Мона Лиза надевает очки рукой)
Если используется несколько объектов, движения стоит описывать по порядку.
Например: Mona Lisa puts on sunglasses with her hand, and a ray of light appears in the background. (Мона Лиза надевает очки рукой, и на заднем плане появляется луч света.)
Важно помогать модели понимать контекст. При работе с картиной или фотографией стоит четко указывать, какая именно анимация требуется, чтобы избежать статичного результата.

Примеры:

Poor prompt: "wear sunglasses"

(Слабый промпт: в очках)

Better prompt: "Mona Lisa puts on sunglasses with her hand"

(Лучше: Мона Лиза надевает очки рукой)

Best prompt: "Mona Lisa slowly raises her right hand, grasping a pair of modern sunglasses, and gently places them on her face. A soft ray of golden light gradually appears in the background, illuminating her enigmatic smile."

(Отлично: Мона Лиза медленно поднимает правую руку, берет современные очки и мягко надевает их на лицо. На заднем плане постепенно появляется золотистый луч света, подчеркивающий её загадочную улыбку.)

Анимировать одного персонажа обычно гораздо проще, чем нескольких. Это характерно не только для Kling, но и для большинства визуальных ИИ.

Если несколько объектов делают одно и то же — например, двое разговаривают или танцуют — проблем не возникает.

Но если один пьет, другой поет, а третий играет на гитаре, модель часто пытается заставить всех выполнять одно действие: все поют, все едят или все вдруг начинают что-то играть.
Такое поведение можно назвать эффектом «заразного действия».

ИИ старается навязать одинаковое поведение или сделать группу объектов более однородной.

Движения камеры в Kling AI

Kling AI поддерживает разные типы движения камеры, которые помогают сделать видео более динамичным.

Вот основные доступные варианты:

Horizontal — движение влево или вправо
Vertical — движение вверх или вниз
Zoom — приближение или отдаление
Pan — движение камеры вверх или вниз
Tilt — наклон влево или вправо
Roll — поворот вокруг оси влево или вправо

Дополнительно в Kling AI предусмотрены четыре варианта так называемых Master Shots (основные движения камеры):

В Kling AI эти варианты называются *Master Shots*

Move Left and Zoom In
(Движение камеры влево и одновременное приближение)

Move Right and Zoom In
(Движение камеры вправо с приближением)

Move Forward and Zoom Up
(Камера едет вперед и поднимается вверх)

Move Down and Zoom Out
(Камера опускается вниз и отъезжает назад)

Чтобы добавить движение камеры в промпт, можно выбрать нужный вариант в выпадающем меню интерфейса, когда эта функция доступна.

Если промпт основан на изображении, Kling в настоящее время не дает возможности отдельно настраивать движение камеры. Можно попробовать указать желаемое движение в конце описания, например:

"A giant panda is eating grapes by the lake. Camera: move left."

(Гигантская панда ест виноград у озера. Камера: движение влево.)

Однако на практике такие указания чаще всего игнорируются, поэтому лучше использовать только заранее предусмотренные варианты из меню под полем ввода текста.

Не в списке: Полный поворот

Kling AI хорошо справляется с созданием видео с полным вращением камеры вокруг объекта, что позволяет показать его со всех сторон.

Чтобы добиться этого эффекта, можно использовать такие фразы:

360-degree rotation

(360-градусное вращение)

360 rotation

(Поворот на 360 градусов)

360 spin

(Полное вращение)

Это движение камеры не доступно в выпадающем меню, поэтому его нужно вписывать в текст промпта вручную, например:

Anthropomorphic fat red cat sitting on the chair at the outside table made of wood eating dumplings using his hands, bowl with dumplings on the table, 360 spin around the cat, photorealistic, cinematic

(Антропоморфный толстый красный кот сидит на стуле за деревянным столом на улице и ест пельмени руками, на столе стоит миска с пельменями, 360-градусное вращение камеры вокруг кота, фотореализм, киношная подача.)

Имейте в виду, что ролика длиной 5 секунд обычно недостаточно, чтобы камера успела сделать полный оборот вокруг объекта. Лучше сразу выбирать продолжительность 10 секунд.

О пэннинге (Pan) в Kling AI

Важно учитывать, что в Kling AI термин pan используется не так, как в традиционной кинематографии.

Традиционный пэннинг:
В классической терминологии кино пэннинг — это горизонтальное движение камеры, когда она поворачивается влево или вправо, оставаясь на одном месте.

Пэннинг в Kling AI:
В системе Kling pan обозначает вертикальное движение камеры (вверх или вниз), что на самом деле ближе к классическому понятию tilt.

При создании промптов для Kling AI стоит помнить об этой особенности. Если нужен горизонтальный поворот камеры, используйте:

tilt left

(наклон влево)
вместо

pan left

(пэннинг влево)

А если вы работаете, например, в Luma, там снова всё по классике: pan left означает горизонтальное движение, а tilt up — вертикальное.

Можно сказать, что эта путаница в терминологии делает процесс генерации видео ещё более запутанным.

Motion Brush в Kling

Функция Kling под названием motion brush позволяет пользователям рисовать траекторию движения объектов прямо внутри изображения.

С помощью этой возможности можно создавать более креативное редактирование видео. Например, выбрать на картинке кота и буквально нарисовать стрелку, показывающую, куда он должен прыгнуть.

Возможность выбирать объекты и задавать их движение покадрово даёт больше свободы в создании анимации.

Однако это не универсальное решение, которое позволяет делать всё что угодно.
Motion brush не обходит ограничения ИИ: например, он всё равно не позволит создавать сцены с насилием над живыми существами или нарушением физических законов.

Можно нарисовать впечатляющую траекторию, по которой воющий волк должен прыгнуть в море, но модель этого не сделает. Зато птица без проблем полетит обратно на землю.

Использование Negative Prompts

В Kling AI есть отдельное поле, куда можно вписать всё, что вы не хотите видеть в своем видео.

На теории эта функция выглядит удобно, но на практике она редко помогает действительно убрать ненужные элементы. Чаще всего модель либо заменяет один нежелательный объект на другой такой же странный, либо полностью игнорирует ваш запрос.

Например, при генерации видео с зеброй на пустой улице неожиданно появилась машина. В следующем запуске в поле негативного промпта было добавлено слово

cars

(машины), но это совсем не помогло — наоборот, в других попытках машин стало ещё больше. При этом исходное изображение вообще не содержало ничего похожего на автомобиль.

Отрицательные промпты также не помогают справиться с искажением формы объектов (disfigurement), хотя в документации Kling этот пример приводится как одна из сфер применения. Если ИИ способен сам избежать искажений, он это сделает, но если нет — простое указание в негативном поле ситуацию не меняет.

Почему негативные промпты часто не работают

Как правило, генераторы изображений лучше понимают, что должно быть в кадре, а не то, чего там не должно быть. Возможно, в будущем это изменится, но сейчас эффективнее использовать позитивный эквивалент и максимально конкретно описывать нужный результат.

Например, вместо того чтобы писать

no cars

(без машин)
лучше указать

empty street

(пустая улица)

В описанном случае помогло уточнение, что именно находится позади зебры:

Behind him is a long street with a brick wall at the end, blurred.

(За ним длинная улица с кирпичной стеной в конце, размытая.)

Иногда ИИ всё равно генерирует не то, что требуется. Пользователь не может увидеть, какие данные или ограничения срабатывают внутри модели. Бывает, что текст запроса совершенно понятный, картинка без неоднозначных деталей, а результат всё равно неправильный. Это просто особенности работы таких систем.

Как исправить ошибку “Generation failed, try another prompt”

Иногда Kling вообще не принимает ваш промпт. Это связано с фильтром запрещённых слов. Сначала текст проверяется на наличие слов из стоп-листа. Если есть совпадение, весь промпт блокируется, и система не сообщает, какое именно слово стало причиной.

С примеров слов, которые встречались в стоп-листе:

chest

(грудь)

pig

(свинья)

exorcism

(экзорцизм)

filthy

(грязный, непристойный)

Если заменить

pig

на

piglet

(поросёнок)
и

filthy

на

unclean

(нечистый)
промпт обычно принимается.

Что можно сделать:

Подумайте, есть ли в вашем описании слова, которые могут восприниматься как непристойные или спорные.
Попробуйте сначала проверить запрос через генерацию изображения в Kling. Там используется тот же фильтр, но проверка стоит дешевле, чем полное видео. Иногда это помогает быстро найти проблемное слово и не тратить лишние кредиты.
Чтобы обойти фильтр, можно использовать Image-to-Video. Даже если, например, слово

pig

(свинья) заблокировано, Kling отлично генерирует видео из изображений с этим объектом.

Можно также сгенерировать нужное изображение в Flux, ChatGPT, Leonardo или Midjourney — у этих сервисов совершенно другие фильтры, и ваш промпт с большой вероятностью пройдет без проблем.

Возможно, потом придется немного адаптировать текстовый промпт для Kling, чтобы он лучше подходил под выбранное изображение, но часто можно просто использовать тот же самый текст.

Чтобы определить, какие слова блокируют генерацию, можно попросить ваш любимый LLM-чатбот сократить промпт. Например, можно дать такую инструкцию:

I'm going to provide you my long prompt, which is not being accepted by a model due to having some banned words in it. Since I don't know which words, I need you to generate me 4 versions of this prompt, ranging from the most basic possible, to then

(Я собираюсь прислать вам длинный промпт, который модель не принимает из-за запрещённых слов. Поскольку я не знаю, какие именно слова вызывают проблему, сделайте, пожалуйста, 4 варианта этого промпта — от самого упрощённого до более полного.)

Затем берется самый короткий вариант и проверяется в генераторе изображений Kling.

Если проходит — пробуйте следующий по объему, и так до того момента, пока система снова не откажется генерировать.
Так можно понять, в каком именно варианте появляется «запрещённое» слово, и заменить его на синоним.

По материалам сайта ageofllms.com