AI動画のプロンプト設計術 — 思い通りの映像を出すコツ

AI動画のプロンプト設計が映像のクオリティを決める

AI動画生成ツールに「beautiful cinematic scene」とだけ打ち込んで、生成ボタンを押す。

出てきた映像を見て「……なんか違う」と思う。もう一度押す。

また違う。

これを30回くらい繰り返して、たまにマシなのが出たら「当たり!」と喜ぶ。

これ、半年前の自分。

何百回もガチャを回して気づいたのは、プロンプトの書き方ひとつで映像のクオリティが劇的に変わるということ。「beautiful」「cinematic」みたいなふわっとした形容詞を並べても、AIはどんな映像を作ればいいか判断できない。

映画監督がカメラマンに指示するときに「いい感じで撮って」とは言わないのと同じだ。

なぜ「beautiful cinematic」では思い通りにならないのか

理由はシンプルで、AIにとって「beautiful」は情報量ゼロだから。

AIは「beautiful」をどう解釈すべきか判断できず、学習データの平均値っぽい映像を返してくる。

結果、誰が生成しても同じような「なんとなくキレイだけど個性のない映像」になる。

必要なのは「何が」「どう動いて」「カメラがどこにあって」「光がどこから来ているか」という具体的な情報だ。

この記事で身につくこと

  • AI動画プロンプトの基本構文(5つの要素)
  • Kling、Runway、Sora、Veoそれぞれの書き分け方
  • カメラワーク用語の実践的なリスト
  • よくある失敗パターンとその修正方法
  • 実際のMV制作で使ったプロンプトの実例

自分はDJ Albatross名義でAI音楽と映像制作をやっていて、Midjourneyで画像を作り、Klingで動画化して、DaVinci Resolveで編集するというワークフローでStreet Festival Symphonyの世界観のMVを制作した。

楽器は弾けないけど、プロンプトなら書ける。

その試行錯誤の全部を、この記事にまとめた。

AI動画プロンプトの基本構文|5つの要素

AI動画のプロンプトは、次の5つの要素で構成するとうまくいく。

[カメラワーク] + [被写体の動き] + [環境・雰囲気] + [ライティング] + [品質指定]

この順番が大事だ。

ほとんどのAI動画生成モデルは、プロンプトの先頭に書かれた要素を優先的に処理する。

だからカメラワーク(=映像の「視点」)を最初に書くことで、全体の方向性が安定する。

各要素の書き方と優先順位

1. カメラワーク — 映像の「目」を決める

Slow dolly in, low angle

カメラがどう動くか。

寄るのか引くのか、目線の高さはどこか。

ここを指定しないとAIが勝手に決めてしまい、意図しないアングルになる。

2. 被写体の動き — 何がどう動くか

A woman in a red kimono turns slowly to face the camera, her sleeves swaying

「誰が」「何をしているか」を具体的に。

「a woman stands」ではなく「a woman turns slowly to face the camera」のように動詞を明確に書く。

力の方向を示す動詞(turn, reach, push, sway)が効果的だ。

3. 環境・雰囲気 — シーンの舞台設定

In a narrow alley lined with paper lanterns, light rain falling

「beautiful street」じゃなくて「narrow alley lined with paper lanterns」。

具体的な名詞と形容詞で場所を特定する。

4. ライティング — 光源を指定する

Warm golden light from the lanterns above, soft shadows on wet cobblestones

光がどこから来ているかを書くと、AIが影の方向やコントラストを正確に計算できる。

「いい光」ではなく「上にある提灯からの暖色の光」のように光源を明示する。

5. 品質指定 — 出力フォーマットの指定

4K, cinematic color grading, shallow depth of field, 24fps

解像度、カラーグレーディング、被写界深度、フレームレートなど。

ただし、ここは控えめでいい。

品質指定を盛りすぎると他の要素への解釈リソースが減るモデルもある。

プロンプトの適切な長さ

経験上、40〜60語がスイートスポットだ。

短すぎるとAIの自由度が高すぎてガチャになる。

長すぎると要素が競合して何も拾えなくなる。

5つの要素を各1〜2文で書くと、だいたい40〜60語に収まる。

それが一番安定して意図通りの映像が出る範囲だ。

ツール別|AI動画プロンプトの書き分け

同じプロンプトでもツールによって結果が全然違う。

ここが最初にハマるポイントで、自分も最初は「KlingでうまくいったプロンプトをRunwayにそのまま入れたのに全然ダメ」という経験を何度もした。

ツールごとにプロンプトの「方言」がある。

Kling 3.0: Frames/Elementsモードの使い分け

Klingは5層プロンプト構造(Scene → Characters → Action → Camera → Audio)を推奨している。

自分が一番使い込んだツールで、画像→動画(Image-to-Video)のワークフローでは特に強い。

詳しい画像→動画の変換プロセスは画像から動画をAIで作る方法でまとめている。

Framesモードはマルチショットに対応していて、最大6アングルまで指定できる。

ショットごとにフレーミングと動きを分けて書く。

Shot 1: Close-up of hands playing a shamisen, fingers plucking strings in rhythm.

Shot 2: Wide shot revealing a neon-lit festival street, crowd swaying to the music.

Shot 3: Low angle tracking shot following a dancer spinning through paper lanterns.

Elementsモードは単一ショットの精度を上げたいときに使う。

モーション強度(0〜3)を活用すると、静的なシーンと激しいシーンの切り替えがコントロールできる。

Scene: A cyberpunk festival alley at night, holographic banners floating above food stalls

Characters: A young DJ wearing LED-trimmed headphones, adjusting a holographic mixer

Action: DJ nods to the beat, right hand sliding a fader, left hand reaching for a knob

Camera: Slow push in from medium shot to close-up on hands

Motion intensity: 2

Runway Gen-4.5: Director Modeとカメラコントロール

Runway Gen-4.5のDirector Modeは、カメラと被写体を独立して制御できる。

これが他のツールと一番違うところだ。

「カメラはこう動くけど、被写体はこう動く」を別々に指示できる。

ただし注意点として、Runwayは抽象的なプロンプトが苦手だ。

「mysterious atmosphere」みたいな曖昧な表現より「fog rolls across the floor, visibility drops to 3 meters」のような物理的な描写が効く。

Subject: A shamisen player seated on a wooden platform, kimono draped loosely.

Subject motion: Player draws the bachi across strings with a slow, deliberate stroke.

Camera: Arc shot orbiting clockwise at eye level, 180 degrees over 5 seconds.

Environment: Open-air stage, cedar pillars, hanging lanterns casting warm pools of light.

シーケンシャル・プロンプティング(時間軸を明示する書き方)も有効で、「0-2s: camera holds wide, 2-4s: begins slow push in」のようにタイミングを指定できる。

Sora 2: セクション構造の活用

Soraはセクション構造(Framing → Subject → Lighting → Sound)で書くと安定する。

OpenAIの公式ガイドでも「シネマトグラファーへのブリーフィングのように書け」と言っている。

特徴的なのは対話(ダイアログ)のサポート。キャラクターに台詞を言わせたい場合はプロンプト内で話者ラベルと台詞を明記する。

Framing: Medium close-up, shallow depth of field, 85mm lens.

Subject: A street vendor in a happi coat arranges glowing takoyaki on a holographic grill.

Lighting: Warm overhead light from a paper lantern, blue neon reflections from the sign behind.

Sound: Sizzling oil, distant taiko drums, ambient crowd noise.

Action: Vendor flips three takoyaki in quick succession, steam rising.

画像→動画変換の場合、Soraは特に具体的なモーション指示がないとほぼ静止画になる。

「揺れる」「回る」「持ち上げる」といった動作動詞をはっきり書くこと。

Veo 3.1: 先頭要素の重み付けと参照画像

Veo 3.1の最大の特徴は、プロンプトの先頭要素に重みが偏ること。

つまり最初の1文が映像全体のトーンを決める。

だから一番重要な要素(大抵はカメラワークかメインの被写体)を先頭に持ってくる。

もう一つの特徴は参照画像のサポート。

最大4枚の参照画像を入力できるので、Midjourneyで作ったキャラクターデザインを渡すことでキャラ一貫性を保てる。

Low angle dolly forward through a rain-soaked festival street, camera at knee height.

A tall figure in a black haori walks toward camera, wooden geta splashing in puddles.

Paper lanterns line both sides, their reflections stretching across wet asphalt.

Warm amber light from lanterns above, cool blue moonlight filtering through clouds.

Cinematic, anamorphic lens flare, 4K, 24fps.

Veo 3.1では「〜しないでください」というネガティブ指示がうまく効かない。

「no camera shake」ではなく「steady, locked-off camera」のように肯定表現で書くのがコツだ。

カメラワーク用語完全リスト|AI動画プロンプトで使える表現

AI動画プロンプトで使えるカメラワーク用語をまとめた。

自分がMV制作で実際に使って効果を確認したものだけを載せている。

用語動き使いどころ
Dolly inカメラが被写体に向かって前進感情の高まり、重要な瞬間の強調
Dolly outカメラが被写体から後退場面の全体像を見せる、引きの演出
Pan left / rightカメラが左右に水平回転空間の広がりを見せる、視線誘導
Tilt up / downカメラが上下に垂直回転建物の高さ、キャラの全身を見せる
Tracking shotカメラが被写体と並走キャラの歩行・走行に追従
Arc shotカメラが被写体を中心に円弧を描くドラマチックな登場シーン、プロダクトショット
Crane shotカメラが高い位置から俯瞰→地上へスケール感、シーンの導入
Zoom in / outレンズの焦点距離を変えて寄り引き急な注目、サプライズ演出
Whip pan高速で水平に振るシーン転換、スピード感
Dutch angleカメラを斜めに傾ける不安感、緊張感、サイケデリックな表現
Low angle地面に近い低い位置から見上げる威圧感、力強さ、キャラの存在感
High angle高い位置から見下ろす俯瞰、孤独感、状況説明
Over-the-shoulder肩越しショット会話シーン、対峙シーン
Steadicam滑らかな手持ち風の移動撮影没入感、キャラに寄り添う演出
Push inDolly inよりゆっくり、じわじわ寄る緊張の高まり、内面描写
Pull outDolly outよりゆっくり後退場面の終わり、余韻
Rack focus焦点を前景→背景(またはその逆)に移動注目の切り替え、二者間の関係性
Static shotカメラ固定落ち着いたシーン、会話、静寂の表現

使い方のコツ: 1つのプロンプトにカメラワークは1つだけ。

2つ以上入れるとAIが混乱して中途半端な動きになる。

「dolly in + pan left」みたいな複合指示は避けて、どちらか一方に絞る。

AI動画プロンプトの失敗パターンと対策

自分が実際にやらかした失敗パターンを5つ紹介する。

全部Before/Afterつきなので、同じミスをしなくて済むはずだ。

パターン1: 形容詞の盛りすぎ

形容詞を並べれば映像がよくなると思いがちだけど、逆効果だ。

❌ **Before:**

A beautiful, stunning, breathtaking, magnificent cinematic scene of an amazing festival

After:

Wide shot of a crowded festival street at dusk, paper lanterns glowing orange, steam rising from food stalls

形容詞は情報量が少ない。

名詞と動詞で具体的に書く方が、AIは正確に解釈してくれる。

パターン2: カメラワーク指定なし

カメラの指示がないと、AIが適当なアングルを選ぶ。しかも毎回違うアングルになるのでガチャ度が上がる。

❌ **Before:**

A samurai standing in the rain, dramatic atmosphere

After:

Low angle, slow dolly in. A samurai stands motionless in heavy rain, katana at his side, water dripping from the brim of his straw hat. Single streetlight behind casting a long shadow forward.

カメラワークを先頭に置くだけで、映像の安定感が全然違う。

パターン3: 動きの記述が曖昧

「moves gracefully」では何が起きるかAIに伝わらない。

Before:

A dancer moves gracefully across the stage

After:

A dancer in a flowing white kimono spins counterclockwise, arms extending outward, fabric trailing behind in a spiral. She stops abruptly, one foot forward, chin tilted up.

回転の方向、腕の位置、布の動き、停止のタイミング。

具体的であればあるほど意図に近い映像になる。

パターン4: ネガティブ指示(〜するな)

「don’t」や「no」で指示すると、多くのモデルがその指示を無視するか、逆に強調してしまう。

Before:

No camera shake, don't zoom in, avoid blurry backgrounds

After:

Locked-off static camera, fixed focal length, sharp focus throughout the frame

「しないで」ではなく「こうして」と肯定文で書く。

これはVeo 3.1で特に重要だけど、他のツールでも同じだ。

パターン5: 複数アクションの詰め込み

1つのプロンプトに複数の動作を詰め込むと、AIはどれを優先すべきかわからなくなる。

Before:

A woman walks through the market, picks up a fruit, smells it, puts it back, turns around, bumps into a man, they both laugh

After:

Medium shot, tracking. A woman in a blue yukata walks slowly through a night market, pausing at a fruit stall. She picks up a persimmon and holds it close to her nose, eyes closing.

1プロンプト1アクションが原則。

複数の動作が必要なら、Klingのマルチショット機能を使うか、動画を分割して生成→DaVinci Resolveで繋げる。

パターン6: 光源の指定忘れ

ライティングを書かないと、AIがデフォルトの「のっぺりした均一光」を当てる。

Before:

A street performer playing guitar at night

After:

A street performer plays acoustic guitar under a single warm spotlight, harsh shadows falling behind him, faint blue glow from a nearby vending machine illuminating the right side of his face

光の方向と色を指定するだけで、映像の立体感が一気に増す。

MV制作で実際に使ったAI動画プロンプト実例集

ここからは、自分がStreet Festival Symphonyの世界観のMV制作で実際に使ったプロンプトを紹介する。

Midjourneyで生成した画像をKlingに入力し、動画化するワークフローで使ったものだ。

各プロンプトに「なぜこう書いたか」の解説をつけているので、自分のプロンプト作成の参考にしてほしい。

実例1: 祭りの導入(静かなシーン)

Slow dolly forward through an empty festival street at dawn. Paper lanterns sway gently in a light breeze. Morning mist hugs the cobblestones. Warm amber light from lanterns, cool blue sky above. Cinematic, shallow depth of field.

なぜこう書いたか: MV冒頭は「静」から始めたかった。

dolly forwardで視聴者を街に「引き込む」効果を狙った。

動くのは提灯と霧だけにして、被写体の動きを最小限にすることでモーション強度を低く保った。

朝の光と提灯の暖色を対比させてトーンを作った。

実例2: メインキャラ登場(ドラマチック)

Low angle, static shot. A figure in a black haori emerges from fog, walking toward camera. Wooden geta echo on stone. Single red lantern behind silhouettes the figure. Dramatic rim lighting from behind, face in shadow.

なぜこう書いたか: 主人公の登場シーンはlow angle + 逆光で「ただ者じゃない感」を出す。

static shotにしたのは、動くのは被写体だけにしてAIの処理負荷を下げるため。

霧は輪郭を曖昧にしてミステリアスさを演出する。

実例3: 群衆の賑わい(激しいシーン)

High angle crane shot descending into a packed festival crowd. Hundreds of paper lanterns overhead. People dancing, waving fans, children on shoulders. Colorful yukata fill the frame. Warm chaotic lighting from multiple food stalls, steam and smoke rising.

なぜこう書いたか: 祭りの最高潮を表現するために、crane shotで「上空から群衆の中へ降りていく」動きを指定。

人物の動きは複数書いているが、群衆シーンなので個々の精度より全体のエネルギー感を優先した。

実例4: 三味線クローズアップ(ディテール)

Extreme close-up, rack focus from bachi tip to strings. A shamisen player strikes the strings with sharp, percussive strokes. Visible vibration of silk strings. Warm side lighting from stage left, dark background. Shallow depth of field, 4K detail.

なぜこう書いたか: 楽器のディテールショットはextreme close-upとrack focusの組み合わせが鉄板。

弦の振動という微細な動きをAIに出させるために「visible vibration of silk strings」と物理的な描写を入れた。

背景を暗くして被写体に集中させる。

実例5: 夜の路地裏(雰囲気重視)

Steadicam, medium shot following from behind. A lone figure walks through a narrow alley, neon signs reflecting on wet pavement. Puddles mirror the kanji signage above. Cool blue and pink neon light, warm yellow from a ramen shop doorway. Atmospheric, noir mood.

なぜこう書いたか: 後ろ姿を追うSteadicamは「キャラに寄り添っている感」を出す。

水たまりに映るネオンは、Kling・Runwayどちらも得意な表現。

寒色(ネオン)と暖色(ラーメン屋)の対比でストーリー性を出した。

実例6: 花魁の舞(スローモーション)

Arc shot, slow orbit clockwise. An oiran in elaborate red and gold kimono performs a slow ceremonial dance. Silk sleeves trail through the air in slow motion. Overhead paper lanterns cast warm pools of light. Cinematic, dreamlike, 60fps for slow motion.

なぜこう書いたか: arc shotで被写体を360度見せつつ、slow motionで布の動きを強調。

60fpsを指定することでKlingのスロー再生が滑らかになる。

「dreamlike」は普段は曖昧すぎて使わないけど、スローモーション演出との組み合わせでは機能する。

実例7: クライマックスの花火(風景)

Wide shot, static camera, low angle looking up. Massive fireworks explode above festival rooftops, cascading red and gold sparks. Silhouettes of crowd below with arms raised. Light from fireworks illuminates upturned faces momentarily. Deep rumbling boom fades to crackling.

なぜこう書いたか: 花火は下から見上げるのが一番映える。

static cameraにして花火の動きに集中させた。

音の描写(deep rumbling boom fades to crackling)はKling 3.0のオーディオ生成を活かすために入れた。

実例8: エンディング(余韻)

Slow dolly out, high angle. The festival street is now nearly empty, a few scattered lanterns still glowing. A single figure sweeps fallen confetti with a bamboo broom. First light of dawn touches the rooftops. Quiet, melancholic, warm fading light.

なぜこう書いたか: dolly outで「離れていく」感覚を演出。

冒頭のdolly inとの対比で物語の円環構造を作った。

祭りの後の寂しさは「nearly empty」「single figure」「fallen confetti」という名詞で伝えている。

形容詞じゃなく情景描写で感情を出すのが自分のスタイルだ。

まとめ

AI動画のプロンプト設計で重要なのは、結局「具体的に書く」ということに尽きる。

  • 5つの要素(カメラワーク、被写体の動き、環境、ライティング、品質指定)を意識して構造化する
  • ツールごとの方言を理解して書き分ける(Klingのマルチショット、RunwayのDirector Mode、Soraのセクション構造、Veoの先頭重み)
  • カメラワーク用語を覚えて、1プロンプト1カメラワークを守る
  • 形容詞より名詞と動詞で伝える
  • ネガティブ指示は肯定文に変換する

プロンプトが上達すると、ガチャの回数が減る。

10回生成して1回当たりだったのが、3回で狙った映像が出るようになる。

それだけで制作スピードもクレジットの消費も全然変わってくる。

最初から完璧なプロンプトを書ける人はいない。

自分も何百回もガチャを回して、やっと「こう書けばこう出る」のパターンが見えてきた。

この記事のプロンプト実例をベースに、まずは1本生成してみてほしい。

AI音楽と映像を組み合わせたMV制作に興味があるなら、Sunoの使い方ガイドから音楽制作を始めてもいいし、出来上がった作品のAI音楽の収益化について調べてもいい。

プロンプトで「自分だけの映像」を作る方法はAI音楽にオリジナリティを出す5つの方法にも通じる話だ。

DJ Albatross — 和楽器×エレクトロニカ。楽器弾けないけど音楽作ってる。

YouTubeチャンネル