【Whisk】画像3枚で簡単生成!Googleの画像・動画生成AIの使い方を分かりやすく解説

- GoogleのAIツール「Whisk」
- 画像を使って簡単に新しい画像を作れる仕組み
- 「Imagen」と「Gemini」の組み合わせで高度な画像生成が可能
12月16日(現地時間)米Googleが、画像生成AIツール「Whisk」を発表しました。
「Whisk」と呼ばれるこのツールは、従来のテキストベースの画像生成と違い、画像を入力するだけでAIが新たな画像を生み出す機能を備えています。
この記事では、Whiskの特徴や生成された画像について詳しくご紹介します。ぜひ最後までご覧ください!
\生成AIを活用して業務プロセスを自動化/
Whiskとは
Whiskは、Googleが開発した実験的な画像生成AIツールです。これまでのAI画像生成ツールとは違い画像のみで生成できますが、テキストプロンプトを併用するとより細かくコントロールできます。Subject / Scene / Style に加えて、任意でテキスト指示を追加できるハイブリッド型の生成方式です。
ユーザーは「Subject(被写体)」「Scene(シーン)」「Style(スタイル)」の3つの要素に画像をドラッグ&ドロップするだけで、AIがそれらをリミックスして独自の画像を作り出します。Whiskの名前は「泡立て器」を意味し、3つの要素を混ぜ合わせて新しい創造物を生み出すイメージを表現しているそうです。
Whiskは2024年12月のローンチ時点では米国限定の実験ツールとして提供されていましたが、2025年5月25日以降は日本を含む71カ国以上で利用可能となっています。Googleアカウントがあれば利用でき、日本語UIにも対応可能です。
なお、おすすめの画像生成AIについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

Whiskの特徴
Whiskは、従来のAI画像生成ツールとは全く違った独自の特徴を持っています。その機能は、クリエイターに新たな可能性を提供してくれるものが多くあります。
①画像入力で画像生成
Whiskの最大の魅力は、好きな画像を使って新しいビジュアルを簡単に生成できる点です。
使う人は「Subject(被写体)」「Scene(シーン)」「Style(スタイル)」3つの画像を入れるだけ。AIがそれぞれの画像の特徴を読み取って、全く新しい画像を生成してくれます。
今までのテキストで指示を出す方法と比べると、頭の中のイメージを画像としてそのまま伝えられるため、思い通りの画像に近づけられるでしょう。もちろんテキストで細かい指示を付け加えることも可能です。
この機能のおかげで、言葉では表現しづらい微妙なニュアンスや雰囲気を、AIにうまく伝えやすくなりました。写真やイラストなど、いろんな種類の画像を組み合わせてみると、思いもよらない面白い画像が生まれるかもしれません。
②ドラッグ&ドロップで入力可能
Whiskの使い方はとってもシンプルで、誰でも簡単に扱えます。好きな画像をドラッグ&ドロップで、ポンと置くだけでOK。
このツールの面白いところは、Whiskが提案してくれる画像も使えることです。絵を描くのが得意な人はもちろん、絵が苦手な人でも、簡単に創作できるのがWhiskの良いところです。
③使われているモデルは「Imagen 4」
Whiskはローンチ当初、Geminiによる画像理解とImagen 3による生成を組み合わせていました。しかし2025年時点では、新しいモデルのImagen 4ベースで高品質な画像生成が可能に。もちろん、テキストの表示も可能です。
Whiskを使うと、「Gemini」が入力した画像の説明文を作ります。その説明文を「Imagen 4」に渡して、新たに画像を生成してもらうという仕組みです。この2つのAIモデルを組み合わせることにより、Whiskは高度な画像理解と生成能力を実現しています。
「Imagen 4」は細かい描写までしっかり描けるので、できあがる画像はとてもリアルで説得力があります。「Gemini」が画像の内容をよく理解して説明してくれるおかげで、ユーザーの意図に沿った画像が生成できるようになっています。
なお、Googleの画像生成AIについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

Veo 2を使った動画生成機能
Whiskには、画像生成だけでなくショート動画を生成できる「Whisk Animate」という機能が追加されています。作成した画像をもとに、Googleの動画生成モデル 「Veo 2」 を使って、およそ8秒程度の動画 を自動生成できます。
Whisk Animateでは、以下のような流れで動画が作られます。
- Whiskで生成した画像をベースに「アニメーション化」したい箇所をAIが解析
- 画像の雰囲気や質感、スタイルを保ったまま、自然なモーションを付けてショート動画へ変換
- Googleの高性能動画モデル Veo 2 が動作し、滑らかでリアルなアニメーションを生成
生成される動画はSNS向けのショートクリップに適しており、サムネイル画像から動画という流れで一貫したビジュアル制作が可能です。さらに、Whiskの画像生成とWhisk Animateの動画生成を組み合わせることで、次のような一連のコンテンツ制作を一つのツール内で完結できます。
- 商品画像を作り、数秒のPR動画に変換
- イラストを生成し、SNS用ショートアニメに変換
- キャラクター画像を作成し、8秒の自己紹介動画に変換
Whiskでかかる費用とGoogle AIプランの仕組み
Whiskには独立した料金プランはなく、基本の画像生成は無料で利用できます。画像をアップロードして組み合わせる機能も無料で使えますが、動画生成は無料ユーザーの場合は月10本までという制限があります。
Whiskを長時間使う場合や、より高品質な生成を大量に行いたい場合は、Googleの有料プランが必要になるケースがあります。これらのプランでは、Google全体のAI機能で使える「AIクレジット」が付与され、Whiskの生成処理にも使われる仕組みです。
具体的なプランは以下の通りです。
| プラン | 月額料金 | AIクレジット | 1 回の生成に必要な AI クレジット |
|---|---|---|---|
| 無料 | ¥0 | 100/月(Google全体の無料枠) | 約20 |
| Google AI Pro | 約¥2,900円 | 1,000/月 | 約20 |
| Google AI Ultra | 約¥36,400円 | 25,000/月 | 約20 |
このAIクレジットは「Whisk専用」ではなく、Googleの画像生成や動画生成、Geminiの一部機能で共通して消費されるポイントです。無料ユーザーはまず「無料利用枠」が適用され、クレジット消費を意識せず使えます。
Whiskと他の画像生成AIの違いを比較
Whiskは「画像プロンプト主体の生成」ができる点が大きな強みです。ここでは、Whiskと人気の画像生成AIとを比較した特徴をまとめました。
| 項目 | Whisk | Imagen 4搭載サービス | Midjourney | DALL·E 3 | Stable Diffusion |
|---|---|---|---|---|---|
| 入力方式 | 画像3枚(Subject / Scene / Style)+任意テキスト | テキスト中心 | テキスト中心 | テキスト中心 | テキスト中心+LoRAなど高度編集 |
| 得意分野 | 画像のリミックス・構図の再構成・一貫性の高い生成 | 高精細・リアル | 芸術性が高い・スタイルが豊富 | 指示忠実度が高い | カスタマイズ性が最強 |
| 動画対応 | ◎(Whisk Animate / Veo 2) | × | △(MJ V6で軽いモーション付きの静止画のみ) | △(生成動画は不可) | ◎(専用モデル利用時) |
| UIの使いやすさ | 非常に簡単・初心者向け | やや専門的 | コマンド操作 | 直感的 | 導入が難しい |
| 料金体系 | 基本無料(内部制限あり)+動画は10本制限、有料プランで拡張 | 不明(企業向け) | 月額制 | ChatGPT Plus内 | 完全無料〜商用モデル |
| 商用利用 | Google規約に従う | Google規約に従う | 可 | 可 | モデルにより異なる |
比較してみると、Whiskは画像主体の編集や動画生成に強みを持つなど、他のAIとは違った魅力と特徴を持っています。これらの特徴を踏まえ、Whiskのメリットとデメリットを整理してみましょう。
Whiskのメリット
Whiskの大きな特徴は、難しいテキスト入力をしなくてもイメージに近い画像が作れることです。ふつうの画像生成AIは、細かい指示を文章で書く必要があるため、慣れていない人にはハードルが高く感じられます。Whiskは「画像を3枚置く」だけでAIにイメージを伝えられるため、言葉で説明しにくい雰囲気や構図でも、そのまま生成に反映してくれます。
また、WhiskはGoogleのAIである「Gemini」と高性能な画像生成モデルの「Imagen(イマージェン)」が連携しています。これは、人間が「こういう画像がいいな」と感じるポイントをAIがうまく読み取り、より自然でクオリティの高い画像に仕上げてくれる仕組みです。たとえば、写真の色味や質感、光の当たり方などの細かな部分も、できるだけ違和感のない形で反映しようとしてくれます。
さらに、Whiskは画像だけでなく、その画像をもとに短い動画まで作れるのが大きな強みです。「Whisk Animate」という機能を使うと、完成した画像が数秒のショート動画になり、SNS用の素材づくりや小規模なプロモーション動画にも使えるようになります。
Whiskのデメリット
Whiskは扱いやすい一方で、細かい部分までこだわって作りたい人には向かない場面があります。たとえば、「目の位置を3mm下げたい」「指先の角度だけを変えたい」といった、プロデザイナーが行うような細かい調整はWhiskではできません。あくまで「ざっくりとしたイメージを形にするのが得意なAI」という位置づけです。
なお、画像生成AIについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

Whiskの使い方
Whiskでは、作成した画像をそのまま短い動画に変換できます。使うには、まずGoogleアカウントでログインし、プライバシーポリシーを確認し「続行」を選びます。

「続行」を押せば、Whiskのトップページに遷移します。ここで「ツールを開く」を押すことでいよいよプロンプトの入力画面に変わります。

初めて利用する時はWhiskについての説明が出るので、内容を確認したら「使ってみる」に進みます。

初めはテキストで生成するプロンプト入力画面になっています。

画像から生成する場合は、「画像を追加」を選べば「モデル」「背景」「スタイル」の3枚を選べるようになります。

自分で画像を用意していない時も大丈夫。サイコロのアイコンを押せばランダムに画像を選んでもらえます。

最後に右矢印のアイコンを押すと、生成がスタートします。更に生成された画像にカーソルを合わせると「アニメーション化」が選べるので、そこから動画の生成が可能です。生成には何分かかかるので、出来上がるまで少し待ちましょう。

下矢印のダウンロードアイコンから動画のダウンロードができます。これで簡単に画像から動画の生成ができました。
Whiskで生成された画像
Whiskが生成する画像は、ユーザーの想像力を刺激し、新たなアイデアを引き出します。このツールを使えば、思いもよらない組み合わせや斬新な画像が次々と作り出せるでしょう。
ここでは、Whiskが作り出した画像を4つ紹介します!
蓮の上でくつろぐ猫

紫色の幻想的な猫が大きな蓮の上で横たわっている画像です。
猫の毛並みは、鮮やかな紫色で、その体にはキラキラとした光が散りばめられています。エメラルドグリーンの瞳は神秘的で、周囲の蓮の花や葉との美しい色合いが特徴的です。
大きな蓮の葉は鮮やかな緑色で、葉脈など細部まで丁寧に描かれており、猫の背景には白い蓮の花が深い青緑色の水面にその花を映しています。水面には波紋や光の反射がリアルに表現されており、背景全体にリアルな質感を与えています。
この画像は、蓮と猫というモチーフに宇宙や星空といった非現実的な要素を組み合わせた、魅力的な作品となっています。
ピンク色のトド

海辺の岩場に、ピンク色のトドが座っている画像です。現実にはありえないような画像を、Whiskは見事に描き出しています。
トドの体は全身ピンク色で、いちご柄の服を着ています。ぷくぷくとした体型や、特徴的なヒゲまでしっかり描かれていますね。
この不思議な組み合わせが、絵全体にファンタジーな雰囲気を醸し出しています。Whiskが現実にはない組み合わせを、自然に表現できるのか分かる画像です。
このような画像を広告やイラスト本で使えば、きっと多くの人の目を引くことでしょう。子供から大人まで、みんなの想像力を刺激する、そんな魅力的な一枚です。
魚とお城を組み合わせた画像

まるでおとぎ話から飛び出してきたような、不思議な魚の絵です。青緑色の体には機械仕掛けのような歯車が描かれており、城壁や塔、風車が重なり合って建ち並び、まるで空飛ぶ街のようです。
背景には青い海と白い雲が広がり、この魚が空中を泳いでいる様子がうかがえます。夕暮れを思わせるカラーは、どこか懐かしくて温かい雰囲気が伝わってきます。まるでジブリ映画のワンシーンのような、夢と現実が交差する独創的な世界観です。
このような独創的な絵は、子供向けの絵本や、ファンタジー作品のイメージ画として使えそうですね。見る人の心をくすぐる、想像力豊かな作品に仕上がっています。
ドーナツをイラスト風に変換

普通のドーナツの写真をイラスト風に変換した画像です。まるでポップアートのようなイラストに変わっています。
形はそのままドーナツですが、表面の質感や色使いが大胆に変わっています。イチゴチョコレートのコーティングは、つやつやなピンク色に。カラフルなスプリンクルもフラットな色面になっています。
写真からポップなイラストに変えられるなんて、本当にすごいですね!こういった絵は、お菓子のパッケージやカフェのメニュー表、SNSの投稿画像などに活用できるでしょう。
日常的な物や食べ物をアート作品に変える、Whiskの驚くべき能力を示す素晴らしい例と言えます。
Whiskで生成された動画
Whiskでは、静止画を生成するだけでなく、その画像をもとに短い動画を作ることができます。「Whisk Animate」という機能を使うことで、完成した画像に自然な動きを加え、約8秒前後のショート動画として出力できます。
ここでは実際に生成した動画を紹介します!
あくびをする猫
まずは青空を背景に、屋根の上に座る一匹の猫がゆっくりとあくびをする様子を描いたショート動画を作成しました。短い単語でも3つの画像を生成することができ、それを元に生成した画像に「あくびをする猫」と指示して生成されたのが今回の動画です。
| 項目 | 内容 |
|---|---|
| モデル | 猫 |
| 背景 | 青空 |
| スタイル | アニメ |
アニメ調のやわらかなタッチで描かれた猫は、穏やかな表情を浮かべながら空を見上げ、口を大きく開けて自然な動きを見せます。
猫のあくびの動作に合わせて、首や口元がわずかに動き、静止画では伝わらないリラックスした雰囲気が感じられます。背景には澄んだ青空と白い雲が広がり、雲の形や光の加減も柔らかく描かれているため、全体に爽やかな印象を与えています。
この動画は、大きな動きや派手な演出ではなく、日常の一瞬を切り取ったような自然なモーションが特徴です。猫の何気ない仕草と穏やかな背景が組み合わさることで、見ているだけで気持ちが和らぐ、落ち着いた雰囲気の作品に仕上がっています。
ドーナツを食べる女の子
こちらはショーケースに並ぶドーナツを前に、若い女性が一つのドーナツに手を伸ばす様子を描いたショート動画です。「ドーナツを食べる女の子」と入力して、おいしそうにドーナツを食べている姿を生成しました。
| 項目 | 内容 |
|---|---|
| モデル | ドーナツ |
| 背景 | ドーナツの並んだショーケース |
| スタイル | 女の子の日本風アニメ |
アニメ調の柔らかなタッチで表現された店内は明るく清潔感があり、落ち着いた雰囲気の中で女性の仕草が丁寧に描かれています。女性は制服姿でカウンターに座り、色とりどりのスプリンクルが乗ったドーナツを前に、両手でそっと持ち上げて食べる動きを見せます。
目を閉じて笑う表情に変化することで、甘いものを前にした期待感が自然です。背景のショーケースには、シンプルなものからチョコレートやトッピング付きのドーナツまで整然と並び、奥行きのある構図が印象的。
女の子の日常の一場面を切り取ったような、可愛らしいモーションが特徴です。人物の表情や手の動きに動きを加えることで、静止画では表現しきれない空気感や物語性が生まれており、カフェやスイーツをテーマにしたコンテンツのイメージ動画としても使いやすい仕上がりとなっています。
ただし、効果音はドーナツを食べるのには相応しくないサクっとした音なので調整は必要に感じました。
若い女性と雨
こちらは生成された画像に「雨が降ってくる」とだけ入力しました。ただ外を歩いているシチュエーションでも、天気の変化を指示すればそれに合わせたドラマティックな動画が生成できます。
| 項目 | 内容 |
|---|---|
| モデル | 若い女性 |
| 背景 | 夕方の外 |
| スタイル | ドラマ |
夕暮れ時の街を背景に、若い女性が一人で歩く。最初は雨が上がったばかりのような道路の濡れた静かな街並みですが、時間の経過とともに雨が降り始め、路面や周囲の空気が次第に変化していきます。
女性はデニムジャケットに身を包み、肩にバッグを掛けながら前を見つめて歩いています。雨が強まるにつれて、髪や服が少しずつ濡れていき、手で髪をかき上げる仕草や表情の変化から、冷たい雨の感触や心情の揺れが自然に伝わってきます。背景のビル群や街灯は濡れた路面に光を映し出し、夕焼けと雨が混ざり合って印象的です。
この動画は、大きな動きや派手な演出ではなく、雨に包まれた街の空気感と人物の感情を丁寧に描いた静かなモーションが特徴です。1枚の静止画では表現しきれない、時間の流れや環境の変化が加わることで、まるで映画のワンシーンを見ているかのような物語性を感じさせる作品に仕上がっています。
乾杯する男女
落ち着いた雰囲気のレストランを舞台に、誕生日ケーキを前に向かい合う男女の様子を描いたショート動画です。生成された画像に「乾杯する男女」とプロンプトを入力しました。
| 項目 | 内容 |
|---|---|
| モデル | ケーキ |
| 背景 | レストラン |
| スタイル | 恋愛 |
最初はテーブル越しに穏やかに見つめ合う二人の表情が印象的で、温かな空気が静かに流れています。時間の経過とともに、二人はグラスを手に取り、自然な動きで顔を近づけながら乾杯します。
グラスの中のスパークリングワインがわずかに揺れ、キャンドルの光や店内の照明がガラスに反射することで、場の華やかさがより際立ちます。背景には柔らかくぼかされた店内の照明や装飾が広がり、祝福のシーンを包み込むような温かみのある空間が表現されています。
この動画は、大きな動作や演出的な動きではなく、視線の変化や手の動きといった細やかなモーションによって、二人の距離感や親密さを丁寧に描いているのが特徴。静かな視線のやり取りから、乾杯へと移り変わる流れができています。
特別な時間がゆっくりと進んでいく様子が自然に伝わる、物語性のある作品に仕上がっています。
Whiskに関するよくある質問(FAQ)
Whiskの今後に注目!
これまでテキストで詳細に説明しなければならなかった画像生成も、Whiskならたった3つの画像を選ぶだけで、新しい画像が生まれます。
現在はアメリカ限定のサービスですが、近い将来、世界中のユーザーが利用できるようになると期待されています。Whiskを使えば、プロのデザイナーはもちろん、絵に自信がない人でも、頭の中にあるアイデアを手軽に形にすることができるでしょう。写真をポップなイラストに変えたり、見たことのない架空の生き物を作ったりと、楽しみ方は無限に広がります。
Whiskは、新しいアイデアを引き出し、創作活動をより楽しくする頼もしいツールです。これからの画像生成のあり方を大きく変える可能性を秘めており、多くの人にとって創作のハードルをぐっと下げてくれる気がします!
最後に
いかがだったでしょうか?
画像生成AIを活用することで、デザイン制作やコンテンツ生成の工数を大幅に削減し、短時間で高品質なビジュアルを作成できます。これにより、企画から実行までの効率化とクリエイティブ業務の最適化が可能です。
株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!
開発実績として、
・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント
などの開発実績がございます。
生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、通勤時間に読めるメルマガを配信しています。
最新のAI情報を日本最速で受け取りたい方は、以下からご登録ください。
また、弊社紹介資料もご用意しておりますので、併せてご確認ください。
