Gemini(旧Google Bard)で画像生成はできる?最新の画像生成機能や利用方法なども解説
Googleは、大規模言語モデルであるLaMDA(Language Model for Dialogue Applications)を搭載したチャットボット「Bard」を開発し、Webから幅広い情報を収集して要約する機能を提供してきました。2024年2月にGoogle Bardはサービス名を「Gemini」に変更し、幅広い機能を提供しています。
GeminiはChatGPTに引けを取らない優れた性能を有しており、Googleが提供している各サービスとの連携も可能です。この記事では、Geminiの基本や画像認識機能の活用方法を解説します。また、Gemini以外の5つの画像生成AIも紹介し、私たちの日常生活を豊かにする方法を具体的に説明します。
Geminiや画像生成AIをより効果的に使いこなせるようになるでしょう。
Gemini(旧Google Bard)とは
Geminiは、Googleが開発した生成AIです。Googleが持つ膨大なデータベースとインターネット上の情報を活用し、日常的な疑問から専門的な質問に至るまで幅広く対応可能です。また、テキストだけでなく、画像や音声などマルチモーダルデータに対応しています。
Geminiの強みのひとつは、Google Workspaceと連携(Gemini for Google Workspace)できる点です。私たちが日常的に利用しているGoogleマップやGmailなどのGoogleサービスとGeminiを連携できるのは、Googleならではの強みと言えるでしょう。
例えば、下記画像のようにGeminiに向かって「過去1か月の間に受信したマイクロソフト社からのメールを抽出してください」と質問すると、Gmail情報から該当するメールを探して回答します。
なお、Geminiの使い方について詳しく知りたい方は、下記の記事を合わせてご確認ください。
有料プランGemini Advancedが追加
Geminiには、有料の「Gemini Advanced」プランがあります。Gemini Advancedでは、Gemini Ultra1.0が利用できます。Geminiには「Gemini Nano」「Gemini Flash」「Gemini Pro」「Gemini Ultra」の4種類が用意されており、Gemini Ultraは最も複雑で多様なタスクに対応できる高性能なモデルです。Gemini Ultraは、GPT-4より性能が良いと評判のマルチモーダル生成AIです。
Geminiは日本語を使っての画像生成ができません。Geminiでの画像生成は、2024年8月時点で英語のプロンプト入力にしか対応しておらず、今後の日本語対応が待たれます。しかし、Geminiは翻訳も得意とするため、生成したい画像のプロンプトをGeminiで翻訳すればそれほど手間を掛けずに実行できるでしょう。Gemini Advancedの利用料金は、月額2,900円(1か月間は無料)でChatGPT Plus(月額20ドル)と同等です。
Geminiでも画像生成が可能に
2024年2月のアップデートで、最新のtext to image technologyである「Imagen 2」というモデルが追加され、Geminでもプロンプト入力による画像生成が可能になりました。公開直後に不適切な画像が生成されるとの苦情が多く寄せられたため、Googleは人物画像の生成機能を一時停止して改善に取り組んでいますが、2024年8月時点でも再開されていません。※1Geminiの能力はテキストベースの情報提供に特化しており、Googleが持つ豊富なデータベースを活用することで、様々な質問に対して高度なリアルタイム回答が可能です。
ChatGPTと比べて質問に対しての回答結果が早いのも特徴的。さらに、今回の画像生成機能の搭載により、生成できるコンテンツの幅が格段に向上しました。
2023年5月には、Adobe Fireflyから正式にGeminiと提携するとの旨が発表されました。)※2
Adobe Fireflyは、Adobe社が開発した商用利用も可能な画像生成AIです。Adobe Fireflyは無料と有料のプランがあり、アカウント登録さえすれば誰でも無料で利用できます。(無料プランの場合生成した画像にAdobeのロゴが表示されたり、1ヶ月に25回の生成などの制約がある
なお、Adobe Fireflyについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
Gemini(旧Google Bard)で画像生成を利用する方法
Geminiで画像を生成する方法は、生成したい画像についてテキストでプロンプト入力するだけです。ただし、前述のとおりプロンプトの日本語入力は非対応なので、英語でプロンプトを入力する必要があります。
英語が苦手な方は難しそうに感じるかもしれませんが、Geminiに翻訳を頼めばすぐに英語に変換できます。
例えば「猫と部屋で遊ぶ犬の画像を作成してを英語にしてください」と指示し、出力された英語を入力したところ下記の画像が生成されました。
条件を満たしたイラストが4枚生成され、英語が苦手な方でも問題なく利用可能です。
他のパターンが欲しい場合は、生成された画像の下にある「さらに生成」をクリックすると新たな画像を生成できます。
Gemini(旧Google Bard)の画像生成機能の活用方法
Geminiは画像生成機能だけではなく、画像入力や画像認識も可能です。この機能を使えば買い物や調べものをサポートでき、日常生活が便利になるでしょう。この項目では、Geminiを使った画像機能の活用法を紹介します。
①画像の調査・分析
Geminiの画像調査・分析機能は、画像に含まれる情報を深く理解するのに役立ちます。画像内の物体や風景、人物を識別し、関連する詳細な情報やデータを収集・要約して回答してくれます。
画像分析は、研究やマーケティング、教育など多様な分野での応用が可能です。例えば、市場調査において商品画像を分析して消費者の嗜好を調査する、教育分野では画像を通じて歴史や科学の知見などを分かりやすく要約するなど授業をサポートします。
②画像から買い物や調べものをサポート
Geminiの画像認識機能を使えば、買い物や調べものが効率的で楽になります。所持しているベースの写真を撮ってGeminiに聞いてみましたが、モデル名まで当ててくれました。
自分が気に入った家具や服の画像をGeminiにアップロードして、類似の商品をオンラインで検索することも可能です。他にも、購入オプションを提示したり、旅行先の風景写真からその場所の情報を得たりできます。
レストランの料理写真をアップロードすると、その料理のレシピに関する情報をウェブ上で見つけてくれるでしょう。Geminiの画像入力・認識機能は、日常生活を便利にするサポートを提供します。
③プロンプトの提案
Geminiでは、保有する画像に類似した画像を生成するためのプロンプト提案も可能です。
例えば、下記画像のように景色の写真をアップロードしてGeminiに「この画像のような景色を生成するプロンプトを作って」と質問します。
Geminiの回答では、下記のような提案・アドバイスが返ってきました。
また、「あなたが提案してくれたスタイルで新しく画像を作りたいので、プロンプトを提案してください」というプロンプト文をGeminiに投げれば、アップロードした画像に基づいた新しいデザインを生成してくれます。
この機能により、新しいインスピレーションを得たり、自分自身では考えつかなかったような使い方をGeminiで見つけたりすることも可能です。
④画像の生成
Googleの利用規約にはGeminiによる生成画像の商用利用禁止に関する文言はありません。また、生成 AI の使用禁止に関するポリシーには「モデルを使用する際は、法を遵守し、責任を持ってご利用いただきますようお願いいたします。」とあります。
上記観点から商用利用は可能であり、Geminiの画像生成機能を利用したアイコンの作成や広告・バナーのデザイン生成など、幅広いシーンで利用できます。
しかし、生成されたすべての画像を安易に利用すると、著作権の侵害等の問題につながる可能性もあるので注意が必要です。
なお、Geminiのおすすめ活用事例について詳しく知りたい方は、下記の記事を合わせてご確認ください。
Gemini(旧Google Bard)以外の画像生成AI
画像生成AIには、Gemini以外にも高精度なAIがいくつも存在します。OpenAIのDALL-E3やAdobe Fireflyなど、創造的な画像生成で注目されています。それぞれ詳しく見てみましょう。
Adobe Firefly
Adobe Fireflyは、Adobeが独自に開発した生成AIモデルを採用しています。PhotoshopやIllustratorといったAdobe製品に統合されており、デザイン業界で活用されています。
Adobe Stock上の画像・著作権切れコンテンツ・オープンライセンスなどの権利関係が明確な画像のみを利用し、著作権に配慮した学習を行っているため、安心して商用利用できる点も特徴です。
今後Geminiに提携されれば、より身近な存在になるでしょう。
Stable Diffusion
Stable Diffusionは、イギリスのStability AI社が開発した潜在拡散モデルと呼ばれる独自技術を用いた画像生成AIです。入力されたテキストプロンプトから画像を生成します。
潜在拡散モデルは、画像を低解像度のノイズから徐々に改善し、高解像度の画像を生成していく方法です。この潜在拡散モデルで画像を生成しながら、テキストの意味を反映させていくように学習させています。基本的に商用利用も認められており、Stable Diffusionで生成した画像を広告に利用する企業もすでに存在します。但し、一部のモデルでは商用利用が認められていないため、利用前の確認が必要です。
Stable Diffusionは人物のリアルな生成が強みでもあり、マッチングアプリのオタ恋の広告はStable Diffusionを使って生成されているようです。
Bing Image Creator
Bing Image Creatorは、MicrosoftのBing検索エンジンとOpen AIのDALL-E3が統合された画像生成AIです。
Bing Image Creatorの最大の特徴は、本来ChatGPT PlusやDALL-E3は月額課金前提のサービスなのですが、マイクロソフトのアカウントさえあれば無料で利用できる点にあります。
1日のうちに15回といった制限はあるものの、無料でここまで高精度なAIが利用できるのは驚きです。プロンプトは日本語にも対応しており、翻訳が必要ないのもメリットでしょう。
しかし、基本的に商用利用は認められていないため、個人での非営利目的での利用に限定されます。
Midjourney
画像生成AIとして日本で最初に注目されたMidjourneyですが、他の画像生成AIと比較して独特の芸術的なアプローチが特徴です。
Midjourneyは、抽象的な概念や複雑なアイデアを視覚化する能力に優れており、アーティストやデザイナーに新しい創造的なインスピレーションを与えやすいAIです。
他のAIよりも芸術的な側面に重きを置いており、非常に個性的かつ創造的なビジュアルを生み出せます。
CanvaAI
CanvaAIは、人気のデザインツールCanvaに統合された直感的かつユーザーフレンドリーな画像生成AIです。自分のアイデアやビジョンに合ったカスタマイズ可能なテンプレートや画像を瞬時に生成できます。
ビジネスプレゼンテーション、マーケティング用の素材、教育の資料など、CanvaAIは幅広い用途に対応し、デザインプロセスを大幅に効率化できるでしょう。
なお、 Canva GPTについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
Gemini(旧Google Bard)の画像機能を上手に活用しよう!
Google Bardは、2024年2月にサービス名を変更しGeminiとなりました。アップデートにより、画像生成機能が実装され大きく進化しています。さらに、Adobe Fireflyとの提携が決まっている他、画像認識や画像入力も利用可能です。
また、2024年8月28日に「Gemini」の画像生成機能を強化した、最新の画像生成モデル「Imagen 3」を導入すると発表がありました。このアップデートで人物の生成機能も再開される予定だそうです。
各画像生成AIは独自の強みとそれぞれの用途を持ち、クリエイティブな作業やビジネスアプリケーションに革新をもたらしています。今後も画像生成AIの技術の進化に注目し、新たな可能性を見つけていきましょう。
生成系AIの業務活用なら!
・生成系AIを活用したPoC開発
・生成系AIのコンサルティング
・システム間API連携
最後に
いかがだったでしょうか?
弊社では、
・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、大規模言語モデル(LLM)を対象に、言語理解能力、生成能力、応答速度の各側面について比較・検証した資料も配布しております。この機会にぜひご活用ください。