AIインフルエンサーの仕組みを大解剖!AIひろゆきはこうやって作る
この記事では、今大活躍中のAIインフルエンサーの仕組みを忖度なく全て解説します。
「あの有名なAIインフルエンサーがどう作られているのか?」といった視点で徹底分析し、その開発手法までお教えします。
Youtubeで話題のAIひろゆきやTiktokでバズっている神宮寺藍はどうやったら作れるのか気になりますよね。
この記事を最後までご覧になれば、自分でそれらの有名AIインフルエンサーを作成することが可能です!
ぜひ、最後までご覧になってください。
この記事は3段構成となっています。
AIインフルエンサーについてやAIインフルエンサーの仕組みを知りたい方は以下の記事をご覧ください。
⚫️AIインフルエンサーについて
AIインフルエンサーとは? 人気もお金も自動で集めるAI達を紹介!
⚫️AIインフルエンサーの仕組み
AIインフルエンサーの仕組みを大解剖!AIひろゆきはこうやって作る
AIインフルエンサーの作り方
ここでは、先ほどご紹介したAIインフルエンサーで使われているツールを解説します。AIインフルエンサーの中身を知りたい方は必見です。
神宮寺藍
神宮寺藍のヴィジュアル作成には、Stable Diffusionが用いられています。
なお、一躍有名になったTikTok動画については、体型のBefore-Afterの画像2枚が使われています。これは、同一モデルの顔で体型を変更するようなプロンプト・プラグインを導入することで可能です。
実際に使われているプロンプトは不明ですが、同じようなことをしたい場合は以下のような技術スタックで挑むといいでしょう。(そこまでBefore-Afterの顔が似ていないこともあり、Stable-Diffusionで大量の画像を生成してちょっと似ている顔の画像2つを選んだ可能もありそうです)
ツール | 概要 |
---|---|
Stable Diffusion | 画像生成AIサービスであり、ユーザーが入力したテキストに基づいて画像を生成することが可能。 |
LECO | 画像生成モデルから特定の部位を除外・強調することができるLoRA学習法。 |
こちらからご確認ください!
SARI
SARIにはStable DiffusionとChatGPTが用いられています。
LINE Botの構築技術は生成AIが流行る前から一般化されており、公開APIを連携すれば構築可能です。その裏側ではGPT-3.5モデルが動作しており、回答を毎回自動生成しています(特段情報が見つからなかったので、GPT-4を利用していないと判断)。
また、画像生成は大量に自動生成しているわけではなく、事前にSARIの綺麗な画像をAI担当者が生成し、選抜されたもののみを公開していると予測。
ツール | 概要 |
---|---|
Stable Diffusion | 画像生成AIサービスであり、ユーザーが入力したテキストに基づいて画像を生成することが可能。 |
GPT-3.5 | OpenAIが提供する安価で高速な大規模言語モデル。ChatGPTのデフォルトバージョンと根本は同一のモデル。 |
アカウントはこちらになります。
imma
immaの制作には、画像生成AIは特段使われていないようで、基本的には3D CGの技術で構築されています。
Instagramに投稿されている画像は、実写静止画にimma 3Dアバターを合成することで実現しており、具体的には下記のようなデザインツールが利用されています。
ツール | 概要 |
---|---|
ZBrush | Pixologic社が開発した Windows および macOS 用の 3DCG ソフトウェア。 |
Maya | Autodesk社が開発した3DCGアニメーション制作ソフトウェア。 |
Mari | 映画「アバター」でも使われた3Dペイントツール。 |
Photoshop | 写真や画像の編集、色の調整、複数画像の合成、テキストの追加や装飾などを行うことができるソフトウェア。 |
こちらからアカウントをご確認ください。
AIひろゆき
AIひろゆきには、多くのAI技術を利用して作成されています。
映像生成にはDeepfake技術、音声にはボーカロイドのような音声合成技術、キャプション(話す内容)にはChatGPTが利用されており、複数の専門的なAIを繋ぎ合わせることで実現しています。
また驚くべきは、スーパーチャットにリアルタイムで応える力ですよね。AIによるコンテンツ生成には、データ量に応じて相応の時間がかかりますが、ここではスーパーチャットに送られてくる質問をAPI経由で事前に取得・選抜し、裏側で先にキャプション・音声・映像を生成することで実現していると思われます。
これらの技術を利用すれば、インフルエンサーが複数のサービス・環境で同時にライブ配信をすることができるようになり、インフルエンサーの時間制約がなくなることになります。今後さらにインフルエンサーの可能性が広がりそうですね!
ツール | 概要 |
---|---|
CoeFont | インフルエンサーの声を収集し、音声合成という技術でインフルエンサーの声モデルを作成したサービス。 |
GPT-3.5 | 開発当時はGPT-3.5系のFine-tuningがリリースされていなかったことから、プロンプトデザインのみで乗り切ったと思われる |
GPT-4 | GPT-4系のFine-tuningがまだリリースされていないことから、プロンプトデザインのみで乗り切ったと思われる |
davinci-002 Fine-tuning | 仮にGPT-3系でFine-tuningしたとしたら、精度の高いdavinciベースで行ったと思われる。過去のひろゆき氏の発言を文字起こしし、Fine-tuning用のデータを作成した。 |
AldeaLab | 静止画を大量生成し、動画として描画されるようにしたらしい。 映像は過去のひろゆき氏の動画の唇だけを変更する(リップシンク: 音声に口形を合わせる技術)手法を用いていると推察しています。理由として、映像に乱れがありません。服も背景も一定の精度ででてくる。ただ、唇だけはたまに崩れたりしますので、そう推察しました。Deepfakeとも言われたりします。ただ、詳細なことはわからないです。 |
こちらからYoutubeアカウントをご確認ください。
Caryn Marjorie
Caryn MarjorieにはGPT-4が使われていると公式が記載していますが、GPT-4にはまだFine-tuningのソリューションが存在しないため、プロンプトデザイン(「Carynならこんな発言をする」というロールプレイプロンプト)によって支えられていると思われます。
また声に関しては、本人の声の録音データを学習させることでカスタム音声合成モデルを作成しています。最近は少ないデータからでも本人の声に寄せたモデルが作成できるようになってきたため、そこまで労力はかかっていないのではないかと見ています。
ツール | 概要 |
---|---|
GPT-4 | GPT-4系のFine-tuningがまだリリースされていないことから、プロンプトデザインのみで乗り切ったと思われる |
Forever Voices | 有名人の音声を合成するサービス。おそらくタイアップしている。 |
こちらからアカウントをご確認ください!
ツール一覧
ここでは、先ほどご紹介した「AIインフルエンサーで使われているツール」の詳細を解説します。ツール選びの際に、ぜひ参考にしてください。
ツールカテゴリー | ツール名 | 概要 |
---|---|---|
音声合成 | CoeFont | 好きな文章を好きな声でAIに喋らせることができるツール |
MYCOEIROINK | 自分の声を使用してカスタム音声合成モデルを作成できるツール | |
Text-to-Speech | Googleの最先端のAI技術を活用してテキストを、自然な音声に変換するAPI技術 | |
Tacotoron | Googleが開発したテキストから音声への変換モデル | |
文章生成 | GPT-3.5 | 自然言語処理の分野での最新の技術を取り入れた、高度な大規模言語モデル |
GPT-4 | GPT-3.5の上位互換に相当する大規模言語モデル | |
GPT-3.5 Fine-tuning | 特定のデータセットやトーク履歴を使用して、GPT-3.5のモデルをカスタマイズすることができる技術 | |
画像生成 | Stable Diffusion | 英国のStability AI社が開発した画像生成AIサービス |
Midjourney | AI技術を活用して高画質な静止画を生成することができるサービス | |
DreamStudio | StabilityAIが提供する商用利用が可能な先進的な画像生成サービス | |
DALL・E2 | OpenAIが開発したAI技術を活用して、ユーザーの要望に応じた高品質な画像を生成するサービス | |
動画生成 | Creative Reality Studio | 静止画上の人物の口元を動かし、音声と同期させることで、リアルタイムのリップシンクを実現するサービス |
SadTalker | リアルタイムのリップシンクを実現できるライブラリ | |
GEN2 | ユーザーがアップロードした静止画を基に、短い動画クリップを生成するサービス |
音声合成
まずは音声合成のAIツールです。それでは順番に見ていきましょう。
CoeFont
CoeFontは、世界中の多様なAIの声で、好きな文章をAIに喋らせることができるツールです。日本語に対応した声では、声優やナレーターさんの声を多数取り揃えており、おそらく世界で一番多いと言えるでしょう。
価格が上がるかもしれませんが、APIも提供されており、開発者やビジネスに応じてさまざまな方法で利用することができます。少しはお金を出しても良いと考える方には、このサービスは非常におすすめです。
MYCOEIROINK
MYCOEIROINKは、ユーザーが自分の声を使用して、カスタム音声合成モデルを作成することができる、無料のAIトークソフトです。
「MYCOEIROINK」の作成には、Google Colabを使用して行います。ただし、このツールの使用には、開発者としての一部の知識が必要とされており、難易度は高いです。
具体的な作成方法や利用規約などの詳細については、Google Colabのコードページにあります。
参考記事:https://coeiroink.com/mycoeiroink/making
Text-to-Speech
Text-to-Speech AIは、Googleの最先端のAI技術を活用してテキストを、自然な音声に変換するAPIです。このAPIは、40以上の言語と言語変種に対応しており、220種類以上の音声から選択することができます。特に、Googleの画期的な技術「DeepMind」をベースにした音声合成技術により、人間のような自然なイントネーションの音声を生成することが可能です。
また、50以上の言語と言語変種、380種類以上の音声から選択できます。さらに、一般的な音声ではなく、独自の音声を作成することも可能です。
しかし、TikTokなどのプラットフォームでよく聞かれるAIの女性音声は、一部のユーザーからはダサいと感じられることがあるため、使用する際は注意が必要です。また、自分の声でカスタム音声合成を希望する場合、Googleの営業部門に問い合わせる必要があり、個人利用には向かないかもしれません。
参考記事:https://cloud.google.com/text-to-speech?hl=ja~~
Tacotron
Tacotronは、Googleが開発したテキストから音声への変換モデルであり、深層学習技術をベースにしています。このモデルは、テキストを直接的に生の波形に変換する能力を持っており、その結果として非常に自然な音声を生成することができます。
特に、Tacotron 2というバージョンでは、WaveNetという波形生成モデルと組み合わせることで、非常にリアルな音声を生成することが可能です。
Google Colabを利用することで、Tacotronの実行やテストができます。
しかし、Tacotronを利用するには、一定の技術的な背景や知識が必要です。特に、自分の声をモデルに学習させるためには、ある程度のコーディングスキルが求められます。また、学習に使用する音声データ、いわゆるコーパスを自分で準備する必要があり、一般的なユーザーには難易度が高い作業となるでしょう。
そのため、Tacotronはかなり上級者向けのツールと言えます。初心者や技術的な背景を持たないユーザーには、Tacotronの利用はお勧めできません。
文章生成
次に、文章生成のAIツールです。それでは順番に見ていきましょう。
GPT-3.5
GPT-3.5は、自然言語処理の分野での最新の技術を取り入れた、高度な大規模言語モデルです。自動生成のタスクにおいては、GPT-3.5のAPIを使用することで、高速かつ低コストでの文章生成が可能となります。
コンテンツ制作やチャットボットの応答生成、質問応答システムなど、さまざまなアプリケーションでの利用が考えられるでしょう。
また、プロンプトデザインの工夫により、より精度の高い文章生成が可能となっています。プロンプトとは、モデルに入力する初期のテキストのことを指し、このプロンプトの設計によって、モデルの出力結果を大きく左右することができます。
したがって、GPT-3.5を使用する際には、プロンプトデザインの最適化を行い、期待する出力結果を得るための工夫が必要です。
参考記事:https://chat.openai.com/auth/login
GPT-4
GPT-4は、GPT-3.5の上位互換に相当する大規模言語モデルです。OpenAIのサービス「ChatGPT」を利用することで、ユーザーは$20の課金を行うことで、GPT-4を使用して文章をいくらでも生成することができます。
GPT-4を利用することで、例えばSNSのコンテンツ制作においては、InstagramやTikTokのシナリオや話す内容を考える際に、非常に有効です。ユーザーは、特定のトピックやキーワードをプロンプトとして入力することで、関連する内容やシナリオを自動的に生成することができます。
さらに、YouTubeやLINEなどのリアルタイムでの対応を必要とする場合、GPT-4のAPIを使用する必要があります。このAPIを使用することで、リアルタイムでの文章生成が可能となりますが、レスポンス速度が遅く、コストも高いため、個人的にはその利用はお勧めできないです。
特に、高頻度でのリアルタイム対応が必要な場合や、大量のリクエストを処理する必要がある場合には、APIの利用は適していないかもしれません。
参考記事:https://chat.openai.com/auth/login
GPT-3.5 Fine-tuning
GPT-3.5 Fine-tuningは、特定のデータセットやトーク履歴を使用して、GPT-3.5のモデルをカスタマイズすることができる技術です。特に、1,000往復以上のトーク履歴や、文字起こしデータが存在する場合、このFine-tuningの手法を使用することで、モデルの精度や再現性を大幅に向上させることができます。
この手法の最大の利点は、一般的なプロンプトを使用することなく、特定の口調やスタイルを再現する能力にあります。例えば、「インフルエンサーっぽい」口調を持つモデルを作成したい場合、関連するトーク履歴やデータを使用してモデルをFine-tuningすることで、そのような口調を持つ文章を自動的に生成することが可能です。
また、GPT-3.5 Fine-tuningを使用することで、ビジネスや研究などの特定の分野に応じた文章生成が可能となります。
しかし、Fine-tuningのプロセスは、一定の技術的な知識や経験が必要となるため、初心者には、難易度が高いと言えるでしょう。
画像生成
次に、画像生成のAIツールです。それでは順番に見ていきましょう。
StableDiffution
Stable Diffusionは、英国のStability AI社が開発した画像生成AIサービスです。ユーザーが入力したテキストに基づいて画像を生成してくれます。たとえば、「アマゾンのジャングル」や「高層ビルが建ち並ぶ都会」などのイメージを英単語で区切って入力すると、さまざまな画像の作成が可能です。
Stable Diffusion は、ミュンヘン大学のCompVisグループが開発した潜在拡散モデル(latent diffusion model)であり、深層生成モデルの一種です。
参考記事:https://ja.stability.ai/stable-diffusion
Midjourney
Midjourneyは、AI技術を活用して高画質な静止画を生成することができるサービスです。特に、広告やプロモーション、ウェブサイトのデザインなど、商用利用を目的とした高品質な画像の生成に適しています。
Midjourneyは、Discord上で動作するボットとして提供されており、ユーザーはDiscordのインターフェースを通じて画像の生成をリクエストすることができます。
サービスの基本的な利用は無料であるものの、商用利用や高度な機能を利用するためには、サブスクリプションの課金が必要です。課金することで、生成スピードの向上や、より高度なカスタマイズオプションの利用が可能となります。
参考記事:https://www.midjourney.com/home/?callbackUrl=%2Fapp%2F
DreamStudio
DreamStudioは、StabilityAIが提供する先進的な画像生成サービスで、商用利用が可能です。このサービスの最大の特徴は、最新の「StableDiffusion」のSDモデル、特に「SDXL1.0」モデルなどを利用して、高品質な画像を生成することができる点です。
StableDiffusionは、AI技術を活用してリアルタイムでの画像生成を可能にするツールであり、DreamStudioを通じてその機能を簡単に利用することができます。
特に、StableDiffusionを動作させるための高スペックなPCや、その操作に関する深い知識がないユーザーにとって、DreamStudioは非常に便利なサービスとなっています。
また、DreamStudioの利用料金は、サブスクリプション形式ではなく、クレジットを購入して消費する形式です。
参考記事:https://beta.dreamstudio.ai/generate
DALL•E2
DALL•E2は、OpenAIが開発したAI技術を活用して、ユーザーの要望に応じた高品質な画像を生成するサービスです。このサービスは、DALL•Eの後継モデルとして開発され、さらに高度な画像生成能力を持っています。
ユーザーは、テキストのプロンプトを入力することで、その内容に合わせた画像を生成することができます。例えば、「夕日の中の猫」といったプロンプトを入力すると、そのシーンを表現した画像が生成されます。
DALL•E2の利用料金は、サブスクリプション形式ではなく、クレジットを購入して消費する形式です。
参考記事:https://openai.com/dall-e-2
動画生成
最後は、動画生成のAIツールです。それでは順番に見ていきましょう。
Creative Reality Studio
Creative Reality Studioは、静止画上の人物の口元を動かし、音声と同期させることで、リアルタイムのリップシンクを実現するサービスです。特に、プレゼンテーションや広告、教育コンテンツなど、さまざまなシーンでの利用が考えられます。
ユーザーは、静止画と音声データをアップロードするだけで、簡単にリップシンクを適用することができます。
また、初心者でも簡単に操作することが可能です。
参考記事:https://studio.d-id.com/editor
SadTalker
SadTalkerは、Creative Reality Studioと同じくリアルタイムのリップシンクを実現するような、ライブラリです。このライブラリを使用することで、静止画を活用して動画のようなコンテンツを作成することができ、さまざまなアプリケーションやウェブサイトでの利用が考えられます。
HuggingFaceというプラットフォームにライブラリが公開されているため、開発者や研究者は無料でアクセスして利用することができます。
ライブラリをインポートし、簡単なコードを書くだけで、リップシンクの機能をアプリケーションに組み込むことが可能です。そのため、高品質なリップシンク動画を迅速に作成し、さまざまなメディアやプラットフォームでの公開が可能となります。
参考記事:https://huggingface.co/spaces/vinthony/SadTalker
GEN2
GEN2は、ユーザーがアップロードした静止画を基に、短い動画クリップを生成するサービスです。このサービスの特徴は、単なるスライドショーではなく、静止画に動きやエフェクトを追加して、より魅力的な動画コンテンツを作成することができる点です。
GEN2を使用することで、静止画だけでは伝えきれない情報や雰囲気を、動画として効果的に伝えることができます。
また、GEN2は使いやすいインターフェースを持ち、専門的な知識や技術がないユーザーでも簡単に操作することが可能です。
参考記事:https://research.runwayml.com/gen2
AIインフルエンサーをビジネスでフル活用しよう
本記事では、AIインフルエンサーの作り方について解説しました。それぞれの有名AIインフルエンサーに使われているツールは以下の通りです。
AIインフルエンサー | ツール | 概要 |
---|---|---|
神宮寺藍 | Stable Diffusion | 画像生成AIサービスであり、ユーザーが入力したテキストに基づいて画像を生成することが可能。 |
SARI | Stable Diffusion | 画像生成AIサービスであり、ユーザーが入力したテキストに基づいて画像を生成することが可能。 |
ChatGPT | OpenAI社が2022年11月に発表した会話型AIサービスで、ユーザーが入力した質問に対して、人間のように自然な対話形式で答えてくれる。 | |
imma | ZBrush | Pixologic社が開発した Windows および macOS 用の 3DCG ソフトウェア。 |
Maya | Autodesk社が開発した3DCGアニメーション制作ソフトウェア。 | |
Photoshop | 写真や画像の編集、色の調整、複数画像の合成、テキストの追加や装飾などを行うことができるソフトウェア。 | |
AIひろゆき | CoeFont | インフルエンサーの声を収集し、音声合成という技術でインフルエンサーの声モデルを作成したサービス。 |
GPT3.5 | 開発当時はGPT-3.5系のFine-tuningがリリースされていなかったことから、プロンプトデザインのみで乗り切ったと考えられる。 | |
GPT4 | 当時はGPT-4系のFine-tuningがまだリリースされていないことから、プロンプトデザインのみで乗り切ったと考えられる。 | |
davinci-002 Fine-tuning | 仮にGPT-3系でFine-tuningしたとしたら、精度の高いdavinciベースで行ったと予想。過去のひろゆき氏の発言を文字起こしし、Fine-tuning用のデータを作成した。 | |
AldeaLab | 静止画を大量生成し、動画として描画されるようにしたと解説されている。 映像は過去のひろゆき氏の動画の唇だけを変更する(リップシンク: 音声に口形を合わせる技術)手法を用いていると推察。 |
最後に
今回は、有名なAIインフルエンサーの仕組みを忖度なく解説しました。
いかがだったでしょうか?
次の記事では、ここで解説した内容をもとに、自社専用のオリジナルAIインフルエンサーを作成する方法を解説しています。
ほとんどオープンソースプロジェクトで作成しており、無料で作成しています。
ノウハウを一切隠さずに全て公開しているので、全く同じ手順であなたもAIインフルエンサーを作成することが可能です。
ぜひ、ご覧ください!
弊社では、自社の商品の販売やプロモーションを行うAIインフルエンサーの開発を承っております。
AIインフルエンサーを開発するメリットは以下の通りです。
炎上のリスクが少ない
遠隔地でも対応できる
広告コストがかからない
フェムテックのイメージモデルになれる
24時間毎日対応できるモデルを起用できる
自社イメージにピッタリハマるモデルを起用できる
まずは、「無料相談」にてAIインフルエンサーに関するご相談を承っておりますので、ご興味がある方はぜひご連絡ください。