AU三太郎はどうやってMVを生成しているのか?エンジニアが仕組みを徹底考察
WEELメディア事業部AIライターの2scです。
みなさん、「au三太郎」10周年を記念した「さぁ、何やる?メーカー」はご存知ですか?
こちらはなんと、ユーザーの入力内容からオリジナルのMVを作ってくれるサービス。生成AIの力で、歌詞・歌声・挿入画像を用意してくれるんです!
当記事では、そんな「さぁ、何やる?メーカー」を徹底解剖。その仕組みについて、弊社エンジニアによる予想を紹介していきます。
完読いただくと、生成AIを使った企画のヒントが得られるかも……
ぜひ最後までお読みください!
生成AIで作られたau三太郎とは
KDDI株式会社が送る「au三太郎」のCMは、2024年で10周年。その節目を記念した下記コンテンツが、2024年元日にリリースされました。
● さぁ、何やる?メーカー:生成AIでMVが作れるサービス
● 年始限定CM:過去のCMを生成AIでアニメ風にリメイクしたもの
そう、「au三太郎」シリーズの新たな門出は生成AIなんです!
なかでも「さぁ、何やる?メーカー」は要注目。ユーザーが入力した今年の抱負をもとに、下記の生成AIがオリジナルのMVを合作してくれるそうなんです。
- ChatGPT
- VoiSona
- Stable Diffusion
ただ、その仕組みについては、KDDIからの発表がありません。※1
そこで当記事では、気になる中身について弊社専属LLMエンジニアの予想をお届けします。
なお、国内企業における生成AI活用事例について詳しく知りたい方は、下記の記事を合わせてご確認ください。
→生成AIを社内導入する方法とは?事例やメリット、注意点も解説
「au三太郎」に使われたツールの考察・予想
弊社エンジニアによると、「さぁ、何やる?メーカー」に使われているAIツールは以下の4種類であるとのことです。
- ChatGPT API
- Stable Diffusion(公表済み)
- VoiSona(公表済み)
- TextAlive
ここからは各AIツールの特徴や「さぁ、何やる?メーカー」内での役割について、詳しくみていきましょう!
ChatGPT API
「ChatGPT API / OpenAI API」は、ChatGPTのサービス外でOpenAIの生成AI(GPT-3.5 / GPT-4V / DALL-E 3…etc.)が使えるAPIです。「さぁ、何やる?メーカー」においては、歌詞の生成を担っていると考えられます。
もっと詳しく、モデルや処理についても考えてみます。おそらくは一般ユーザー向けに広く公開するという目的から、生成時の料金が最も安いGPT-3.5 Turboが用いられているはずです。
またChatGPT APIの機能「役割の指定」を活かして、歌詞だけを生成するセッティングがなされていそうです。
公式サイト:Product
Stable Diffusion
「さぁ、何やる?メーカー」のMVでは、歌詞の内容に即した画像が一部挿入されています。その挿入画像を歌詞から生成しているのが、画像生成AI「Stable Diffusion」です。
このStable Diffusionのすごいところは、テキストから全く新しい画像が生成できる「Text-to-Imageモデル」である点です。仕組みとしては……
- 学習時:画像をノイズに変換し、その工程を学習する
- 画像生成時:学習した工程と逆の処理で描画する
というふうに、なっています。
公式サイト:画像生成AI Stable Diffusion — Stability AI Japan
VoiSona
音声創作ソフトウェア「VoiSona」は、「さぁ、何やる?メーカー」の声帯にあたるAIツール。歌詞と楽譜をもとに、自然な歌声を生成します。
そんなVoiSonaの特徴は、機種(アーティスト)ごとに声質や得意分野が分かれている点にあります。「さぁ、何やる?メーカー」に採用されているものだと……
- 知声(Chis-A):中性的な声質で、ポップス / ジャズ / バラードが得意
- 機流音:「鬼龍院翔」氏の歌声を学習、高音域が得意
- AiSuu:「すぅ」氏の歌声を学習、キュートな声質
- MYK-IV:「マイキ」氏の歌声を学習、高音域が得意
と、4人のアーティストから好きな声が選べちゃうんです。
公式サイト:VoiSona
TextAlive
「さぁ、何やる?メーカー」ではおそらく、「TextAlive」がMVへの歌詞の挿入を担っているはずです。
「TextAlive」は、産業技術総合研究所の歌詞アニメーション制作支援サービス。入力した楽曲から、歌詞のアニメーション演出を自動生成してくれます。
公式サイト:TextAlive
「au三太郎」の仕組みを予想してみた
「さぁ、何やる?メーカー」は以下の流れで、MVを制作していると考えられます。
- ユーザーによる、KW・ニックネーム・歌声の指定
- ChatGPTによる歌詞の生成
- Voisonaによる歌声の生成
- Stable Diffusionによる挿入画像の生成
- TextAliveによる歌詞アニメーション生成
- 歌詞アニメーション・挿入画像・過去のCM・歌声をMVに統合
この全体の流れをフローチャートで表したのが下図です。
「さぁ、何やる?メーカー」ではChatGPTが生成した歌詞をもとに、VoiSona / Stable Diffusion / TextAliveがそれぞれ生成を行っているはずです。その中でも、
- ユーザー側の指定内容
- ChatGPTの歌詞生成用プロンプト
についてはある程度仕組みが予想できましたので、以下にて解説します。
ユーザー側の指定内容
「さぁ、何やる?メーカー」でユーザーが入力する内容は、下記の3点です。
- やりたいこと(KW)
- ニックネーム
- VoiSonaの機種
そのうちKWは歌詞・挿入画像に、ニックネームは歌詞のクレジットにそれぞれ影響します。試しに、下記を「さぁ、何やる?メーカー」に入力してみると……
#KW
懸垂10回達成する
#ユーザー名
2sc
このような形式で、歌詞が生成・表示されるんです。ちなみにMVのほうは、生成に1日程度かかります。
ChatGPTの歌詞生成用プロンプト
「さぁ、何やる?メーカー」ではまず、ChatGPT(ChatGPT API)を介して歌詞が生成されます。その歌詞の特徴としては……
- 前半・中間の各3フレーズがオリジナルの内容
- 後半はテンプレートで固定
→今何がやりたいの、今何になりたいの、予定通りに行かなくたって、確かに前には進んでいる
となっています。この仕様を再現したものが、下記のプロンプトです。
#命令
以下の{条件}に合う歌詞を出力してください。
# 条件
- 歌詞は{前半の歌詞}と{中間の歌詞}と{後半の歌詞}の3段構成
- {前半の歌詞}は{KW}を元に作成する
- {中間の歌詞}は{KW}を元に作成する
- {後半の歌詞}をサビとする
# 前半の歌詞
- 3フレーズ
- 7文字、7文字、12文字を1回
- 文字数はひらがな文字でカウントする
# 中間の歌詞
- 3フレーズ
- 7文字、7文字、12文字を1回
- 文字数はひらがな文字でカウントする
# 後半の歌詞
今何がやりたいの
今何になりたいの
予定通りに行かなくたって
確かに前には進んでいる
# KW
懸垂10回達成する
# 出力
新しく出力する{前半の歌詞}の後に新しく出力する{中間の歌詞}、さらにその後に{後半の歌詞}を出力してください。前半・中間・後半の歌詞本体以外を記入した場合は罰を与えます。
こちらのプロンプトをChatGPTに入力してみると……
以上のとおり、「さぁ、何やる?メーカー」の仕様で歌詞が生成されます。
なお、ChatGPTのプロンプトテクニックについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→プロンプトエンジニアリングマスターWiki!ChatGPTの必須テクニック16選
「au三太郎」に関連するAIツール3選
「さぁ、何やる?メーカー」には使われていないものの、同じようなことができるAIツールも存在します。当記事ではその中でも、
- Suno AI
- SOUNDRAW
- Style-Bert-VITS2 JP-Extra
について紹介します。まずはSNSで流行したSuno AIから、詳しくみていきましょう!
Suno AI
「Suno AI」は作詞・作曲・レコーディングを自動で行う楽曲生成AIです。その使い方は簡単で、テキストを入力するだけ。あとはSuno AIが、
- 歌詞
- 楽譜
- 歌声
- 伴奏
を数分で生成してくれます。
さらにSuno AIが生成した楽曲については、カスタマイズも可能。音楽の知識がなくても、自分だけの楽曲が作れるんです。
公式サイト:Suno AI
SOUNDRAW
SOUNDRAW株式会社の「SOUNDRAW」は、日本発の楽曲生成AIです。ユーザーが指定したジャンル・ムード・テンポをもとに、たったの数秒で楽曲を生成してくれます。
そんなSOUNDRAWが生成する楽曲はなんと、著作権フリー。SpotifyやAppleMusicでの配信&収益化が可能です。SOUNDRAWの学習にあたっては、社内製の音源が用いられているそうなんです。
公式サイト:AI Music Generator – SOUNDRAW
Style-Bert-VITS2 JP-Extra
無料で商用利用までできる音声合成(Text-to-speech / TTS)モデルが存在します。そのTTSモデルとは、「Style-Bert-VITS2 JP-Extra」です。
こちらは英語・中国語・日本語に対応したBert-VITS2がベースとなっており、
- アクセント・発音のバグ修正
- 日本語データでの再学習
- 英語・中国語要素の削除
といった調整が実施済み。そのため従来のTTSモデルと比べて、日本語の発音が流暢です。すでにマージモデルも流通している注目株です!
公式サイト:GitHub – litagin02/Style-Bert-VITS2
なお、Style-Bert-VITS2 JP-Extraについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【Style-Bert-VITS2 JP-Extra】日本語の発音・イントネーションが完璧な次世代AIを使ってみた
弊社の生成AI現場定着サポートについて
弊社では、生成AI導入済みのお客様に向けて現場定着サポートを行なっています。
● 現場でもっと生成AIを使ってほしい
● 生成AI活用の幅をもっと広げたい
● プロンプトを工夫して、効率化を進めたい
といった生成AI導入後のお困りごと・ご要望について、解決をお手伝いしております。詳しい内容や料金につきましては、下表をご覧ください。
現場定着サポート | |
---|---|
期間 | 2〜4ヶ月 |
内容 | ・現状分析 ・業務調査 ・プロンプトデザイン ・トレーニング(指導) |
見積もり額 | ¥ 1,200,000 ~ 2,400,000(月額60万〜) ※対象規模により変動 |
「生成AIの導入だけで終わりにしたくない」
「生成AI導入で、目に見える結果を出したい」
とお思いの方はぜひ、無料相談でお困りごとをお聞かせください。眠っていたデータを生成AIに学習させる方法などなど、弊社の知見を共有させていただきます。
→無料相談で話を聞いてみる
生成AIを組織に取り入れたい!といった方へ
【無料】サービス紹介資料|現場定着サポート(プロンプトデザイン・指導)
求めている返事が来るようにプロンプト(指示する文章)をお客様の企業に合わせて作成・指導するサービスです。
まずは生成AIについて知りたい!といった方へ
【無料】サービス紹介資料|現場定着サポート(プロンプトデザイン・指導)
求めている返事が来るようにプロンプト(指示する文章)をお客様の企業に合わせて作成・指導するサービスです。
「au三太郎」は生成AI時代に適応
当記事では「au三太郎」の10周年を記念したコンテンツ、「さぁ、何やる?メーカー」について解説していきました。以下にてもう一度、「さぁ、何やる?メーカー」の仕組みについて振り返っていきましょう!
- ユーザーによる、KW・ニックネーム・歌声の指定
- ChatGPTによる歌詞の生成
- Voisonaによる歌声の生成
- Stable Diffusionによる挿入画像の生成
- TextAliveによる歌詞アニメーション生成
- 歌詞アニメーション・挿入画像・過去のCM・歌声をMVに統合
今回紹介したKDDIの他にも、コカ・コーラや伊藤園などなど、生成AIを広報に活用している企業が現れています。これからの生成AI時代では、今まで以上に企業の独創性が試されそうですね。