AU三太郎はどうやってMVを生成しているのか？エンジニアが仕組みを徹底考察

2024-04-112024-07-12

WEELメディア事業部AIライターの2scです。

みなさん、「au三太郎」10周年を記念した「さぁ、何やる？メーカー」はご存知ですか？

こちらはなんと、ユーザーの入力内容からオリジナルのMVを作ってくれるサービス。生成AIの力で、歌詞・歌声・挿入画像を用意してくれるんです！

当記事では、そんな「さぁ、何やる？メーカー」を徹底解剖。その仕組みについて、弊社エンジニアによる予想を紹介していきます。

完読いただくと、生成AIを使った企画のヒントが得られるかも……

ぜひ最後までお読みください！

「さぁ、何やる？メーカー」は2024年2月29日にサービスを終了しています。

生成AIで作られたau三太郎とは

KDDI株式会社が送る「au三太郎」のCMは、2024年で10周年。その節目を記念した下記コンテンツが、2024年元日にリリースされました。

● さぁ、何やる？メーカー：生成AIでMVが作れるサービス
● 年始限定CM：過去のCMを生成AIでアニメ風にリメイクしたもの

そう、「au三太郎」シリーズの新たな門出は生成AIなんです！

なかでも「さぁ、何やる？メーカー」は要注目。ユーザーが入力した今年の抱負をもとに、下記の生成AIがオリジナルのMVを合作してくれるそうなんです。

ChatGPT
VoiSona
Stable Diffusion

ただ、その仕組みについては、KDDIからの発表がありません。※1

そこで当記事では、気になる中身について弊社専属LLMエンジニアの予想をお届けします。

なお、国内企業における生成AI活用事例について詳しく知りたい方は、下記の記事を合わせてご確認ください。
→生成AIを社内導入する方法とは？事例やメリット、注意点も解説

「au三太郎」に使われたツールの考察・予想

弊社エンジニアによると、「さぁ、何やる？メーカー」に使われているAIツールは以下の4種類であるとのことです。

ChatGPT API
Stable Diffusion（公表済み）
VoiSona（公表済み）
TextAlive

ここからは各AIツールの特徴や「さぁ、何やる？メーカー」内での役割について、詳しくみていきましょう！

ChatGPT API

「ChatGPT API / OpenAI API」は、ChatGPTのサービス外でOpenAIの生成AI（GPT-3.5 / GPT-4V / DALL-E 3…etc.）が使えるAPIです。「さぁ、何やる？メーカー」においては、歌詞の生成を担っていると考えられます。

もっと詳しく、モデルや処理についても考えてみます。おそらくは一般ユーザー向けに広く公開するという目的から、生成時の料金が最も安いGPT-3.5 Turboが用いられているはずです。

またChatGPT APIの機能「役割の指定」を活かして、歌詞だけを生成するセッティングがなされていそうです。

公式サイト：Product

Stable Diffusion

「さぁ、何やる？メーカー」のMVでは、歌詞の内容に即した画像が一部挿入されています。その挿入画像を歌詞から生成しているのが、画像生成AI「Stable Diffusion」です。

このStable Diffusionのすごいところは、テキストから全く新しい画像が生成できる「Text-to-Imageモデル」である点です。仕組みとしては……

学習時：画像をノイズに変換し、その工程を学習する
画像生成時：学習した工程と逆の処理で描画する

というふうに、なっています。

公式サイト：画像生成AI Stable Diffusion — Stability AI Japan

VoiSona

音声創作ソフトウェア「VoiSona」は、「さぁ、何やる？メーカー」の声帯にあたるAIツール。歌詞と楽譜をもとに、自然な歌声を生成します。

そんなVoiSonaの特徴は、機種（アーティスト）ごとに声質や得意分野が分かれている点にあります。「さぁ、何やる？メーカー」に採用されているものだと……

知声（Chis-A）：中性的な声質で、ポップス / ジャズ / バラードが得意
機流音：「鬼龍院翔」氏の歌声を学習、高音域が得意
AiSuu：「すぅ」氏の歌声を学習、キュートな声質
MYK-IV：「マイキ」氏の歌声を学習、高音域が得意

と、4人のアーティストから好きな声が選べちゃうんです。

公式サイト：VoiSona

TextAlive

「さぁ、何やる？メーカー」ではおそらく、「TextAlive」がMVへの歌詞の挿入を担っているはずです。

「TextAlive」は、産業技術総合研究所の歌詞アニメーション制作支援サービス。入力した楽曲から、歌詞のアニメーション演出を自動生成してくれます。

公式サイト：TextAlive

「au三太郎」の仕組みを予想してみた

「さぁ、何やる？メーカー」は以下の流れで、MVを制作していると考えられます。

ユーザーによる、KW・ニックネーム・歌声の指定
ChatGPTによる歌詞の生成
Voisonaによる歌声の生成
Stable Diffusionによる挿入画像の生成
TextAliveによる歌詞アニメーション生成
歌詞アニメーション・挿入画像・過去のCM・歌声をMVに統合

この全体の流れをフローチャートで表したのが下図です。

「さぁ、何やる？メーカー」ではChatGPTが生成した歌詞をもとに、VoiSona / Stable Diffusion / TextAliveがそれぞれ生成を行っているはずです。その中でも、

ユーザー側の指定内容
ChatGPTの歌詞生成用プロンプト

についてはある程度仕組みが予想できましたので、以下にて解説します。

ユーザー側の指定内容

「さぁ、何やる？メーカー」でユーザーが入力する内容は、下記の3点です。

やりたいこと（KW）
ニックネーム
VoiSonaの機種

そのうちKWは歌詞・挿入画像に、ニックネームは歌詞のクレジットにそれぞれ影響します。試しに、下記を「さぁ、何やる？メーカー」に入力してみると……

#KW
懸垂10回達成する

#ユーザー名
2sc

このような形式で、歌詞が生成・表示されるんです。ちなみにMVのほうは、生成に1日程度かかります。

ChatGPTの歌詞生成用プロンプト

「さぁ、何やる？メーカー」ではまず、ChatGPT（ChatGPT API）を介して歌詞が生成されます。その歌詞の特徴としては……

前半・中間の各3フレーズがオリジナルの内容
後半はテンプレートで固定
→今何がやりたいの、今何になりたいの、予定通りに行かなくたって、確かに前には進んでいる

となっています。この仕様を再現したものが、下記のプロンプトです。

#命令
以下の{条件}に合う歌詞を出力してください。

# 条件
- 歌詞は{前半の歌詞}と{中間の歌詞}と{後半の歌詞}の3段構成
- {前半の歌詞}は{KW}を元に作成する
- {中間の歌詞}は{KW}を元に作成する
- {後半の歌詞}をサビとする

# 前半の歌詞
- 3フレーズ
- 7文字、7文字、12文字を1回
- 文字数はひらがな文字でカウントする

# 中間の歌詞
- 3フレーズ
- 7文字、7文字、12文字を1回
- 文字数はひらがな文字でカウントする
    
# 後半の歌詞
今何がやりたいの
今何になりたいの
予定通りに行かなくたって
確かに前には進んでいる
    
# KW
懸垂10回達成する
    
# 出力
新しく出力する{前半の歌詞}の後に新しく出力する{中間の歌詞}、さらにその後に{後半の歌詞}を出力してください。前半・中間・後半の歌詞本体以外を記入した場合は罰を与えます。

こちらのプロンプトをChatGPTに入力してみると……

以上のとおり、「さぁ、何やる？メーカー」の仕様で歌詞が生成されます。

なお、ChatGPTのプロンプトテクニックについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→プロンプトエンジニアリングマスターWiki！ChatGPTの必須テクニック16選

「au三太郎」に関連するAIツール3選

「さぁ、何やる？メーカー」には使われていないものの、同じようなことができるAIツールも存在します。当記事ではその中でも、

Suno AI
SOUNDRAW
Style-Bert-VITS2 JP-Extra

について紹介します。まずはSNSで流行したSuno AIから、詳しくみていきましょう！

Suno AI

「Suno AI」は作詞・作曲・レコーディングを自動で行う楽曲生成AIです。その使い方は簡単で、テキストを入力するだけ。あとはSuno AIが、

歌詞
楽譜
歌声
伴奏

を数分で生成してくれます。

さらにSuno AIが生成した楽曲については、カスタマイズも可能。音楽の知識がなくても、自分だけの楽曲が作れるんです。

公式サイト：Suno AI

SOUNDRAW

SOUNDRAW株式会社の「SOUNDRAW」は、日本発の楽曲生成AIです。ユーザーが指定したジャンル・ムード・テンポをもとに、たったの数秒で楽曲を生成してくれます。

そんなSOUNDRAWが生成する楽曲はなんと、著作権フリー。SpotifyやAppleMusicでの配信&収益化が可能です。SOUNDRAWの学習にあたっては、社内製の音源が用いられているそうなんです。

公式サイト：AI Music Generator – SOUNDRAW

Style-Bert-VITS2 JP-Extra

無料で商用利用までできる音声合成（Text-to-speech / TTS）モデルが存在します。そのTTSモデルとは、「Style-Bert-VITS2 JP-Extra」です。

こちらは英語・中国語・日本語に対応したBert-VITS2がベースとなっており、

アクセント・発音のバグ修正
日本語データでの再学習
英語・中国語要素の削除

といった調整が実施済み。そのため従来のTTSモデルと比べて、日本語の発音が流暢です。すでにマージモデルも流通している注目株です！

公式サイト：GitHub – litagin02/Style-Bert-VITS2

なお、Style-Bert-VITS2 JP-Extraについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【Style-Bert-VITS2 JP-Extra】日本語の発音・イントネーションが完璧な次世代AIを使ってみた

弊社の生成AI現場定着サポートについて

弊社では、生成AI導入済みのお客様に向けて現場定着サポートを行なっています。

● 現場でもっと生成AIを使ってほしい
● 生成AI活用の幅をもっと広げたい
● プロンプトを工夫して、効率化を進めたい

といった生成AI導入後のお困りごと・ご要望について、解決をお手伝いしております。詳しい内容や料金につきましては、下表をご覧ください。

	現場定着サポート
期間	2〜4ヶ月
内容	・現状分析・業務調査・プロンプトデザイン・トレーニング（指導）
見積もり額	¥ 1,200,000 ~ 2,400,000（月額60万〜） ※対象規模により変動

「生成AIの導入だけで終わりにしたくない」
「生成AI導入で、目に見える結果を出したい」

とお思いの方はぜひ、無料相談でお困りごとをお聞かせください。眠っていたデータを生成AIに学習させる方法などなど、弊社の知見を共有させていただきます。
→無料相談で話を聞いてみる