AU三太郎はどうやってMVを生成しているのか?エンジニアが仕組みを徹底考察

AU三太郎 MV 生成 エンジニア 仕組み 徹底考察

WEELメディア事業部AIライターの2scです。

みなさん、「au三太郎」10周年を記念した「さぁ、何やる?メーカー」はご存知ですか?

こちらはなんと、ユーザーの入力内容からオリジナルのMVを作ってくれるサービス。生成AIの力で、歌詞・歌声・挿入画像を用意してくれるんです!

当記事では、そんな「さぁ、何やる?メーカー」を徹底解剖。その仕組みについて、弊社エンジニアによる予想を紹介していきます。

完読いただくと、生成AIを使った企画のヒントが得られるかも……

ぜひ最後までお読みください!

「さぁ、何やる?メーカー」は2024年2月29日にサービスを終了しています。

目次

生成AIで作られたau三太郎とは

KDDI株式会社が送る「au三太郎」のCMは、2024年で10周年。その節目を記念した下記コンテンツが、2024年元日にリリースされました。

さぁ、何やる?メーカー:生成AIでMVが作れるサービス
年始限定CM:過去のCMを生成AIでアニメ風にリメイクしたもの

そう、「au三太郎」シリーズの新たな門出は生成AIなんです!

なかでも「さぁ、何やる?メーカー」は要注目。ユーザーが入力した今年の抱負をもとに、下記の生成AIがオリジナルのMVを合作してくれるそうなんです。

ただ、その仕組みについては、KDDIからの発表がありません。※1

そこで当記事では、気になる中身について弊社専属LLMエンジニアの予想をお届けします。

なお、国内企業における生成AI活用事例について詳しく知りたい方は、下記の記事を合わせてご確認ください。
生成AIを社内導入する方法とは?事例やメリット、注意点も解説

「au三太郎」に使われたツールの考察・予想

弊社エンジニアによると、「さぁ、何やる?メーカー」に使われているAIツールは以下の4種類であるとのことです。

  • ChatGPT API
  • Stable Diffusion(公表済み)
  • VoiSona(公表済み)
  • TextAlive

ここからは各AIツールの特徴や「さぁ、何やる?メーカー」内での役割について、詳しくみていきましょう!

ChatGPT API

「ChatGPT API / OpenAI API」は、ChatGPTのサービス外でOpenAIの生成AI(GPT-3.5 / GPT-4V / DALL-E 3…etc.)が使えるAPIです。「さぁ、何やる?メーカー」においては、歌詞の生成を担っていると考えられます。

もっと詳しく、モデルや処理についても考えてみます。おそらくは一般ユーザー向けに広く公開するという目的から、生成時の料金が最も安いGPT-3.5 Turboが用いられているはずです。

またChatGPT APIの機能「役割の指定」を活かして、歌詞だけを生成するセッティングがなされていそうです。

公式サイト:Product

Stable Diffusion

「さぁ、何やる?メーカー」のMVでは、歌詞の内容に即した画像が一部挿入されています。その挿入画像を歌詞から生成しているのが、画像生成AI「Stable Diffusion」です。

このStable Diffusionのすごいところは、テキストから全く新しい画像が生成できる「Text-to-Imageモデル」である点です。仕組みとしては……

  • 学習時:画像をノイズに変換し、その工程を学習する
  • 画像生成時:学習した工程と逆の処理で描画する

というふうに、なっています。

公式サイト:画像生成AI Stable Diffusion — Stability AI Japan

VoiSona

音声創作ソフトウェア「VoiSona」は、「さぁ、何やる?メーカー」の声帯にあたるAIツール。歌詞と楽譜をもとに、自然な歌声を生成します。

そんなVoiSonaの特徴は、機種(アーティスト)ごとに声質や得意分野が分かれている点にあります。「さぁ、何やる?メーカー」に採用されているものだと……

  • 知声(Chis-A):中性的な声質で、ポップス / ジャズ / バラードが得意
  • 機流音:「鬼龍院翔」氏の歌声を学習、高音域が得意
  • AiSuu:「すぅ」氏の歌声を学習、キュートな声質
  • MYK-IV:「マイキ」氏の歌声を学習、高音域が得意

と、4人のアーティストから好きな声が選べちゃうんです。

公式サイト:VoiSona

TextAlive

「さぁ、何やる?メーカー」ではおそらく、「TextAlive」がMVへの歌詞の挿入を担っているはずです。

「TextAlive」は、産業技術総合研究所の歌詞アニメーション制作支援サービス。入力した楽曲から、歌詞のアニメーション演出を自動生成してくれます。

公式サイト:TextAlive

「au三太郎」の仕組みを予想してみた

「さぁ、何やる?メーカー」は以下の流れで、MVを制作していると考えられます。

  1. ユーザーによる、KW・ニックネーム・歌声の指定
  2. ChatGPTによる歌詞の生成
  3. Voisonaによる歌声の生成
  4. Stable Diffusionによる挿入画像の生成
  5. TextAliveによる歌詞アニメーション生成
  6. 歌詞アニメーション・挿入画像・過去のCM・歌声をMVに統合

この全体の流れをフローチャートで表したのが下図です。

「さぁ、何やる?メーカー」ではChatGPTが生成した歌詞をもとに、VoiSona / Stable Diffusion / TextAliveがそれぞれ生成を行っているはずです。その中でも、

  • ユーザー側の指定内容
  • ChatGPTの歌詞生成用プロンプト

についてはある程度仕組みが予想できましたので、以下にて解説します。

ユーザー側の指定内容

「さぁ、何やる?メーカー」でユーザーが入力する内容は、下記の3点です。

  • やりたいこと(KW)
  • ニックネーム
  • VoiSonaの機種

そのうちKWは歌詞・挿入画像に、ニックネームは歌詞のクレジットにそれぞれ影響します。試しに、下記を「さぁ、何やる?メーカー」に入力してみると……

#KW
懸垂10回達成する

#ユーザー名
2sc

このような形式で、歌詞が生成・表示されるんです。ちなみにMVのほうは、生成に1日程度かかります。

ChatGPTの歌詞生成用プロンプト

「さぁ、何やる?メーカー」ではまず、ChatGPT(ChatGPT API)を介して歌詞が生成されます。その歌詞の特徴としては……

  • 前半・中間の各3フレーズがオリジナルの内容
  • 後半はテンプレートで固定
    →今何がやりたいの、今何になりたいの、予定通りに行かなくたって、確かに前には進んでいる

となっています。この仕様を再現したものが、下記のプロンプトです。

#命令
以下の{条件}に合う歌詞を出力してください。

# 条件
- 歌詞は{前半の歌詞}と{中間の歌詞}と{後半の歌詞}の3段構成
- {前半の歌詞}は{KW}を元に作成する
- {中間の歌詞}は{KW}を元に作成する
- {後半の歌詞}をサビとする

# 前半の歌詞
- 3フレーズ
- 7文字、7文字、12文字を1回
- 文字数はひらがな文字でカウントする

# 中間の歌詞
- 3フレーズ
- 7文字、7文字、12文字を1回
- 文字数はひらがな文字でカウントする
    
# 後半の歌詞
今何がやりたいの
今何になりたいの
予定通りに行かなくたって
確かに前には進んでいる
    
# KW
懸垂10回達成する
    
# 出力
新しく出力する{前半の歌詞}の後に新しく出力する{中間の歌詞}、さらにその後に{後半の歌詞}を出力してください。前半・中間・後半の歌詞本体以外を記入した場合は罰を与えます。

こちらのプロンプトをChatGPTに入力してみると……

以上のとおり、「さぁ、何やる?メーカー」の仕様で歌詞が生成されます。

なお、ChatGPTのプロンプトテクニックについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
プロンプトエンジニアリングマスターWiki!ChatGPTの必須テクニック16選

「au三太郎」に関連するAIツール3選

「さぁ、何やる?メーカー」には使われていないものの、同じようなことができるAIツールも存在します。当記事ではその中でも、

  • Suno AI
  • SOUNDRAW
  • Style-Bert-VITS2 JP-Extra

について紹介します。まずはSNSで流行したSuno AIから、詳しくみていきましょう!

Suno AI

「Suno AI」は作詞・作曲・レコーディングを自動で行う楽曲生成AIです。その使い方は簡単で、テキストを入力するだけ。あとはSuno AIが、

  • 歌詞
  • 楽譜
  • 歌声
  • 伴奏

を数分で生成してくれます。

さらにSuno AIが生成した楽曲については、カスタマイズも可能。音楽の知識がなくても、自分だけの楽曲が作れるんです。

公式サイト:Suno AI

SOUNDRAW

SOUNDRAW株式会社の「SOUNDRAW」は、日本発の楽曲生成AIです。ユーザーが指定したジャンル・ムード・テンポをもとに、たったの数秒で楽曲を生成してくれます。

そんなSOUNDRAWが生成する楽曲はなんと、著作権フリー。SpotifyやAppleMusicでの配信&収益化が可能です。SOUNDRAWの学習にあたっては、社内製の音源が用いられているそうなんです。

公式サイト:AI Music Generator – SOUNDRAW

Style-Bert-VITS2 JP-Extra

無料で商用利用までできる音声合成(Text-to-speech / TTS)モデルが存在します。そのTTSモデルとは、「Style-Bert-VITS2 JP-Extra」です。

こちらは英語・中国語・日本語に対応したBert-VITS2がベースとなっており、

  • アクセント・発音のバグ修正
  • 日本語データでの再学習
  • 英語・中国語要素の削除

といった調整が実施済み。そのため従来のTTSモデルと比べて、日本語の発音が流暢です。すでにマージモデルも流通している注目株です!

公式サイト:GitHub – litagin02/Style-Bert-VITS2

なお、Style-Bert-VITS2 JP-Extraについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
【Style-Bert-VITS2 JP-Extra】日本語の発音・イントネーションが完璧な次世代AIを使ってみた

弊社の生成AI現場定着サポートについて

弊社では、生成AI導入済みのお客様に向けて現場定着サポートを行なっています。

● 現場でもっと生成AIを使ってほしい
● 生成AI活用の幅をもっと広げたい
● プロンプトを工夫して、効率化を進めたい

といった生成AI導入後のお困りごと・ご要望について、解決をお手伝いしております。詳しい内容や料金につきましては、下表をご覧ください。

現場定着サポート
期間2〜4ヶ月
内容・現状分析
・業務調査
・プロンプトデザイン
・トレーニング(指導)
見積もり額¥ 1,200,000 ~ 2,400,000(月額60万〜)
※対象規模により変動

「生成AIの導入だけで終わりにしたくない」
「生成AI導入で、目に見える結果を出したい」

とお思いの方はぜひ、無料相談でお困りごとをお聞かせください。眠っていたデータを生成AIに学習させる方法などなど、弊社の知見を共有させていただきます。
→無料相談で話を聞いてみる

現場サポート紹介資料

生成AIを組織に取り入れたい!といった方へ

【無料】サービス紹介資料現場定着サポート(プロンプトデザイン・指導)

求めている返事が来るようにプロンプト(指示する文章)をお客様の企業に合わせて作成・指導するサービスです。

現場サポート紹介資料

まずは生成AIについて知りたい!といった方へ

【無料】サービス紹介資料現場定着サポート(プロンプトデザイン・指導)

求めている返事が来るようにプロンプト(指示する文章)をお客様の企業に合わせて作成・指導するサービスです。

「au三太郎」は生成AI時代に適応

当記事では「au三太郎」の10周年を記念したコンテンツ、「さぁ、何やる?メーカー」について解説していきました。以下にてもう一度、「さぁ、何やる?メーカー」の仕組みについて振り返っていきましょう!

「さぁ、何やる?メーカー」の処理フロー
  1. ユーザーによる、KW・ニックネーム・歌声の指定
  2. ChatGPTによる歌詞の生成
  3. Voisonaによる歌声の生成
  4. Stable Diffusionによる挿入画像の生成
  5. TextAliveによる歌詞アニメーション生成
  6. 歌詞アニメーション・挿入画像・過去のCM・歌声をMVに統合

今回紹介したKDDIの他にも、コカ・コーラや伊藤園などなど、生成AIを広報に活用している企業が現れています。これからの生成AI時代では、今まで以上に企業の独創性が試されそうですね。

投稿者

  • 2sc

    テクニカルライター 大学時代はアリの生態を研究。 ラボで唯一、Pythonを使ってデータ分析を効率化していた。 現在はライターとして、オウンドメディアや学術記事の執筆に当たっている。

  • URLをコピーしました!
  • URLをコピーしました!
目次