【SeamlessM4t】Metaの多言語翻訳AI、使い方から実践まで徹底解説

seamlessm4t meta

Facebook(現Meta)社が、マルチモーダルな音声AI SeamlessM4Tを発表したんだとか。
「どんなことができるんだ」、「精度はいいのか」と気になりました。

そんなことで、発表されたAIの概要、導入方法、実際に使ってみた感想を書いていきます。
ぜひ最後までご覧くださいっ!

目次

SeamlessM4Tの概要

SeamlessM4Tは、Facebook Researchによって開発されたAIモデル。
異なる言語話者でも、音声とテキストを通じ難なくコミュニケーションすることを目的に設計されています!

このモデルがすごいのは、以下の複数タスクを1つのモデルだけで実行するところ。

  1. 音声から音声への翻訳(Speech-to-speech translation )
  2. テキストから音声への翻訳(Speech-to-text translation)
  3. テキストからテキストへの翻訳(Text-to-text translation)
  4. 自動音声認識 (Automatic Speech recognition)

例えば、「おはよう」という音声を入力し英語に翻訳する場合、
「Morning」という音声とテキストが一緒に生成されます。

対応している言語数は、入出力の種類で差はありますが以下のようになっています。

  • 音声入力:101
  • 音声出力:35
  • テキスト入力/出力:96

これなら、見知らぬ地に突然降り立っても大丈夫そうですね!
ということで、SeamlessM4Tの導入方法を見ていきましょう!

SeamlessM4Tの導入方法

SeamlessM4Tのデモ環境は2種類公開されてるので、それぞれご紹介します!

デモページ(その1)

SeamlessM4Tのデモページをクリックしましょう。

あわせて読みたい
Seamless Translation | Meta FAIR Create translations that follow your speech style. Translate from nearly 100 input languages into 35 output languages. This is a translation research demo power...

すると、以下のページになりますので、「start demo」をクリック。

START RECORDINGをクリックします。

以下のように、音声を入力する画面になるので、何か話します!
私は「My favorite animal is the elephant」と入力してみました。

翻訳したい言語を選択してTRANSLATEをクリックー。

すると、入力(音声)に対して、
テキストへの翻訳、音声への翻訳
が出力されてますー!

もう一つの方法も見ていきましょう。

デモページ(その2)

こちらは、Hugging face上で公開されているものです。

以下のリンクからアクセスしましょう。

あわせて読みたい
Seamless M4T - a Hugging Face Space by facebook Discover amazing ML apps made by the community

すると以下のような画面にジャンプします。

実行させたいタスクはここで変更できます。

音声は、ここから入力できます。

テキストはここから。

Exampleも試せます!

では、今紹介したHugging faceのデモ環境を実際に触っていきましょう!

SeamlessM4Tを実際にやってみた

今回は、SeamlessM4Tを使う伝言ゲームみたいな手法で、翻訳能力を確認してみます!

まずは、以下のテキストを音声として入力します。

  • アダムとイブから始まった人類はみんな遠い親戚なのに、どうして戦争が終わらないの?

次にそれぞれ、以下のような手法を通じて翻訳していきます。

  1. speech-to-speech(日本語→韓国)
  2. speech-to-text(韓国→ロシア)
  3. text-to-text translation(ロシア→英語)
  4. speech recognition(英語→中国)
  5. text-to-text translation(中国→日本語)

最後に出力される日本語テキストが、最初の入力とどれくらい変わってしまったのか確かめます。

アダムとイブから始まった人類はみんな遠い親戚なのに、どうして戦争が終わらないの?

speech-to-speech(日本語→韓国)

日本語の音声を、韓国語の音声にしました。

入力:アダムとイブから始まった人類はみんな遠い親戚なのに、どうして戦争が終わらないの?

出力:아담과 이브로부터 시작된 인류는 모두 멀리 친척인데, 왜 전쟁이 끝나지 않는가?(アダムとイブから始まった人類はみんな遠い親戚なのに、なぜ戦争が終わらないのか?)

speech-to-text(韓国→ロシア)

以下のように、韓国語の音声を入力して、テキストを出力させました。

入力:아담과 이브로부터 시작된 인류는 모두 멀리 친척인데, 왜 전쟁이 끝나지 않는가?(アダムとイブから始まった人類はみんな遠い親戚なのに、なぜ戦争が終わらないのか?)

出力:Люди, начавшиеся от Адама и Евы, все далеко родственны, а почему война не заканчивается?
(アダムとイブから始まった人々はみな遠い親戚なのに、なぜ戦争に終止符が打たれないのか?)

text-to-text translation(ロシア→英語)

ロシア語のテキストを英語のテキストに変換しました。

入力:Люди, начавшиеся от Адама и Евы, все далеко родственны, а почему война не заканчивается?
(アダムとイブから始まった人々はみな遠い親戚なのに、なぜ戦争に終止符が打たれないのか?)

出力:People descended from Adam and Eve are all distantly related, but why is there no end to war?
(アダムとイブの子孫はみな遠縁にあるが、なぜ戦争がなくならないのか?)

speech recognition(英語→中国)

英語のテキストを中国語に翻訳し、中国語の音声データを作りました。

入力:People descended from Adam and Eve are all distantly related, but why is there no end to war?

出力:亞當同夏娃嘅後裔都係遠近嘅親戚, 但點解呢場戰爭唔會結束?
(アダムとイブの子孫は近親者なのに、なぜ戦争は終わらないのか?)

text-to-text translation(中国→日本語)

中国語の音声から作られたテキストを、日本語に翻訳させました。

入力:亞當同夏娃嘅後裔都係遠近嘅親戚, 但點解呢場戰爭唔會結束?

出力:アダムとエバの子孫も遠くの親戚ですが ⁇ なぜこの戦争は終わらないのでしょうか?

おー、「イブ」が「エバ(イブの英語名)」になってますねー。
これは、問題ないですが、「??」でめちゃくちゃ煽られてます!

これはもしかして、、、AIから人間への挑戦状…!?

text-to-text translation(中国→日本語)の直前までは順調に思えました。
すごい精度です!
さすがMetaのSeamlessM4Tですね。

なお、自分の声をあらゆる言語に変換できるAIについて知りたい方はこちらをご覧ください。
【Coqui-AI XTTS】自分の声をあらゆる言語に変換できる最強翻訳AI

最後に

いかがだったでしょうか?

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
ハルシネーション対策AIツールの開発
自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ
無料相談

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、サービス紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • Leon Kobayashi

    必ずフォローすべきAIエバンジェリスト(自称) => 元東証一部上場ITコンサル (拙者、早口オタク過ぎて性に合わず退社)<-イマココ 【好きなもの】リコリコ・しゃぶ葉 宜しくおねがいします。

  • URLをコピーしました!
  • URLをコピーしました!
目次