【SeamlessM4t】Metaの多言語翻訳AI、使い方から実践まで徹底解説

Facebook(現Meta)社が、マルチモーダルな音声AI SeamlessM4Tを発表したんだとか。
「どんなことができるんだ」、「精度はいいのか」と気になりました。
そんなことで、発表されたAIの概要、導入方法、実際に使ってみた感想を書いていきます。
ぜひ最後までご覧くださいっ!
SeamlessM4Tの概要
SeamlessM4Tは、Facebook Researchによって開発されたAIモデル。
異なる言語話者でも、音声とテキストを通じ難なくコミュニケーションすることを目的に設計されています!
このモデルがすごいのは、以下の複数タスクを1つのモデルだけで実行するところ。
- 音声から音声への翻訳(Speech-to-speech translation )
- テキストから音声への翻訳(Speech-to-text translation)
- テキストからテキストへの翻訳(Text-to-text translation)
- 自動音声認識 (Automatic Speech recognition)
例えば、「おはよう」という音声を入力し英語に翻訳する場合、
「Morning」という音声とテキストが一緒に生成されます。
対応している言語数は、入出力の種類で差はありますが以下のようになっています。
- 音声入力:101
- 音声出力:35
- テキスト入力/出力:96
これなら、見知らぬ地に突然降り立っても大丈夫そうですね!
ということで、SeamlessM4Tの導入方法を見ていきましょう!
SeamlessM4Tの導入方法
SeamlessM4Tのデモ環境は2種類公開されてるので、それぞれご紹介します!
デモページ(その1)
SeamlessM4Tのデモページをクリックしましょう。

すると、以下のページになりますので、「start demo」をクリック。

START RECORDINGをクリックします。

以下のように、音声を入力する画面になるので、何か話します!
私は「My favorite animal is the elephant」と入力してみました。

翻訳したい言語を選択してTRANSLATEをクリックー。

すると、入力(音声)に対して、
テキストへの翻訳、音声への翻訳
が出力されてますー!

もう一つの方法も見ていきましょう。
デモページ(その2)
こちらは、Hugging face上で公開されているものです。
以下のリンクからアクセスしましょう。

すると以下のような画面にジャンプします。

実行させたいタスクはここで変更できます。

音声は、ここから入力できます。

テキストはここから。

Exampleも試せます!

では、今紹介したHugging faceのデモ環境を実際に触っていきましょう!
SeamlessM4Tを実際にやってみた
今回は、SeamlessM4Tを使う伝言ゲームみたいな手法で、翻訳能力を確認してみます!
まずは、以下のテキストを音声として入力します。
- アダムとイブから始まった人類はみんな遠い親戚なのに、どうして戦争が終わらないの?
次にそれぞれ、以下のような手法を通じて翻訳していきます。
- speech-to-speech(日本語→韓国)
- speech-to-text(韓国→ロシア)
- text-to-text translation(ロシア→英語)
- speech recognition(英語→中国)
- text-to-text translation(中国→日本語)
最後に出力される日本語テキストが、最初の入力とどれくらい変わってしまったのか確かめます。
アダムとイブから始まった人類はみんな遠い親戚なのに、どうして戦争が終わらないの?
speech-to-speech(日本語→韓国)
日本語の音声を、韓国語の音声にしました。
入力:アダムとイブから始まった人類はみんな遠い親戚なのに、どうして戦争が終わらないの?
出力:아담과 이브로부터 시작된 인류는 모두 멀리 친척인데, 왜 전쟁이 끝나지 않는가?(アダムとイブから始まった人類はみんな遠い親戚なのに、なぜ戦争が終わらないのか?)
speech-to-text(韓国→ロシア)
以下のように、韓国語の音声を入力して、テキストを出力させました。
入力:아담과 이브로부터 시작된 인류는 모두 멀리 친척인데, 왜 전쟁이 끝나지 않는가?(アダムとイブから始まった人類はみんな遠い親戚なのに、なぜ戦争が終わらないのか?)

出力:Люди, начавшиеся от Адама и Евы, все далеко родственны, а почему война не заканчивается?
(アダムとイブから始まった人々はみな遠い親戚なのに、なぜ戦争に終止符が打たれないのか?)
text-to-text translation(ロシア→英語)
ロシア語のテキストを英語のテキストに変換しました。
入力:Люди, начавшиеся от Адама и Евы, все далеко родственны, а почему война не заканчивается?
(アダムとイブから始まった人々はみな遠い親戚なのに、なぜ戦争に終止符が打たれないのか?)

出力:People descended from Adam and Eve are all distantly related, but why is there no end to war?
(アダムとイブの子孫はみな遠縁にあるが、なぜ戦争がなくならないのか?)
speech recognition(英語→中国)
英語のテキストを中国語に翻訳し、中国語の音声データを作りました。
入力:People descended from Adam and Eve are all distantly related, but why is there no end to war?

出力:亞當同夏娃嘅後裔都係遠近嘅親戚, 但點解呢場戰爭唔會結束?
(アダムとイブの子孫は近親者なのに、なぜ戦争は終わらないのか?)
text-to-text translation(中国→日本語)
中国語の音声から作られたテキストを、日本語に翻訳させました。
入力:亞當同夏娃嘅後裔都係遠近嘅親戚, 但點解呢場戰爭唔會結束?

出力:アダムとエバの子孫も遠くの親戚ですが ⁇ なぜこの戦争は終わらないのでしょうか?
おー、「イブ」が「エバ(イブの英語名)」になってますねー。
これは、問題ないですが、「??」でめちゃくちゃ煽られてます!
これはもしかして、、、AIから人間への挑戦状…!?
text-to-text translation(中国→日本語)の直前までは順調に思えました。
すごい精度です!
さすがMetaのSeamlessM4Tですね。
なお、自分の声をあらゆる言語に変換できるAIについて知りたい方はこちらをご覧ください。
→【Coqui-AI XTTS】自分の声をあらゆる言語に変換できる最強翻訳AI
最後に
いかがだったでしょうか?
弊社では
・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、サービス紹介資料もご用意しておりますので、併せてご確認ください。