【SeamlessM4t】Metaの多言語翻訳AI、使い方から実践まで徹底解説
![seamlessm4t meta](https://weel.co.jp/wp-content/uploads/2023/08/AIモン_SeamlessM4T.jpg)
Facebook(現Meta)社が、マルチモーダルな音声AI SeamlessM4Tを発表したんだとか。
「どんなことができるんだ」、「精度はいいのか」と気になりました。
そんなことで、発表されたAIの概要、導入方法、実際に使ってみた感想を書いていきます。
ぜひ最後までご覧くださいっ!
SeamlessM4Tの概要
SeamlessM4Tは、Facebook Researchによって開発されたAIモデル。
異なる言語話者でも、音声とテキストを通じ難なくコミュニケーションすることを目的に設計されています!
このモデルがすごいのは、以下の複数タスクを1つのモデルだけで実行するところ。
- 音声から音声への翻訳(Speech-to-speech translation )
- テキストから音声への翻訳(Speech-to-text translation)
- テキストからテキストへの翻訳(Text-to-text translation)
- 自動音声認識 (Automatic Speech recognition)
例えば、「おはよう」という音声を入力し英語に翻訳する場合、
「Morning」という音声とテキストが一緒に生成されます。
対応している言語数は、入出力の種類で差はありますが以下のようになっています。
- 音声入力:101
- 音声出力:35
- テキスト入力/出力:96
これなら、見知らぬ地に突然降り立っても大丈夫そうですね!
ということで、SeamlessM4Tの導入方法を見ていきましょう!
SeamlessM4Tの導入方法
SeamlessM4Tのデモ環境は2種類公開されてるので、それぞれご紹介します!
デモページ(その1)
SeamlessM4Tのデモページをクリックしましょう。
![](https://seamless.metademolab.com/uniqfiles/thumbnail-cd13a91d.jpg)
すると、以下のページになりますので、「start demo」をクリック。
![](https://weel.co.jp/wp-content/uploads/2023/08/image-10-1024x925.png)
START RECORDINGをクリックします。
![](https://weel.co.jp/wp-content/uploads/2023/08/image-11-1024x983.png)
以下のように、音声を入力する画面になるので、何か話します!
私は「My favorite animal is the elephant」と入力してみました。
![](https://weel.co.jp/wp-content/uploads/2023/08/image-12.png)
翻訳したい言語を選択してTRANSLATEをクリックー。
![](https://weel.co.jp/wp-content/uploads/2023/08/image-34-1024x963.png)
すると、入力(音声)に対して、
テキストへの翻訳、音声への翻訳
が出力されてますー!
![](https://weel.co.jp/wp-content/uploads/2023/08/image-33.png)
もう一つの方法も見ていきましょう。
デモページ(その2)
こちらは、Hugging face上で公開されているものです。
以下のリンクからアクセスしましょう。
![](https://cdn-thumbnails.huggingface.co/social-thumbnails/spaces/facebook/seamless_m4t.png)
すると以下のような画面にジャンプします。
![](https://weel.co.jp/wp-content/uploads/2023/08/image-35-928x1024.png)
実行させたいタスクはここで変更できます。
![](https://weel.co.jp/wp-content/uploads/2023/08/image-36.png)
音声は、ここから入力できます。
![](https://weel.co.jp/wp-content/uploads/2023/08/image-37.png)
テキストはここから。
![](https://weel.co.jp/wp-content/uploads/2023/08/image-38.png)
Exampleも試せます!
![](https://weel.co.jp/wp-content/uploads/2023/08/image-39.png)
では、今紹介したHugging faceのデモ環境を実際に触っていきましょう!
SeamlessM4Tを実際にやってみた
今回は、SeamlessM4Tを使う伝言ゲームみたいな手法で、翻訳能力を確認してみます!
まずは、以下のテキストを音声として入力します。
- アダムとイブから始まった人類はみんな遠い親戚なのに、どうして戦争が終わらないの?
次にそれぞれ、以下のような手法を通じて翻訳していきます。
- speech-to-speech(日本語→韓国)
- speech-to-text(韓国→ロシア)
- text-to-text translation(ロシア→英語)
- speech recognition(英語→中国)
- text-to-text translation(中国→日本語)
最後に出力される日本語テキストが、最初の入力とどれくらい変わってしまったのか確かめます。
アダムとイブから始まった人類はみんな遠い親戚なのに、どうして戦争が終わらないの?
speech-to-speech(日本語→韓国)
日本語の音声を、韓国語の音声にしました。
入力:アダムとイブから始まった人類はみんな遠い親戚なのに、どうして戦争が終わらないの?
出力:아담과 이브로부터 시작된 인류는 모두 멀리 친척인데, 왜 전쟁이 끝나지 않는가?(アダムとイブから始まった人類はみんな遠い親戚なのに、なぜ戦争が終わらないのか?)
speech-to-text(韓国→ロシア)
以下のように、韓国語の音声を入力して、テキストを出力させました。
入力:아담과 이브로부터 시작된 인류는 모두 멀리 친척인데, 왜 전쟁이 끝나지 않는가?(アダムとイブから始まった人類はみんな遠い親戚なのに、なぜ戦争が終わらないのか?)
![](https://weel.co.jp/wp-content/uploads/2023/08/image-27-1024x751.png)
出力:Люди, начавшиеся от Адама и Евы, все далеко родственны, а почему война не заканчивается?
(アダムとイブから始まった人々はみな遠い親戚なのに、なぜ戦争に終止符が打たれないのか?)
text-to-text translation(ロシア→英語)
ロシア語のテキストを英語のテキストに変換しました。
入力:Люди, начавшиеся от Адама и Евы, все далеко родственны, а почему война не заканчивается?
(アダムとイブから始まった人々はみな遠い親戚なのに、なぜ戦争に終止符が打たれないのか?)
![](https://weel.co.jp/wp-content/uploads/2023/08/image-28-1024x746.png)
出力:People descended from Adam and Eve are all distantly related, but why is there no end to war?
(アダムとイブの子孫はみな遠縁にあるが、なぜ戦争がなくならないのか?)
speech recognition(英語→中国)
英語のテキストを中国語に翻訳し、中国語の音声データを作りました。
入力:People descended from Adam and Eve are all distantly related, but why is there no end to war?
![](https://weel.co.jp/wp-content/uploads/2023/08/image-29-1024x712.png)
出力:亞當同夏娃嘅後裔都係遠近嘅親戚, 但點解呢場戰爭唔會結束?
(アダムとイブの子孫は近親者なのに、なぜ戦争は終わらないのか?)
text-to-text translation(中国→日本語)
中国語の音声から作られたテキストを、日本語に翻訳させました。
入力:亞當同夏娃嘅後裔都係遠近嘅親戚, 但點解呢場戰爭唔會結束?
![](https://weel.co.jp/wp-content/uploads/2023/08/image-30-1024x729.png)
出力:アダムとエバの子孫も遠くの親戚ですが ⁇ なぜこの戦争は終わらないのでしょうか?
おー、「イブ」が「エバ(イブの英語名)」になってますねー。
これは、問題ないですが、「??」でめちゃくちゃ煽られてます!
これはもしかして、、、AIから人間への挑戦状…!?
text-to-text translation(中国→日本語)の直前までは順調に思えました。
すごい精度です!
さすがMetaのSeamlessM4Tですね。
なお、自分の声をあらゆる言語に変換できるAIについて知りたい方はこちらをご覧ください。
→【Coqui-AI XTTS】自分の声をあらゆる言語に変換できる最強翻訳AI
最後に
いかがだったでしょうか?
弊社では
・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。
![](https://weel.co.jp/wp-content/uploads/2023/10/A-proprietary-company-chatbot-with-employees-using-it-while-facing-their-computers-and-a-robot-emerging-from-the-PC-1024x538.jpg)
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、弊社紹介資料もご用意しておりますので、併せてご確認ください。