【生成AIトレンドマガジン】StreamDiffusionやMVDream、Amphionなど先週話題になったAIツールを6個紹介

AIトリビア

2023-12-272024-04-03

生成AIトレンド StreamDiffusion MVDream Amphion

WEELメディア事業部AIライターのたけしです。

2023年も終わりが近づいてきましたが、AIの進化はまだまだ止まりません。

最近だと、リアルタイムで高品質な画像を生成できるツールや、テキストから3Dが生成できるツールが公開されましたね。

今回は2023年12月26日現在、世界中で注目を集めているAIツールを6個紹介します。

いずれも無料で利用できるものばかりなので、ぜひ最後までご覧いただき、お手元のPCで一度試してみてくださいね！

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

【StreamDiffusion】リアルタイムで高品質画像を生成できるAI

「StreamDiffusion」は、リアルタイムで高品質画像を生成できる画像生成AIです。

StreamDiffusion、ほぼ100fpsで画像生成出来るようになりました！！
sd-turbo, 512×512, batch size 1, txt2imgだと10msで1枚画像が生成出来ます！

多分これが一番速いと思います pic.twitter.com/4qleR2isW1
— あき先生 / Aki (@cumulo_autumn) December 6, 2023

StreamDiffusionの主な特徴は、下記の5点です。

▼StreamDiffusionの特徴

バッチノイズ除去プロセス：複数の画像を同時に処理し、効率を向上させる方法
ストリームバッチと流動的なストリーム：連続したデータを待ち時間なしで迅速に処理し、スムーズなデータの流れを実現する
入出力キュー：データの入力と処理の速度差を管理し、効率的な並列処理を可能にする
RCFG：画像生成の指示に基づく処理を効率化し、不要な計算を削減する
SSF：画像の変化が少ない場合に無駄な処理を避け、エネルギー消費を最適化する

実際にStreamDiffusionを使ってみたところ、以下のような10枚の画像をたった4秒で生成できました。
本当に高速な上に、クオリティも高い！！

StreamDiffusionはオープンソース化されているため、誰でも無料で利用可能です。（ただし、それなりのスペックのPCが必要）

興味のある方は、ぜひ一度StreamDiffusionの高速画像生成を体験してみてください！

なお、StreamDiffusionの具体的な使い方などを知りたい方は、以下の記事を合わせてご確認ください。
→【StreamDiffusion】世界最速！？のスピードで画像を出力する超高速画像生成AIの使い方から実践まで

【Openchat-3.5-1210】Openchat-3.5がさらに進化した最強の小型AIモデル

「Openchat-3.5-1210」は、7Bパラメーターの小型AIモデルです。2023年11月に登場し当時最強と呼ばれた小型AIモデル「Openchat-3.5」を、さらに進化させ開発されました。

以下は、Openchat-3.5-1210とGPT-3.5（175B）、Grok-1の性能を比較した研究結果です。

**※各頂点のアルファベットは、AIの性能を評価する指標（ベンチマーク）を指す**

ご覧のとおり、Openchat-3.5-1210は7Bパラメーターという非常に小型なサイズながら、GPT-3.5やGrok-1を大きく上回る性能を持つことがわかりますね！

2023年12月現在、Openchat-3.5-1210はオンラインデモが公開されており、誰でも無料で利用可能です。

ぜひお手元のPCで、Openchat-3.5-1210の性能を試してみてください！

なお、Openchat-3.5-1210についてより詳しく知りたい方は、以下の記事を合わせてご確認ください。
→【Openchat-3.5-1210】GPT-3.5を超えた最強の7Bモデルを比較レビューしてみた

【Swallow】高い日本語処理能力を持つAIモデル

「Swallow」は、日本語の処理能力に優れているAIモデルです。東京工業大学情報理工学院の岡崎研究室と横田研究室、国立研究開発法人産業技術総合研究所によって開発されました。

Swallowの大きな特徴は、下記の2点です。

▼Swallowの特徴

日本語の処理能力が高い：Llama-2の日本語能力を、日本語の文字や単語などの語彙を継続事前学習することで強化している
用途に合わせて複数のサイズから選べる：7B・13B・70Bの3種類のサイズが用意されており、用途に合わせてサイズを選択できる

以下は、Swallow（7B・13B・70B）とLlama-2（7B・13B・70B）の性能を比較した研究結果です。

**※JCommonsenseQAやJEMHopQAなどのアルファベットは、AIの性能を評価する指標（ベンチマーク）を指す**

ご覧のとおり、ほとんどのベンチマークにおいて、Swallowの方がLlama2よりも優れていることがわかりますね。

Swallowはオープンソース化されているため、誰でも無料で利用可能です。（ただし、それなりのスペックのPCが必要）

気になる方は、ぜひSwallowを試しに一度使ってみてください！

なお、Swallowの具体的な使い方などを知りたい方は、以下の記事を合わせてご確認ください。
→【Swallow】東工大の日本語特化の大規模言語モデル！使い方〜日本語性能比較まで

【MVDream】テキストから高品質な3Dを生成できるAIツール

「MVDream」は、テキストプロンプトから高品質な3Dを生成できるAIツールです。TikTokを運営するByteDance社が開発したということで、世界中で注目を集めています。

MVDreamを使えば、以下のような高品質な3Dが簡単に生成可能です。

弊社でも試しに「an astronaut riding a horse（馬に乗る宇宙飛行士）」とプロンプトを入力してみたところ…

このように、非常に精度が高い3Dが作成できました！

プロンプトを工夫すれば、自分のオリジナルキャラクターも3D化できそうですね。

MVDreamはオープンソース化されているため、誰でも無料で利用可能です。（ただし、それなりのスペックのPCが必要）

ぜひMVDreamを使って、お手元のPCで3Dを作ってみてください！

なお、MVDreamの具体的な使い方などを知りたい方は、以下の記事を合わせてご確認ください。
→【MVDream】TikTok、ByteDanceのテキストから高精度の3D画像を生成するAIモデルを使ってみた

【Amphion】テキストから音声や音楽が生成できるAIツール

「Amphion」は、テキストプロンプトから音声や音楽が生成できるAIツールです。その注目度は非常に高く、公開後数日でGithubリポジトリに750以上のスターがついたほどです。

Amphionに搭載された主な機能は下記のとおり。

▼Amphionの特徴

Text to Speech：テキストからスピーチを生成する
NaturalSpeech2：テキストをサンプル音声に変換する
Singing Voice Conversion：歌声の声質を変換する
Text to Audio：テキストから連想される音声を生成する

弊社でも試しに、以下の歌声をアップロードし、「Singing Voice Conversion」でAdele（イギリスの歌手）の歌声に変換してみたところ…

以下のように、まるで本物のAdeleのようなハイクオリティな歌声に変換されました！

2023年12月現在、AmphionはHugging Face Spaces上でデモ版が利用可能です。

興味のある方は、ぜひAmphionで音声や音楽を生成してみてください！

なお、Amphionの具体的な使い方などを知りたい方は、以下の記事を合わせてご確認ください。
→【Amphion】テイラースウィフトに中国語の曲を歌わせられる神音声AIツールを使ってみた

【Phi-2】25倍大きいLlama-2-70Bと同等の性能を持つ超小型AIモデル

「Phi-2」は、Microsoft社が開発した2.7Bパラメーターの超小型AIモデルです。旧バージョンの「Phi-1.5」をさらに強化し、開発されました。

Phi-2の大きな特徴は、【超小型サイズなのに、性能は大型のモデルよりも優れている】という点。

以下は、Phi-2とLlama-2（7B・13B・70B）、Mistral（7B）の性能を比較した研究結果です。

**※BBHやCommonsense Reasoningなどのアルファベットは、AIの性能を評価する指標（ベンチマーク）を指す**

ご覧のとおり、Phi-2は25倍サイズが大きいLlama-2-70Bとほぼ同等の性能を持つことがわかります。さらにコーディングの能力にいたっては、Llama-2-70Bよりもはるかに優れていますね。

Phi-2は、Microsoft社が運営するAzure AI Studioにて、誰でも無料で利用可能です。（ただし商用利用は不可）

興味のある方は、ぜひお手元のPCでPhi-2の性能を体感してみてください！

なお、Phi-2の具体的な使い方などを知りたい方は、以下の記事を合わせてご確認ください。
→【Phi-2】パラメーター数が25倍のLlama-2-70Bと同等の性能を持つ、Microsoftの最強小型LLM

まとめ

今回紹介したAIツール・モデルは以下のとおりです。

ツール・モデル名	特徴	利用条件
StreamDiffusion	リアルタイムで高品質画像を生成できる画像生成AI	無料で利用可能
Openchat-3.5-1210	GPT-3.5やGrok-1を大きく上回る性能を持つ、7Bパラメーターの小型AIモデル	無料で利用可能
Swallow	Llama-2を強化して開発された、高度な日本語処理能力を持つAIモデル	無料で利用可能
MVDream	テキストプロンプトから高品質な3Dを生成できるAIツール	無料で利用可能
Amphion	テキストプロンプトから音声や音楽が生成できるAIツール	無料で利用可能
Phi-2	Llama-2-70Bとほぼ同等の性能を持つ、2.5Bパラメーターの超小型AIモデル	無料で利用可能

上記のツール・モデルは、いずれも無料で利用できるものばかりです。

興味のある方は、ぜひ一度お手元のPCで実際に触ってみてください！

最後に

いかがだったでしょうか？

GPT-3.5 Turboの最新アップデートで、より高速かつ低コストでのAI活用が可能になりました。自社での導入・活用を検討する際に、最適なモデル選定や活用方法について、一緒に考えてみませんか？

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ