低コスト・小型マルチモーダルAI「Llama 3-V」が話題!

 低コスト・小型マルチモーダルAI「Llama 3-V」が話題!

Llama 3-Vは、Meta社が公開したLlama3 8Bをベースに構築されており、画像認識能力を備えています。

このNEWSをAIが簡単要約
  • オープンソースのマルチモーダル言語モデル「Llama 3-V」
  • 小型ながらGPT4-Vに匹敵する高性能を実現
  • 低コスト(約8万円)で開発、HuggingFace公開

従来のマルチモーダルモデルであるGPT4-Vに比べて、Llama 3-Vはモデルサイズが100分の1程度と非常に小さいながら、ほとんどのベンチマークにおいて同等の性能を発揮することが示されています。

また、特にMMUM*を除く全ての指標で、サイズが100倍以上あるクローズドソースモデルに匹敵する性能を持つと評価されています。

Llama 3-Vの事前トレーニングにかかったコストは約500ドル(約8万円)と非常に低コストであり、オープンソースモデルとしてHugging FaceやGitHubで公開されています。Llama 3-Vの開発者らは、Llama3にビジョンエンコーダを追加し、画像とテキストのペアを用いた事前トレーニングを行うことで、マルチモーダル能力を付与しました。

Llama 3-Vは、GPT4-Vに迫る性能を低コストで実現したオープンソースのマルチモーダルモデルとして注目を集めています。

*MMUM=大規模マルチモーダルモデルのためのベンチマーク

参考記事:Medium

生成AIを社内で活用していきたい方へ

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、朝の通勤時間に読めるメルマガを配信しています。

最新のAI情報を日本最速で受け取りたい方は、以下からご登録ください。

また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

  • URLをコピーしました!
  • URLをコピーしました!
目次