低コスト・小型マルチモーダルAI「Llama 3-V」が話題!
Llama 3-Vは、Meta社が公開したLlama3 8Bをベースに構築されており、画像認識能力を備えています。
- オープンソースのマルチモーダル言語モデル「Llama 3-V」
- 小型ながらGPT4-Vに匹敵する高性能を実現
- 低コスト(約8万円)で開発、HuggingFace公開
従来のマルチモーダルモデルであるGPT4-Vに比べて、Llama 3-Vはモデルサイズが100分の1程度と非常に小さいながら、ほとんどのベンチマークにおいて同等の性能を発揮することが示されています。
また、特にMMUM*を除く全ての指標で、サイズが100倍以上あるクローズドソースモデルに匹敵する性能を持つと評価されています。
Llama 3-Vの事前トレーニングにかかったコストは約500ドル(約8万円)と非常に低コストであり、オープンソースモデルとしてHugging FaceやGitHubで公開されています。Llama 3-Vの開発者らは、Llama3にビジョンエンコーダを追加し、画像とテキストのペアを用いた事前トレーニングを行うことで、マルチモーダル能力を付与しました。
Llama 3-Vは、GPT4-Vに迫る性能を低コストで実現したオープンソースのマルチモーダルモデルとして注目を集めています。
*MMUM=大規模マルチモーダルモデルのためのベンチマーク
参考記事:Medium
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、朝の通勤時間に読めるメルマガを配信しています。
最新のAI情報を日本最速で受け取りたい方は、以下からご登録ください。
また、弊社紹介資料もご用意しておりますので、併せてご確認ください。