サイトのデザインが新しくなりました。

【Llama 3-V】GPT-4Vの1%サイズでSOTAを達成したVLM

WEELメディア事業部LLMリサーチャーの中田です。

5月29日、MetaのLlama 3 8Bをベースとした、オープンソースの画像認識可能なマルチモーダルLLM「Llama 3-V」が公開されました。

以前話題となったLlama 3をベースとしており、たった500ドル(約78000円)程度の費用で、SOTAを達成したんです!モデルサイズは、GPT-4Vの100分の1だとか。

XでのLlama3-Vの投稿のいいね数は、すでに1000を超えており、すでに多くの人に注目されていることが分かります。

この記事ではLlama 3-Vの使い方や、有効性の検証まで行います。本記事を熟読することで、Llama 3-Vの凄さを理解し、GPT-4Vよりもこちらを使いたくなるでしょう。

ぜひ、最後までご覧ください。

目次

Llama 3-Vの概要

Llama 3-Vは、オープンソースVLMで、MetaのLlama 3をベースとして構築されました。

Llama 3-Vの性能はOpenAIのGPT-4Vに匹敵し、サイズはわずかGPT-4Vの100分の1、学習コストは500ドル程度とのこと。Metaが公開したLlama 3の8Bをベースとすることで、高い性能を実現したそうです。

各種ベンチマークでは、Llama 3-Vは同じVLMのLlavaと比較して10〜20%ほど高い性能を示しています。また、MMMU以外のほとんどすべての指標において、Llama 3-Vの100倍以上のサイズの既存クローズドソースモデル(GPT-4V、Gemini Ultra、Claude Opusなど)に匹敵する性能を発揮。

Llama 3-Vは現在、Hugging FaceとGitHubでオープンソースとして公開されており、Hugging Face上では実際に試用することも可能です。

Llama 3-Vのモデル構造

Llama 3-Vでは、Llama 3の128,000トークンの語彙を活用することで、Llama 2と比べて大幅にエンコーディング効率が向上しています。そのため、モデルサイズを上げることなく、より多様な言語パターンを少ないパラメータで表現できるようになり、パフォーマンスの向上につながっています。

また、Llama 3-Vでは、8,192トークンのシーケンスで学習を行うことで、長いテキスト入力の処理に重点を置いています。

さらに、Llama 3にSigLIPという対照学習モデルの画像エンコーダを用いることで、画像情報をLlama 3に伝えることが可能になっています。テキストエンコーダには、Byte Pair Encoding(BPE)が使用されています。

そして、2 つのSelf-Attentionブロックを使用してProjectionブロックを学習し、テキストトークンと画像トークンを揃えています。

そして、揃えられたトークンをLlama 3 8Bに入力することで、返答の文章が出力されるのです。

事前学習には、CC3M、LAION-2B、LAION-5Bなどの大規模なデータセットが用いられています。

なお、Llama 3-Vの100倍以上あるクローズドソース「GPT-4V」について詳しく知りたい方は、下記の記事を合わせてご確認ください。

Llama 3-Vのライセンス

Llama 3-Vのライセンス情報については、公開されていなかったので、公開され次第アップデートします。

利用用途可否
商用利用不明
改変不明
配布不明
特許使用不明
私的使用不明
参考:不明

Llama 3-Vの使い方

推論コードについては、GitHubやHuggingFaceに公開されています。

コードはこちら
from transformers import AutoTokenizer, AutoModel
from PIL import Image

model = AutoModel.from_pretrained("mustafaaljadery/llama3v").cuda()
tokenizer = AutoTokenizer.from_pretrained("mustafaaljadery/llama3v")

image = Image.open("test_image.png")

answer = model.generate(image=image, message="What is this image?", temperature=0.1, tokenizer=tokenizer)

print(answer)

ただ、こちらを実行すると、以下のようなエラーが発生。

公式HuggingFaceでも、以下のように明記されています。

IMPORTANT: There’s an inference problem in the code, I’m working on cleanup and a fix right now. (28th May – Mustafa Aljadery)

和訳:
重要:コードに推論の問題があり、現在クリーンアップと修正に取り組んでいます。(5月28日-ムスタファ・アルジャデリー)

参考:https://huggingface.co/mustafaaljadery/llama3v

ただ、LlavaをLlama 3でファインチューニングしたものが、Hugging Face Spaceとしてデモが公開されています。

まずは、以下をクリックしてスペースにアクセス。

LLaVA++ (LLaMA-3-V) – a Hugging Face Space

同じLlama 3 8Bをベースとしているので、Llama 3-Vのコードが修正されるまで、こちらを試しても良いでしょう。

Llama 3-Vを動かすのに必要なPCのスペック

以下はGoogle ColabA100で動かした場合に、消費したディスクやGPU RAMです。

■使用ディスク量
約22GB

■GPU RAMの使用量
約30GB

なお、ベースとなるMetaのLlama 3について詳しく知りたい方は、下記の記事を合わせてご確認ください。

Llama 3-VとGPT-4Vを比較してみた

2~3日以内に、更新します!
ブックマークをしてお待ちください。

なお、Llama2をベースとしたVLMについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

Llama 3-Vは次世代のオープンソースVLM!

本記事では、Llama 3をベースとしたVLMのLlama 3-Vについて解説しました。

Llama 3-Vは非常に小さなモデルサイズであり、大規模なマルチモーダルモデルに匹敵する高い性能を実現した画期的なオープンソースモデルだと言えます。今後、画像認識と言語理解を組み合わせた幅広い用途への応用が見込めるでしょう。

今回のLlama 3-Vの学習にかかるコストは、日本円でおよそ8万円ということもあり、最近トレンドの「LLM開発の低価格化」についても、さらに注目が集まっていくでしょう。

最後に

いかがだったでしょうか?

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
ハルシネーション対策AIツールの開発
自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • 中田

    データサイエンス専攻の大学院生。大学では、生成系AIの拡散モデルを用いた音楽生成について研究。 趣味は作曲、サッカー、コーヒー。

  • URLをコピーしました!
  • URLをコピーしました!
目次