Meta、画像理解可能なLlama 3.2を発表

2024-09-26

Meta Llama-3.2

Metaは、最新の大規模言語モデル「Llama 3.2」を発表しました。

この新モデルは、画像とテキストを同時に理解する能力を持ち、視覚的な情報処理を強化しています。

このNEWSをAIが簡単要約

Metaが画像理解可能なLlama 3.2を発表。
視覚理解に強く、多様な環境で利用可能。
音声機能強化で自然なAI対話を提供。

Llama 3.2には11Bと90Bのパラメーターを持つ中型モデルと、1Bおよび3Bパラメーターの軽量モデルが含まれ、さまざまなデバイスや環境で使用可能です。

これにより、視覚理解が求められるアプリケーションの幅が広がることが期待されています。

MetaのCEOであるマーク・ザッカーバーグ氏は、今回のモデルを「オープンソースのマルチモーダルモデル」として位置づけており、特にコスト効率やカスタマイズ性、信頼性の面で優れていると強調しました。

Llama 3.2は128,000トークンのコンテキスト長を持ち、より複雑なタスクに対応できる能力を備えています。

これにより、数百ページ規模のテキストを入力しても処理が可能です。

さらに、Metaは初めてLlamaスタックの公式配布を開始し、オンプレミスやクラウドなど多様な環境での開発を支援しており、同社はこのモデルがAI業界の標準となる可能性があると見ています。

Llama 3.2の中でも、11Bと90Bの大型モデルは、チャートやグラフの理解、画像のキャプション作成など、視覚情報の処理に特化しており、特定の月の売上パフォーマンスをグラフから分析するなどの高度な機能を提供します。

また、軽量モデルはプライベート環境でのエージェントアプリの開発を支援し、個別のメッセージ要約やスケジュール管理などに役立つでしょう。

Metaによると、Llama 3.2はAnthropicのClaude 3 HaikuやOpenAIのGPT4o-miniに対抗する性能を持ち、特に画像認識や視覚理解の分野で競争力があります。

Llama 3.2はllama.comやHugging Faceでダウンロードが可能で、多くの開発者に利用されています。

また、Metaは音声機能を強化し、有名人の声で応答する新機能も提供しています。Meta AIはこれにより、より自然なコミュニケーション手段を提供し、WhatsAppやMessengerなどのプラットフォームでの利便性を向上させています。

ザッカーバーグ氏は、音声がテキストよりも直感的なAIとのやり取りの手段になると述べました。

参考記事：Meta

生成AIを社内で活用していきたい方へ

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、朝の通勤時間に読めるメルマガを配信しています。

最新のAI情報を日本最速で受け取りたい方は、以下からご登録ください。

また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

メルマガに登録する

資料をダウンロードする

URLをコピーしました！

URLをコピーしました！

「日本一透明性の高いAIプロフェッショナル集団」
を目指して

私たちは、AIに関わるすべての人に向けて、透明性の高い適切な情報発信と開発を行います。
「WEELは、一番地に足ついたAI情報を教えてくれる」
と思っていただけるよう、透明性高い事業運営を行なって参ります。

私たちは、AIに関わるすべての人に向けて、
透明性の高い適切な情報発信と開発を行います。
「WEELは、
一番地に足ついたAI情報を教えてくれる」
と思っていただけるよう、
透明性高い事業運営を行なって参ります。

無料で相談してみる

会社紹介資料ダウンロード

通勤時間で読める

生成AIメールマガジンを読む