Mistral AI、初のマルチモーダルモデル「Pixtral 12B」を発表

Mistral-AI MMM Pixtral-12B 発表

フランスのAIスタートアップMistral AIが、言語処理と画像処理を統合したマルチモーダルモデル「Pixtral 12B」を発表しました。

同社初のマルチモーダルモデルであり、言語と視覚情報の両方を処理できる点が特徴です。

このNEWSをAIが簡単要約
  • Mistral AIがマルチモーダルモデルを発表。
  • Pixtral 12Bは言語と画像を統合処理可能。
  • 主要AI企業に対抗し技術力を強化。

現在、モデルは一般公開されていませんが、ソースコードはHugging FaceやGitHubでダウンロード可能です。

これにより、個別環境でテストが行えるようになっています。

同社の開発者リレーションズ責任者であるソフィア・ヤン氏は、近いうちにPixtral 12Bを同社のウェブチャットボットやAPIを通じて公開し、開発者が利用できるようになるとX(旧Twitter)で発表しました。

このモデルは、画像とテキストを組み合わせて分析できるため、ユーザーは画像をアップロードし、その内容に関する質問を行うことが可能です。

Pixtral 12Bのユニークな点として、ヤン氏は「任意のサイズの画像を任意の数だけサポートする」とコメントしており、競合他社のモデルとの差別化を図っています。

初期テスターの報告によると、24GBのモデルは40層のアーキテクチャと14,336の隠れ次元を持ち、32のアテンションヘッドを備えています。

画像処理面では、1024×1024の画像解像度をサポートする専用のビジョンエンコーダと24層の隠れ層を持つ高度な技術を採用。

Mistral AIは、OpenAIやAnthropicなどのリーダー的AIラボに対抗するため、着実に技術を進化させています。

同社は昨年の設立以来、MicrosoftやAWS、Snowflakeなどの大手企業と提携し、技術の普及を加速させました。

また、GPT-4クラスのモデル「Mistral Large 2」やエキスパート混合モデル「Mixtral 8x22B」なども開発し、AI分野での影響力を拡大しています。

参考記事:Hugging Face

生成AIを社内で活用していきたい方へ

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、朝の通勤時間に読めるメルマガを配信しています。

最新のAI情報を日本最速で受け取りたい方は、以下からご登録ください。

また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

  • URLをコピーしました!
  • URLをコピーしました!
目次