Mistral AI、初のマルチモーダルモデル「Pixtral 12B」を発表
フランスのAIスタートアップMistral AIが、言語処理と画像処理を統合したマルチモーダルモデル「Pixtral 12B」を発表しました。
同社初のマルチモーダルモデルであり、言語と視覚情報の両方を処理できる点が特徴です。
- Mistral AIがマルチモーダルモデルを発表。
- Pixtral 12Bは言語と画像を統合処理可能。
- 主要AI企業に対抗し技術力を強化。
現在、モデルは一般公開されていませんが、ソースコードはHugging FaceやGitHubでダウンロード可能です。
これにより、個別環境でテストが行えるようになっています。
同社の開発者リレーションズ責任者であるソフィア・ヤン氏は、近いうちにPixtral 12Bを同社のウェブチャットボットやAPIを通じて公開し、開発者が利用できるようになるとX(旧Twitter)で発表しました。
このモデルは、画像とテキストを組み合わせて分析できるため、ユーザーは画像をアップロードし、その内容に関する質問を行うことが可能です。
Pixtral 12Bのユニークな点として、ヤン氏は「任意のサイズの画像を任意の数だけサポートする」とコメントしており、競合他社のモデルとの差別化を図っています。
初期テスターの報告によると、24GBのモデルは40層のアーキテクチャと14,336の隠れ次元を持ち、32のアテンションヘッドを備えています。
画像処理面では、1024×1024の画像解像度をサポートする専用のビジョンエンコーダと24層の隠れ層を持つ高度な技術を採用。
Mistral AIは、OpenAIやAnthropicなどのリーダー的AIラボに対抗するため、着実に技術を進化させています。
同社は昨年の設立以来、MicrosoftやAWS、Snowflakeなどの大手企業と提携し、技術の普及を加速させました。
また、GPT-4クラスのモデル「Mistral Large 2」やエキスパート混合モデル「Mixtral 8x22B」なども開発し、AI分野での影響力を拡大しています。
参考記事:Hugging Face
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、朝の通勤時間に読めるメルマガを配信しています。
最新のAI情報を日本最速で受け取りたい方は、以下からご登録ください。
また、弊社紹介資料もご用意しておりますので、併せてご確認ください。