アリババ、次世代視覚AI「Qwen2-VL」を発表
中国のアリババクラウドが、最新の視覚言語モデル「Qwen2-VL」を発表しました。
このNEWSをAIが簡単要約
- アリババが最新の視覚言語モデルを発表
- 高性能な視覚解析と多言語対応を実現
- 商用利用可能なオープンソースも提供
このモデルは、視覚理解、ビデオ解析、多言語対応のテキストと画像処理を強化することを目的としています。
MetaのLlama 3.1やOpenAIのGPT-4oなど、他の先進モデルと比較しても高い性能を発揮しており、Hugging Faceで推論を試すことが可能です。
Qwen2-VLは静止画像のオブジェクト認識や手書き識別に加え、ライブビデオの解析やリアルタイムのフィードバック機能を備え、技術サポートなどでの利用が期待されます。
さらに、20分以上のビデオ解析や質問対応も可能です。
Qwen2-VLは720億パラメーターのモデルを含む3つのバリエーションがあり、うち2つはオープンソースで商用利用が可能です。
これにより、企業にとっても利用価値が高いモデルとなっています。
参考記事:Qwen
生成AIを社内で活用していきたい方へ
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、朝の通勤時間に読めるメルマガを配信しています。
最新のAI情報を日本最速で受け取りたい方は、以下からご登録ください。
また、弊社紹介資料もご用意しておりますので、併せてご確認ください。