Microsoft、統一ビジョンモデルFlorence-2発表

Microsoft Florence-2 COCOデータセット Azure AIチーム

MicrosoftのAzure AIチームが、新しいビジョン基盤モデル「Florence-2」を発表しました。

このNEWSをAIが簡単要約
  • Microsoftが新ビジョンモデルFlorence-2を発表
  • Florence-2は多様なビジョンタスクを統一処理
  • COCOデータセットで高性能を示す

このモデルは、画像キャプション生成、物体検出、視覚的グラウンディング、セグメンテーションなど、さまざまなビジョンおよびビジョン言語タスクを統一的に処理することができます。

Florence-2は、シーケンス・ツー・シーケンスアーキテクチャを採用し、画像エンコーダーとマルチモーダルエンコーダーデコーダーを統合しています。これにより、特定のタスクに依存しない汎用的なモデルとして機能します。

Microsoftは、FLD-5Bという視覚データセットを作成し、126百万枚の画像に対して5.4億のアノテーションを付与しました。

このデータセットを用いてFlorence-2をトレーニングし、空間階層と意味的な詳細を理解する能力を持つ統一的な事前学習フレームワークを実現。

Florence-2は、テキストプロンプトを使用してタスクを活性化し、統一されたパラメータセットで動作します。

Florence-2は、COCOデータセットでのゼロショットキャプション生成テストで、DeepmindのFlamingoモデルを上回る性能を示しました。

また、Microsoftの他のモデルと比較しても優れた結果を出しています。

Florence-2は、Hugging FaceでMITライセンスの下で提供されており、商業利用や個人利用が可能です。

参考記事:VentureBeat

生成AIを社内で活用していきたい方へ

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、朝の通勤時間に読めるメルマガを配信しています。

最新のAI情報を日本最速で受け取りたい方は、以下からご登録ください。

また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

  • URLをコピーしました!
  • URLをコピーしました!
目次