AI2、新オープンソースモデル「OLMoE」を発表

AI2 OLMoE 新オープンソースモデル

AI研究機関のAllen Institute for AI(AI2)は、性能とコスト効率を両立させた新しいオープンソースの大規模言語モデル(LLM)「OLMoE」を発表しました。

このNEWSをAIが簡単要約
  • AI2が新たなLLM「OLMoE」を発表。
  • OLMoEは完全オープンソースのMoEモデル。
  • 性能とコスト効率を両立する設計。

このモデルは、疎なエキスパートの混合(MoE)アーキテクチャを採用し、70億個のパラメータを持ちながら、1トークンあたり1億個のみを使用するのが特徴です。

OLMoEには、汎用的な「OLMoE-1B-7B」と指示調整用の「OLMoE-1B-7B-Instruct」の2つのバージョンがあります。

AI2は、他のMoEモデルと異なり、OLMoEが完全にオープンソースであることを強調しています。

従来のMoEモデルは、モデルの重みが公開されていても、トレーニングデータやソースコードの詳細が非公開である場合が多く、これが研究者や学者にとって障壁となっていました。

AI2は、これに対抗する形で、完全にオープンなリソースとしてOLMoEを公開し、クローズドソースのモデルに匹敵する性能を目指しています。

OLMoEは64個の小規模エキスパートを使用し、一度に8個をアクティブにする仕組みを採用。

この設計により、他のモデルと同等の性能を維持しながら、推論コストとメモリ使用量を大幅に削減しました。

また、トレーニングにはCommon CrawlやWikipediaなどのデータセットを使用し、幅広い応用が期待されています。

ベンチマークでは、OLMoEはLlama2-13B-ChatやDeepSeekMoE-16Bといった大規模モデルを凌駕し、1Bパラメータのモデルにおいても他のオープンソースモデルを圧倒する結果を示しました。

これにより、学術研究者や開発者が性能とコストの両面で利用しやすいLLMとして注目されています。

現在、多くのAIモデル開発者がMoEアーキテクチャを採用していますが、AI2はOLMoEが最初の完全オープンソースである点を強調。

今後、学術研究者を中心にMoEモデルの普及が進むと見られます。

参考記事:Allen AI

生成AIを社内で活用していきたい方へ

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、朝の通勤時間に読めるメルマガを配信しています。

最新のAI情報を日本最速で受け取りたい方は、以下からご登録ください。

また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

  • URLをコピーしました!
  • URLをコピーしました!
目次