【Orca-2-13b】Microsoftの最新小型LLMがLlama 2を超える性能を叩き出す

100億以上 LLM Microsoft オープンソースAI 生成AIずかん

2023-11-29

WEELメディア事業部テックリサーチャーの藤崎です。

2023年11月21日に、Microsoftから小規模言語モデルの「Orca-2-13b」が公開されました。

このモデルはmeta社が開発したLLAMA 2と呼ばれる言語モデルをベースにしており、推論能力を向上させるために開発されました。

Orca-2-13bを発表したMicrosoft Researchのツイートは早くも1000を超えるいいねを獲得しており、高い注目を集めていることがわかります。

この記事ではOrca-2-13bの導入方法や使い方、どこまでできるのかの検証を行います。

ベースとなったLLAMA-2とも比較しているので、ぜひ最後までご覧ください。

Orca-2-13bの概要

Orca-2-13bはMicrosoftが発表した小規模な言語モデルで、meta社が開発したLLAMA 2をベースにファインチューニングされており、推論や論理的な問題解決に焦点を当てた言語モデルとなっています。

Orca-2-13bのパラメータ数は13Bとなっていますが、複雑な推論プロセスを模倣するように設計されており、大規模な基礎モデル（LFM）のように複雑な推論を行う能力を持っています。

このモデルは、説明のトレースやステップバイステップの思考プロセスなど、豊富なシグナルから学習している結果、小規模なモデルと大規模なモデルの間のギャップを埋めることに成功しているのです。

Orca-2の能力の高さの秘密は、その洗練された訓練プログラムにあります。

大規模なモデルが直接的な回答を提供する場合でも、Orca-2は「記憶・推論・生成、抽出・生成、直接回答」といったさまざまな解決戦略を模索し、最適な回答を生成します。

Orca-2は、特にAGI（人工一般知能）や多段階推論の分野で、LLaMA-2-ChatやWizardLMなどの大規模モデルと比較しても競争力があることが示されています。

引用元：https://www.microsoft.com/en-us/research/blog/orca-2-teaching-small-language-models-how-to-reason/

例えば、BigBench因果判断タスクでは、データ内の因果関係を理解する能力を示す0.6105のスコアを獲得しています。

また、多くのAIシステムが難しいとされる日付の理解や、空間推理と言語記述が交差する幾何学的形状の理解においても、Orca-2は期待を超えるスコアを記録しています。

さらに、スポーツ理解のような専門用語や動的なシナリオが多い分野でも、0.6630のスコアを獲得し、複雑で微妙なトピックを扱う能力を示しています。

BigBench time! On this, it also doesn't astound.. unfortunately, with a score % of 40.36%, losing to base mistral 7b, openhermes 1 13b llama2, and openhermes 2.5 mistral 7b:

OpenHermes 2.5 Mistral 7B: 53.04%
OpenHermes Llama2 13B: 46.01%
Mistral Base 7B: 42.15%
Orca 2 13B:… https://t.co/FpMX6hiWZL pic.twitter.com/B6aq2SNb3Q
— Teknium (e/λ) (@Teknium1) November 21, 2023

公式HPや様々な検証結果からOrca-2-13bの性能評価がなされていますが、実際に使って試してみようと思います！

Orca-2-13bの料金体系

Orca-2-13bはMicrosoft Research Licenseとなっていますので、無料で利用することができます。

ただし、研究及び学術目的・非営利での利用に限られており、　商用利用や製品開発などで使う場合は利用できませんのでご注意ください。

詳しくはOrca-2-13bのライセンスをご確認ください。

なお、Metaが開発した音楽生成AIについて知りたい方はこちらの記事をご覧ください。
→【MAGNeT】Meta開発のテキストから音楽や音声を生成できるAIの使い方~実践まで

Orca-2-13bの使い方

では早速、Orca-2-13bを使ってみましょう！

今回の環境は手軽にLLMの環境を構築できるLM Studioを利用しました。

LM Studioのホーム画面にあるボックスにて「orca2」と入力して検索をします。

利用できるモデルのリストが表示されるので選択しダウンロードボタンをクリックすれば準備完了です。

今回はTheBloke氏のorca-2-13b.Q5_K_M.ggufを利用させていただきました。

モデルのダウンロードが完了したら、左サイドバーのチャットアイコンをクリックします。
そのあと、上部のモデルを選択するボタンをクリックし、利用するモデルを決定します。

ロードが終われば、あとは下部のテキストボックスにプロンプトを入力するだけです。

これでOrca-2-13bを使う準備ができたので、実際にプロンプトを入力していきましょう！

Orca-2-13bを実際に使ってみた

LM Studioのインターフェースはとても直感的で、普段ChatGPTを使っている人からすればすぐに使うことができるでしょう。
Orca-2-13bはある程度であれば日本語も認識してくれますが、精度は低めになっているのでプロンプトは英語で入力するのがおすすめです。

早速使ってみましょう！

Orca-2-13bは大規模LLMにも引けを取らない能力ということなので、単純に回答できるような問題ではなく少し考えてもらうことにします。

お題はこちら！

「鶏が先か卵が先か」
英訳：Which came first, the chicken or egg?

生命の根源を探るこの問題に、最先端のAIはどのような回答をしてくれるのでしょうか・・・！？

注目のOrca-2-13bの回答はこちら！

「鶏が先か、卵が先か」という問いは何世紀にもわたって議論されてきました。
しかし、生物学的進化の観点からは、鶏が先に存在しました。
最初の鶏は遠い鳥の祖先から進化し、卵を産み、最終的に最初のひながかえりました。
したがって、鶏は卵を産む前に存在する必要があったため、より正確には鶏が先に存在したと言えます。

シンプルでまとまった回答が返ってきましたね。

ちなみに、同じ質問をLlama2 13Bにも投げかけてみたところ・・・

ああ、古典的な問いですね！これに対する答えは何世紀にもわたって哲学者や科学者を悩ませてきました。しかし、AIとして、進化生物学に基づいたもっと確定的な答えを提供することができます。
科学者の間では、鳥が爬虫類から進化したと広く受け入れられており、卵は鶏よりも前に存在していました。
化石記録によれば、最も古い鳥類の種はおよそ1億5千万年前、ジュラ紀時代に現れました。
これら初期の鳥は、爬虫類の祖先が産んだ卵から孵化したと考えられています。時間の経過とともに、これらの鳥は異なる種に進化し、その中には鶏も含まれています。
つまり、要約すると、卵は鶏よりも前に存在していました。卵は何百万年も前から存在し、現代の鶏のような存在はわずか数千年しか経過していないのです。

かなりしっかりした回答ですね。

Orca-2-13bの回答はどこかふわっとしたところがあるのに対して、Llama2の回答は納得できる要素が散りばめられているように感じました。

これだけではLlama2の優勢ですね・・・。

次はOrca-2-13bの特徴でもある推論能力の高さを比較してみます！

なお、Metaが開発したコード生成AIについて知りたい方はこちらの記事をご覧ください。
→【CodeLlama-70B】700億パラメーターコード生成AIをGPT-4と比較してみた

Orca-2-13bの推しポイントである推論能力が高いというのは本当なのか？

ここではOrca-2-13bの推論能力の高さをLlamaと比較検証していきます。

日本語の問題を英訳すると解釈にズレが生じる可能性があるので、今回はTOEFLの推論問題を解いてもらいましょう！

推論問題の引用：TOEFL iBTリーディングの推論問題(難)のコツを紹介

まずはこちらの問題。

Q. The body that impacted Earth at the end of the Cretaceous period was a meteorite with a mass of more than a trillion tons and a diameter of at least 10 kilometers. Geologist first identified this impact in 1980 from the worldwide layer of sediment deposited from the dust cloud that enveloped the planet after the impact. This sediment layer is enriched in the rare metal iridium and other elements that are relatively abundant in a meteorite but very rare in the crust of Earth. Even diluted by the terrestrial material excavated from the crater, this component of meteorites is easily identified. By 1990 geologists had located the impact site itself in the Yucatán region of Mexico. The crater, now deeply buried in sediment, was originally about 200 kilometers in diameter.

Which of the following can be inferred from the paragraph about the location of the meteorite impact in Mexico?

A. The location of the impact site in Mexico was kept secret by geologists from 1980 to 1990.
B. It was a well-known fact that the impact had occurred in the Yucatán region.
C. Geologists knew that there had been an impact before they knew where it had occurred.
D. The Yucatán region was chosen by geologists as the most probable impact site because of its climate.

隕石の衝突地点に関する推論ですね。
答えは【C】なのですが果たして・・・

Orca-2-13bの回答はこちら。

正解ですね！
ただ、考察などなくシンプルに回答だけでした。

続いてLlama2の回答です。

こちらも正解です！
考察も含めて回答してくれました。

次の問題はこちらです。

Scientists have discovered huge amounts of sand and drift material deposits on the ridges that form Cape Cod and Long Island, along the east coast of the United States. The regions covered by this material were so large that it was believed that the ice which deposited it came from a glacier bigger than Antarctic or Greenland. Scientists, such as Agassiz, persuaded the general population and other geologists that glaciation had occurred, from the North and South Poles, stretching into areas that now experience moderate temperatures. It was at this time that the ice age was discussed. Thanks to radiocarbon dating of logs buried in the drift material, we are now aware that glaciation occurred during the Pleistocene era. This period took place from 1.8 million to 10,000 years ago, and the drift material was not harsh but soft, like sediment.

We can infer from the paragraph above that Agassiz and other scientists of this time were not able to determine

A. which geographic regions had been covered with ice sheets in the last ice age
B. the exact dates at which drifts had been deposited during the last ice age
C. the exact composition of the drifts laid during the last ice age
D. how far south along the east coast of the United Sates the ice had advanced during the last ice age.

アメリカ東海岸のケープコッドやロングアイランドを形成する尾根で発見された、大量の砂や漂流堆積物に関する推論です。
こちらの問題の回答は【B】となっています。

Orca-2-13bの回答はこちら！

シンプル回答ですが正解です！

Llama2の回答はこちらです。

今回もしっかりと考察してくれていますが、回答は間違っていますね。

これでOrca-2-13bが優勢か！？

最後の問題はこちらです。

In Chihuahua, Mexico, a bright and huge meteor entered the atmosphere of the Earth, disintegrated into several pieces, and fell to the ground. Its pieces were spread over the land below. This incident occurred on the 8th of February, 1969. The region affected was 10 miles in width and 50 miles in length. A village in Mexico called Pueblito de Allende is where the first part of this meteorite was found. The two tons of meteorite fragments found are called Allende after the village.

What can be inferred regarding the huge meteor that arrived in the atmosphere of the earth on the 8th of February, 1969?

A. It was heavier than two tons.
B. It was more than ten miles wide.
C. This meteor was the largest one to hit Mexico in history.
D. It smashed into more fragments than any other meteor.

1969年2月8日に地球の大気に到達した巨大な隕石についての推論ですね。
正解は【A】ですが、このままOrca-2-13bの全問正解となるのか・・・。

Orca-2-13bの回答がこちら！

正解！！
なんと、Orca-2-13bは全問正解となりました！

続いてLlama2の回答です。

こちらも正解です！
最終的にはOrca-2-13bが全問正解という結果になりましたね〜。

それでは、ここまでの結果とそれぞれのLLMの動作を比較したものを表にまとめました。

	Orca-2-13b	Llama 2
隕石の衝突地点に関する推論	◯	◯
アメリカ東海岸のケープコッドやロングアイランドを形成する尾根で発見された、大量の砂や漂流堆積物に関する推論	◯	✕
1969年2月8日に地球の大気に到達した巨大な隕石についての推論	◯	◯
回答の内容について	問いに対する答えのみ	答えに加え、考察も回答する
回答の生成速度	遅い	早い

回答の精度としてはOrca-2-13bが全問正解ということで文句なしでした！

ただ、回答は問いに対する答えのみになっているので、Llama2のように考察も回答してほしい場合はその旨をはっきり明記すればよかったのかもしれませんね。

気になったのはOrca-2-13bの生成速度です。

Llama2はどの問題に対しても比較的すぐに回答をしてくれたのですが、Orca-2-13bは回答するのに20〜30秒ほどかかっています。

待ちきれないほど遅い！というわけではないですし、多少遅くても回答が正確であるほうが重要ではあるのですが、テンポよく使えるわけではないということだけ注意しておきたいですね。

なお、Metaが開発したOCRツールについて知りたい方はこちらの記事をご覧ください。
→【Nougat】PDF上の画像や数式をOCRしてくれる神ツールが登場

まとめ

MicrosoftがLlama2をファインチューニングして開発したOrca-2-13bは、小規模モデルながら確かに大規模モデルと同等の性能を発揮することが確認できました。

LLMといえばChatGPTですが、最近では用途に特化したものが多く発表されています。

Orca-2-13bは小規模モデルとは思えないほどのパフォーマンスを発揮してくれるので、難しい問題解決を行うという用途ではぴったりではないでしょうか。

あとは日本語対応できていれば完璧なんですが・・・。

複雑な問題解決も可能とするエンタープライズ号のコンピューターシステム、があなたのPCに搭載される未来も遠くないかもしれませんね。

生成系AIの業務活用なら！

・生成系AIを活用したPoC開発

・生成系AIのコンサルティング

・システム間API連携

無料ダウンロード

最後に

いかがだったでしょうか？

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ