【Japanese Stable LM Beta】国内最大級の日本語特化型LLMをGPT 4と比較してみた

Japanese-Stable-LM-Beta GPT-4 比較

皆さん、Stability AI Japanによって11月2日に公開された「Japanese Stable LM Beta」というLLMsをご存知ですか?

MetaのLlama 2をベースに、大量の日本語で追加学習した、オープンソースのLLMシリーズなんです。その中には、日本語に特化した汎用モデルや、人間の指示に応えるのが得意なモデルなど、様々な種類が存在します。

中には、国内最大級のモデルまであるんです!

では、そんなJapanese Stable LM Betaの使い方や、実際に使ってみた感想、最後にはGPT-4と、Youri7B、Stockmark13Bとの日本語力の比較をまとめています。

この記事を最後まで読むと、Japanese Stable LM Betaの圧倒的実力を実感できます!
ぜひ最後までご覧ください!

目次

Japanese Stable LM Betaの概要

11月2日、Stability AI Japan は、最高性能を誇るオープンな日本語LLM「Japanese Stable LM Beta (JSLM Beta)」シリーズを発表しました。そのシリーズには、以下の3種類のモデルが存在します。

  • Japanese Stable LM Base Beta:日本語能力や日本に関する知識を持つ汎用的なモデル
  • Japanese Stable LM Instruct Beta :上記のBaseモデルに対して、指示に受け答えできるように、ファインチューニングを行ったモデル
  • Japanese Stable LM JA-Vocab:上記の学習に加え、約20000語の語彙を追加したモデル

各モデルは7Bと70Bが存在し、Llama-2 に追加学習を行うことで、日本語に特化したものです。特に、最大サイズの指示応答言語モデルである Japanese Stable LM Instruct Beta 70Bは、700億パラメータを持ち、2023年11月2日までで、最大の日本語LLMとなります。

これらのLLMは誰でも自由に使うことができ、商用利用も可能です。ただし、プログラムが不適切な言葉や表現を生成することがあるため、使用する際には注意が必要です。

スクロールできます
Japanese Stable LM Base Beta 7BJapanese Stable LM Base Beta 70BJapanese Stable LM Instruct Beta 7BJapanese Stable LM Instruct Beta 70BJapanese Stable LM JA-Vocab Base Beta 7BJapanese Stable LM JA-Vocab Instruct Beta 7BGPT-4Youri 7BStockmark 13B
パラメータ数7B70B7B70B7B7B1.5T(推定)7B13B
トークン数不明32,768(25,000文字不明不明
開発会社Stability AI JapanOpenAIrinna社Stockmark
商用利用可能
ライセンスLlama2 Community Licenseプロプライエタリソフトウェア不明MIT License
日本語対応可能

Japanese Stable LM Betaの料金体系

Japanese Stable LM Betaは誰でも無料で使うことができ、商用利用も可能です。

なお、日英特化型のLLMについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
【Japanese Stable LM 3B-4E1T】学習量4兆トークンの日英特化型LLM

Japanese Stable LM Betaの使い方

ここでは、Google Colab上で、「Japanese Stable LM Base Beta 70B」を実行してみます。

まずは、以下のURLからrequests.txtを取得し、Colabにアップロードしてください。その際、requests.txtの最終行に「transformers」と追記してください。

参考記事:stabilityai/japanese-stablelm-base-beta-70b

次に、以下のコードを実行して、ライブラリをインストールしましょう。

!pip install -r requirements.txt

続いて、以下のコードを実行すると、日本語の文章が生成されます。

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "stabilityai/japanese-stablelm-base-beta-70b"
tokenizer = AutoTokenizer.from_pretrained(model_name)

# The next line may need to be modified depending on the environment
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, low_cpu_mem_usage=True, device_map="auto")

prompt = """
AI で科学研究を加速するには、
""".strip()

input_ids = tokenizer.encode(
    prompt,
    add_special_tokens=False,
    return_tensors="pt"
)

# this is for reproducibility.
# feel free to change to get different result
seed = 23  
torch.manual_seed(seed)

tokens = model.generate(
    input_ids.to(device=model.device),
    max_new_tokens=128,
    temperature=0.99,
    top_p=0.95,
    do_sample=True,
)

out = tokenizer.decode(tokens[0], skip_special_tokens=True)
print(out)

上記のコードにおける、以下の部分の文章がプロンプトに当たります。

prompt = """
AI で科学研究を加速するには、
""".strip()

なお、Stability AI史上最強の日本語LLMについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
【Japanese Stable LM Gamma 7B】Stability AI史上最強の日本語LLMが誕生!?

Japanese Stable LM Betaを実際に使ってみた

Japanese Stable LM Betaの日本語力をテストするために、日本語検定1級の問題を解いてみようと思います。使用するプロンプト・問題は以下の2問です。

最初に1問目。

以下の文章の「余蘊がない。」の言葉に対して、置き換え可能な、意味の最も類似した語を番号で答えてください。

彼女の博士論文は極めて精緻であり、論述を尽くして余蘊がない。

1. 誤謬がない
2. 不足がない
3. 無理がない
4. 不満がない

こちらの答えは「②不足がない」です。

出力は以下の通り。

第4問 次の文章を読んで、中点から最後までの正文(一文)を決定してください。 「固定点」と訳された最初の文字を記入してください。

私は一人の日本人が寄せてくれた手紙を読みました。「

続いて2問目。

以下の文章の(       )に入る、対照的な意味を表す語を選んで、番号で答えてください。

ここは北に富士山を(       )し、南に駿河湾を俯瞰できる、実に見事な景勝の地だ。

1. 仰望
2. 凝視
3. 展望
4. 遠望

こちらの答えは、「①仰望」です。

出力は次の通り。

問題5 「透明性」ということばは、どんなことばから来たのでしょうか。

(1) 透 光 性 (2) 温 融 性 (3) 分 解 性 (4) 抽 脱 性 (5) 寄 与 性

選択肢1, 2, 

さらに、敬語を扱えるのかもテストしたいので、以下のプロンプトで、確認してみましょう。

日本語でクライアントに送信する丁寧語・謙譲語を正しく使用したビジネスメールを作成してください。

出力は次の通り。

ビジネスメールを効率よく作成していくための考え方、手順を学びます。 ビジネスメールを作成するために必要な機能をおさえるとともに、実際の例文にも目を通して、ビジネスメールの文章を作成する感覚を身につけていきます。

ここまでの全体の出力結果に対して言えることは、自然な日本語は出力できていますが、質問に答えることはできておらず、GPTのような「次文予測」をしているのだと思われます。

このまま利用するには実用的ではないですが、ファインチューニングなどを通して、強力なLLMになることでしょう。

Japanese Stable LM Betaの推しポイントである日本語力は本当なのか?

ここでは、Japanese Stable LM Betaの日本語力が本物なのかを検証するために、以下のモデルと比較してみます。

  • GPT-4
  • Youri7B
  • Stockmark13B

結果は以下の通りです。

スクロールできます
プロンプトJapanese Stable LM BetaGPT-4Youri 7BStockmark 13B
以下の文章の「余蘊がない。」の言葉に対して、置き換え可能な、意味の最も類似した語を番号で答えてください。
彼女の博士論文は極めて精緻であり、論述を尽くして余蘊がない。
1. 誤謬がない
2. 不足がない
3. 無理がない
4. 不満がない
問題には答えず、次の問題を出題してきた理由も込みで正解できた質問に答えられず、不自然な文章になった質問に答えられず、不自然な文章になった
以下の文章の( )に入る、対照的な意味を表す語を選んで、番号で答えてください。
ここは北に富士山を( )し、南に駿河湾を俯瞰できる、実に見事な景勝の地だ。
1. 仰望
2. 凝視
3. 展望
4. 遠望
問題には答えず、次の問題を出題してきた理由も込みで正解できた質問に答えられず、不自然な文章になった質問に答えられず、不自然な文章になった
日本語でクライアントに送信する丁寧語・謙譲語を正しく使用したビジネスメールを作成してください。メール文を書かずに、メールの書き方を出力した。ビジネスに利用できる自然な文章が出力されていた。メール文を書かずに、メールの書き方を出力した。メール文を書かずに、メールの書き方を出力した。

この結果を見ると、Japanese Stable LM Betaは、YouriやStockmarkと同じくらいの性能であることがうかがえます。やはり、1,700億以上ものパラメータがあるGPT-4には敵わないのでしょう。

そのため、日本語でLLMを動かしたい場合でも、基本的にはGPT-4(ChatGPT)でよさそうですね。

なお、日本最高峰レベルの精度のYouri 7Bについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
【Youri 7B】日本最高峰レベルの精度を叩き出す!総学習量2兆トークン超えの日本語LLM

まとめ

11月2日、Stability AI Japan は、最高性能を誇るオープンな日本語LLM「Japanese Stable LM Beta (JSLM Beta)」シリーズを発表しました。その中には、日本語に特化した汎用モデルや、人間の指示に応えるのが得意なモデルなど、様々な種類が存在します。

合計6種類のモデルがあり、各モデルは7Bと70Bが存在し、Llama-2 に追加学習を行うことで、日本語に特化したものです。

実行したい場合、本記事の使い方のセクションを参考にしてもらえれば、簡単に実行できます。

サービス紹介資料

生成系AIの業務活用なら!

・生成系AIを活用したPoC開発

・生成系AIのコンサルティング

・システム間API連携

最後に

いかがだったでしょうか?

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
ハルシネーション対策AIツールの開発
自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ
無料相談

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、サービス紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • 中田

    データサイエンス専攻の大学院生。大学では、生成系AIの拡散モデルを用いた音楽生成について研究。 趣味は作曲、サッカー、コーヒー。

  • URLをコピーしました!
  • URLをコピーしました!
目次