【Japanese Stable LM Beta】国内最大級の日本語特化型LLMをGPT 4と比較してみた
皆さん、Stability AI Japanによって11月2日に公開された「Japanese Stable LM Beta」というLLMsをご存知ですか?
MetaのLlama 2をベースに、大量の日本語で追加学習した、オープンソースのLLMシリーズなんです。その中には、日本語に特化した汎用モデルや、人間の指示に応えるのが得意なモデルなど、様々な種類が存在します。
中には、国内最大級のモデルまであるんです!
では、そんなJapanese Stable LM Betaの使い方や、実際に使ってみた感想、最後にはGPT-4と、Youri7B、Stockmark13Bとの日本語力の比較をまとめています。
この記事を最後まで読むと、Japanese Stable LM Betaの圧倒的実力を実感できます!
ぜひ最後までご覧ください!
Japanese Stable LM Betaの概要
11月2日、Stability AI Japan は、最高性能を誇るオープンな日本語LLM「Japanese Stable LM Beta (JSLM Beta)」シリーズを発表しました。そのシリーズには、以下の3種類のモデルが存在します。
- Japanese Stable LM Base Beta:日本語能力や日本に関する知識を持つ汎用的なモデル
- Japanese Stable LM Instruct Beta :上記のBaseモデルに対して、指示に受け答えできるように、ファインチューニングを行ったモデル
- Japanese Stable LM JA-Vocab:上記の学習に加え、約20000語の語彙を追加したモデル
各モデルは7Bと70Bが存在し、Llama-2 に追加学習を行うことで、日本語に特化したものです。特に、最大サイズの指示応答言語モデルである Japanese Stable LM Instruct Beta 70Bは、700億パラメータを持ち、2023年11月2日までで、最大の日本語LLMとなります。
これらのLLMは誰でも自由に使うことができ、商用利用も可能です。ただし、プログラムが不適切な言葉や表現を生成することがあるため、使用する際には注意が必要です。
Japanese Stable LM Base Beta 7B | Japanese Stable LM Base Beta 70B | Japanese Stable LM Instruct Beta 7B | Japanese Stable LM Instruct Beta 70B | Japanese Stable LM JA-Vocab Base Beta 7B | Japanese Stable LM JA-Vocab Instruct Beta 7B | GPT-4 | Youri 7B | Stockmark 13B | |
---|---|---|---|---|---|---|---|---|---|
パラメータ数 | 7B | 70B | 7B | 70B | 7B | 7B | 1.5T(推定) | 7B | 13B |
トークン数 | 不明 | 32,768(25,000文字 | 不明 | 不明 | |||||
開発会社 | Stability AI Japan | OpenAI | rinna社 | Stockmark | |||||
商用利用 | 可能 | 可 | 可 | 可 | |||||
ライセンス | Llama2 Community License | プロプライエタリソフトウェア | 不明 | MIT License | |||||
日本語対応 | 可能 | 可 | 可 | 可 |
Japanese Stable LM Betaの料金体系
Japanese Stable LM Betaは誰でも無料で使うことができ、商用利用も可能です。
なお、日英特化型のLLMについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【Japanese Stable LM 3B-4E1T】学習量4兆トークンの日英特化型LLM
Japanese Stable LM Betaの使い方
ここでは、Google Colab上で、「Japanese Stable LM Base Beta 70B」を実行してみます。
まずは、以下のURLからrequests.txtを取得し、Colabにアップロードしてください。その際、requests.txtの最終行に「transformers」と追記してください。
参考記事:stabilityai/japanese-stablelm-base-beta-70b
次に、以下のコードを実行して、ライブラリをインストールしましょう。
!pip install -r requirements.txt
続いて、以下のコードを実行すると、日本語の文章が生成されます。
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "stabilityai/japanese-stablelm-base-beta-70b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
# The next line may need to be modified depending on the environment
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, low_cpu_mem_usage=True, device_map="auto")
prompt = """
AI で科学研究を加速するには、
""".strip()
input_ids = tokenizer.encode(
prompt,
add_special_tokens=False,
return_tensors="pt"
)
# this is for reproducibility.
# feel free to change to get different result
seed = 23
torch.manual_seed(seed)
tokens = model.generate(
input_ids.to(device=model.device),
max_new_tokens=128,
temperature=0.99,
top_p=0.95,
do_sample=True,
)
out = tokenizer.decode(tokens[0], skip_special_tokens=True)
print(out)
上記のコードにおける、以下の部分の文章がプロンプトに当たります。
prompt = """
AI で科学研究を加速するには、
""".strip()
なお、Stability AI史上最強の日本語LLMについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【Japanese Stable LM Gamma 7B】Stability AI史上最強の日本語LLMが誕生!?
Japanese Stable LM Betaを実際に使ってみた
Japanese Stable LM Betaの日本語力をテストするために、日本語検定1級の問題を解いてみようと思います。使用するプロンプト・問題は以下の2問です。
最初に1問目。
以下の文章の「余蘊がない。」の言葉に対して、置き換え可能な、意味の最も類似した語を番号で答えてください。
彼女の博士論文は極めて精緻であり、論述を尽くして余蘊がない。
1. 誤謬がない
2. 不足がない
3. 無理がない
4. 不満がない
こちらの答えは「②不足がない」です。
出力は以下の通り。
第4問 次の文章を読んで、中点から最後までの正文(一文)を決定してください。 「固定点」と訳された最初の文字を記入してください。
私は一人の日本人が寄せてくれた手紙を読みました。「
続いて2問目。
以下の文章の( )に入る、対照的な意味を表す語を選んで、番号で答えてください。
ここは北に富士山を( )し、南に駿河湾を俯瞰できる、実に見事な景勝の地だ。
1. 仰望
2. 凝視
3. 展望
4. 遠望
こちらの答えは、「①仰望」です。
出力は次の通り。
問題5 「透明性」ということばは、どんなことばから来たのでしょうか。
(1) 透 光 性 (2) 温 融 性 (3) 分 解 性 (4) 抽 脱 性 (5) 寄 与 性
選択肢1, 2,
さらに、敬語を扱えるのかもテストしたいので、以下のプロンプトで、確認してみましょう。
日本語でクライアントに送信する丁寧語・謙譲語を正しく使用したビジネスメールを作成してください。
出力は次の通り。
ビジネスメールを効率よく作成していくための考え方、手順を学びます。 ビジネスメールを作成するために必要な機能をおさえるとともに、実際の例文にも目を通して、ビジネスメールの文章を作成する感覚を身につけていきます。
ここまでの全体の出力結果に対して言えることは、自然な日本語は出力できていますが、質問に答えることはできておらず、GPTのような「次文予測」をしているのだと思われます。
このまま利用するには実用的ではないですが、ファインチューニングなどを通して、強力なLLMになることでしょう。
Japanese Stable LM Betaの推しポイントである日本語力は本当なのか?
ここでは、Japanese Stable LM Betaの日本語力が本物なのかを検証するために、以下のモデルと比較してみます。
- GPT-4
- Youri7B
- Stockmark13B
結果は以下の通りです。
プロンプト | Japanese Stable LM Beta | GPT-4 | Youri 7B | Stockmark 13B |
---|---|---|---|---|
以下の文章の「余蘊がない。」の言葉に対して、置き換え可能な、意味の最も類似した語を番号で答えてください。 彼女の博士論文は極めて精緻であり、論述を尽くして余蘊がない。 1. 誤謬がない 2. 不足がない 3. 無理がない 4. 不満がない | 問題には答えず、次の問題を出題してきた | 理由も込みで正解できた | 質問に答えられず、不自然な文章になった | 質問に答えられず、不自然な文章になった |
以下の文章の( )に入る、対照的な意味を表す語を選んで、番号で答えてください。 ここは北に富士山を( )し、南に駿河湾を俯瞰できる、実に見事な景勝の地だ。 1. 仰望 2. 凝視 3. 展望 4. 遠望 | 問題には答えず、次の問題を出題してきた | 理由も込みで正解できた | 質問に答えられず、不自然な文章になった | 質問に答えられず、不自然な文章になった |
日本語でクライアントに送信する丁寧語・謙譲語を正しく使用したビジネスメールを作成してください。 | メール文を書かずに、メールの書き方を出力した。 | ビジネスに利用できる自然な文章が出力されていた。 | メール文を書かずに、メールの書き方を出力した。 | メール文を書かずに、メールの書き方を出力した。 |
この結果を見ると、Japanese Stable LM Betaは、YouriやStockmarkと同じくらいの性能であることがうかがえます。やはり、1,700億以上ものパラメータがあるGPT-4には敵わないのでしょう。
そのため、日本語でLLMを動かしたい場合でも、基本的にはGPT-4(ChatGPT)でよさそうですね。
なお、日本最高峰レベルの精度のYouri 7Bについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【Youri 7B】日本最高峰レベルの精度を叩き出す!総学習量2兆トークン超えの日本語LLM
まとめ
11月2日、Stability AI Japan は、最高性能を誇るオープンな日本語LLM「Japanese Stable LM Beta (JSLM Beta)」シリーズを発表しました。その中には、日本語に特化した汎用モデルや、人間の指示に応えるのが得意なモデルなど、様々な種類が存在します。
合計6種類のモデルがあり、各モデルは7Bと70Bが存在し、Llama-2 に追加学習を行うことで、日本語に特化したものです。
実行したい場合、本記事の使い方のセクションを参考にしてもらえれば、簡単に実行できます。
生成系AIの業務活用なら!
・生成系AIを活用したPoC開発
・生成系AIのコンサルティング
・システム間API連携
最後に
いかがだったでしょうか?
弊社では
・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、サービス紹介資料もご用意しておりますので、併せてご確認ください。