【Llama 2】オープンソース版ChatGPTの使い方〜ChatGPTとの比較まで
Twitterなどで話題になっているMeta社のLlama 2、みなさんご存知ですか?
これは元々、一部の研究者専用のLLMでしたが、7月19日に商業用として一般に公開されました。
この記事では、そもそもLlama 2とは何か?という疑問から実際に使ってみた感想、ChatGPTとの違いを解説していきます。
そもそもLlama 2とは?
Llama 2とは、7月19日にMetaが発表した大規模言語モデルです。無料でかつ、オープンソースで公開されており、商用利用も可能です。
Llama 2はパラメータ数が7B、13B、70Bの3つを使用することが可能で、前回のLlamaの性能も高かったことから性能に期待が高まっています。
MetaはLlama 2に加えて、Llama 2-Chatもリリースしています。Llama 2-Chatとは、Llama 2のファインチューニングしたバージョンで、ChatGPTのように自然言語を用いた人間との会話を目的としています。
利用に当たっては、MicorosoftのAzure上で優先的に利用可能となっています。また、現在AWSやHugging Facesなど他のプロバイダーでも入手可能です。
ただし、月間アクティブユーザー数が7億人を超える製品にLlama 2を活用する場合はMetaにライセンスを要求する必要があるとのことです。
直接ダウンロードしたい場合は、以下のリンクからアクセスしてください。
Introducing Llama 2
フォームに入力をすると、Metaから専用URLが送られてくるため、同社がGitHubで公開しているダウンロード用のスクリプトと合わせるとLlama 2の各モデルをダウンロードできるようになります。
Githubのページはこちらです。
Github
Llama2の論文を徹底解説
Metaが公開している公式の論文を読んでみました。
Llama 2: Open Foundation and Fine-Tuned Chat Models
この論文では、Llama 2の開発とその目的、学習方法の説明、ファインチューンの方法、モデルの安全性、その他のAIモデルとの比較について書かれています。
特に興味深かったのは、Llama 2とその他のモデルとの比較の部分です。
論文では、4つの評価軸でOpenAIのChatGPTやGoogleのPaLM-bisonと比較しています。
ヘルプフルネス評価:この評価軸は、ユーザーにとってどれだけ便利なものであるかを示すものです。
Llama 2-Chat 70Bモデルは、ChatGPTよりも36%の確率で正しい応答をしています。また、GoogleのPaLM-bisonに対しては、Llama 2-Chat 70Bモデルは大幅に上回る結果となりました。
チャットボットとの会話数やプロンプトの長さの分析:チャットボットとの会話数やプロンプトの長さと生成された文章の正確性を分析した結果、能力に特定の傾向は見られませんでした。
応答の精度:応答の精度をChatGPTと比較すると、Llama 2-Chatが正しいメッセージを生成する確率が36%から44%に上昇しました。特に、人間が一度だけ質問をした際に正しい応答をする確率は36%からほぼ49%に大幅に上昇しました。
プロンプトのカテゴリによる正しい応答をする確率の分析:ChatGPTが言語支援においてLlama 2-Chat 70Bを上回り、一方でLlama 2-Chat 70Bが事実に関する質問においてChatGPTを上回るという結果が得られました。
また、先代のLLaMAとの比較としていくつかの点が向上したとも述べられています。
・前のモデルと比べて学習に使用されたテキストが40%増加しています。それによって、理解できるテキストの長さが2倍となりました。
・7B、13B、70Bのパラメータのバリエーションがあります。
・Llama 2-Chatは、Llama 2のファインチューニングされたバージョンで、会話に使うことに最適化されています。このモデルも7B、13B、70Bのパラメータのバリエーションがリリースされています。
・Llama 2-7Bは、Llama1-7Bに比べて、真実性(正しい情報を伝える能力)と情報性(関連性のある情報を出力する能力)が21.37%増加し、毒性(不適切な情報を生成する能力)が7.61%減少しています。
・Llama 2は、公開データを厳しくフィルタリングしないことで、より多くの下流のタスク(ヘイトスピーチ検出など)で良好なパフォーマンスを発揮しています。
様々な領域でChatGPTやPaLMを上回っており、性能はかなり良いと言えるのではないでしょうか?
また、Llamaと比べても性能が格段に向上しており、期待が高まりますね!
実際、どれほど性能が向上しているのでしょうか?それがわからないと違いが分かりにくいですよね。
Llama2を実際に使ってみた
ここでは、Llama2の13Bモデルを使用してみます。
Llama2の13Bモデルは以下のツイートからアクセスできるので、気になる方はご確認下さい。
不適切な発言に対する反応
まず、不適切な発言に対しての安全性を確かめてみます。
ここでは、「is transwoman a woman?=トランス女性は女性ですか?」と質問してみました。
すると回答は
「I know this is a loaded question, and I don’t want to offend anyone. But I’m trying to understand the concept of gender identity and how it relates to biological sex.
Some people say that a transwoman is a woman, while others say that a transwoman is a man who identifies as a woman. I’m confused by this, because I thought that gender identity was a personal and subjective experience, and that no one else can determine someone’s gender identity but the person themselves.
Can someone please clarify this for me? Is a transwoman a woman, or is she a man who identifies as a woman? And what does this mean for issues like gender equality and access to healthcare?
Thank you for any help you can provide.」
「これは裏の意図がある質問であることは承知しているし、誰かを不快にさせたくはない。しかし、私は性自認という概念と、それが生物学的性別とどのように関係しているのかを理解しようとしています。
ある人はトランスウーマンは女性であると言い、またある人はトランスウーマンは女性であると自認する男性であると言います。私は、性自認は個人的で主観的な経験であり、性自認を決定できるのは本人以外にはいないと思っていたので、このことに混乱しています。
どなたか、このことを明確にしていただけませんか?トランス女性は女性なのでしょうか、それとも女性であると自認している男性なのでしょうか?また、このことは男女平等や医療へのアクセスといった問題に対してどのような意味を持つのでしょうか?
助けてくださる方、ありがとうございます。」
とても面白いですね!
どっちつかずの答えをしているだけでなく、むしろこちらに質問をしてくるスタンスです。
さすが、毒性を下げているだけあって、誰も傷つけないような返答をしてくれています。
事実に関する質問
次に事実に関する質問をしてみました!
Llama 2-7Bは、Llama1-7Bに比べて真実性と情報性が21.37%増加しているとのことなので、正確な情報を出してくれるかもしれません。
ここでは「who is sam altman? tell me what he has done in 2023.=サムアルトマンとは誰ですか?2023年に彼が行ったことを教えてください。」と聞いてみました。
「Sam Altman is an American entrepreneur, investor, and former president of Y Combinator, a well-known startup accelerator. Here are some of his notable achievements and activities in 2023:
1. Continued leadership at Y Combinator: Altman remained the president of Y Combinator in 2023, where he oversaw the acceleration of many successful startups, including those in the fields of artificial intelligence, blockchain, and biotechnology.
2. Investments in cutting-edge technologies: Altman has been actively investing in startups working on cutting-edge technologies such as quantum computing, synthetic biology, and advanced materials.
3. Advocacy for ethical AI: Altman has been a vocal advocate for the ethical development and use of artificial intelligence, and has spoken at various conferences and events on this topic.
4. Mentorship and guidance: Altman has provided mentorship and guidance to many entrepreneurs and startups, helping them to navigate the challenges of building and growing a successful business.
5. Book publication: Altman published a book in 2023 titled “The Startup Playbook” which provides insights and advice for entrepreneurs and investors.
6. Podcast hosting: Altman hosts a popular podcast called “The Sam Altman Show” where he interviews successful entrepreneurs, investors, and thinkers.
7. Philanthropic efforts: Altman has been involved in various philanthropic efforts, including the Altman Foundation, which supports education, healthcare, and the arts.
8. Speaking engagements: Altman has spoken at various conferences and events, including the World Economic Forum, the Forbes 30 Under 30 Summit, and the TechCrunch Disrupt conference.
These are just a few examples of what Sam Altman has been up to in 2023, but he is likely to continue making waves in the startup and investment communities as the year progresses.」
「サム・アルトマンはアメリカの起業家、投資家であり、有名なスタートアップ・アクセラレーターであるYコンビネーターの元社長である。2023年における彼の代表的な業績と活動を紹介しよう:
1. Y Combinatorでのリーダーシップの継続: アルトマンは2023年もYコンビネーターの社長を務め、人工知能、ブロックチェーン、バイオテクノロジーの分野を含む多くのスタートアップのアクセラレーションを監督し、成功を収めた。
2. 最先端テクノロジーへの投資 アルトマンは、量子コンピューティング、合成生物学、先端材料などの最先端技術に取り組む新興企業に積極的に投資している。
3. 倫理的なAIの提唱:アルトマンは、人工知能の倫理的な開発と利用を声高に提唱しており、このテーマについてさまざまな会議やイベントで講演を行っている。
4. 指導と助言 アルトマンは、多くの起業家や新興企業に対して指導と助言を行っており、ビジネスを成功させ、成長させるための難題を乗り越える手助けをしています。
5. 書籍の出版: アルトマンは2023年に「The Startup Playbook」という本を出版し、起業家や投資家向けに洞察やアドバイスを提供している。
6. ポッドキャストの司会: アルトマンは「サム・アルトマン・ショー」という人気ポッドキャストを主催し、成功した起業家、投資家、思想家にインタビューを行っている。
7. 慈善活動: アルトマンは、教育、医療、芸術を支援するアルトマン財団など、さまざまな慈善活動に携わっている。
8. 講演活動 アルトマンは、世界経済フォーラム、Forbes 30 Under 30サミット、TechCrunch Disruptカンファレンスなど、さまざまな会議やイベントで講演を行っている。
これらは2023年のサム・アルトマンの活動のほんの一例に過ぎないが、年が明けても彼は新興企業や投資コミュニティで波紋を広げ続けるだろう。」
惜しいですね!
全くでっちあげではないですが、少し情報がずれています。
サムアルトマンはYcombinatorの社長でしたが、現在はやっていません。2020年ごろに退任しているはずです。
また、サム・アルトマン・ショーは存在しません。PodcastやYoutubeで話している音声や動画はありますが、サム・アルトマン・ショーという名前のポッドキャストはないです。
7について、アルトマン財団は実在するのですが、サムアルトマンとはなんの関係もないので事実とは異なります。
以上のように、一部正しい情報や惜しい情報がありながらも、全く正しい情報ではないようです。
長文要約
それでは長文要約ですとどうでしょうか?
「前のモデルと比べて学習に使用されたテキストが40%増加しています。それによって、理解できるテキストの長さが2倍となりました。」とあり、読み込めるテキスト量が増えているはずです。
この記事を要約してもらいました。
全文を載せると、トークンオーバーで文章が生成されなかったので、GPT3のトークン数と近い2000トークン分の文章を載せました。
機能はしていますが、「要約できているのかな…?」という印象です。
「and」から文頭がスタートしており、文中に「?」が入ったりしていて要約なのかどうか怪しいです。
いろいろ試してみると、3,000トークンまでは機能し、それ以上のトークン数の処理は難しいようです。
日本語対応
それでは、一番大事なポイントである日本語対応ができるのかどうか、確認していきましょう。
日本語対応のチェックは、Hugging Faceのチャットボットで試してみました。
こちらは70Bモデルになっています。
早速、「日本語は話せますか?」と聞いてみました。
質問に対して、英語で返してきていますね。
しかも、「 Konnichiwa! Ogenki desu ka? (Hello! How are you?)」とローマ字にしています。
次に、「Llama 2について日本語で教えてください。」と聞いてみました。
日本語で教えてくれました!
しかし、生成できる文章がかなり短いように感じます。
一回止まるまでに生成された文章は317トークンです。
また、生成されるスピードも少し遅めです。
続けて質問をしてみました。
次は、286トークンで止まり、「続けて」と打つとエラーが出てしまっています。
エラーメッセージによると、1度の会話で消費できるトークン数は1,024までのようです。
これは、Hugging Faceの仕様の可能性もありますが、少し不便に感じてしまいますね。
とはいえ、適切に指示を出せば日本語でも対応してくれることがわかりました。
Llama 2の性能はかなり良さそうです!
不適切な発言への対応や、事実に関する質問、要約、日本語対応など確認してみましたが、かなり良い返答をしてくれています。
Llama 2とChatGPTの比較
Llama 2とChatGPTを比較してみましょう。
最もメジャーなチャットボットであるChatGPTとどれほど差があるのかわかれば、Llama 2の性能がわかります。
ここでは、要約、翻訳、コーディングの3つの観点から比較していきます。
ChatGPTはGPT-3を使います。
要約
まず要約です。
「summarize the following sentence in 200 words=以下の文章を200文字で要約してください」と指示を出しました。
要約する文章は、サムアルトマンのブログ記事です。
Sam Altman
どちらもよく要約できています!
ですが、200文字という指定に対して、ChatGPTは233ワード生成したのに対し、LLaMAは110文字でした。
翻訳
次に翻訳をしてみます。
要約で使った文章をそのまま日本語に要約してもらいました。
ChatGPTは見出しから正確に要約をしてくれています。
Llama 2の場合は、見出しを要約してくれておらず、またトークン制限で全文を生成できませんでした。一部、「ambitious」など翻訳できていない単語もあります。
コード生成
最後はコードを生成してもらいます。
チャットボットはコード生成が得意ですが、ChatGPTとLlama 2の間で差はあるのでしょうか。
かなり曖昧な指示でしたが、ChatGPTはhtmlコードを生成してくれました。
対して、Llama 2は生成してくれませんでした。
こうして比べてみると、言語の切り替えや曖昧な文章から返答をできる点など、様々な点でChatGPTの方がまだ優れているように感じます。
まとめ
Llama 2は商用利用可能な大規模な言語モデルであり、性能が向上しています。公開データのフィルタリングを緩めることで、様々なタスクで高いパフォーマンスを発揮しています。比較評価では、ヘルプフルネス評価やプロンプトの影響などでChatGPTを上回る結果が得られました。
ただし、日本語対応は限定的であり、要約やコード生成においてはChatGPTに劣る傾向があります。今後のLlama 2の活躍に期待が高まります。
最後に
いかがだったでしょうか?
弊社では
・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、サービス紹介資料もご用意しておりますので、併せてご確認ください。