ChatGPT公開から1年!世界を変えたOpenAIがわずか1年で発表したAIツール一覧
OpenAIがChatGPTを2022年11月30日に発表して、1年が経ちました。
このAIは、自然言語処理の分野で重要な進歩を遂げ、人間のようなテキストを生成する能力を持つAIの可能性を広く認識させることに成功しました。
Chat GPT以前・以後もOpenAIは様々な生成AIを開発してきました。その進化の歴史は非常に興味深いものです。
今回はOpenAIが開発した生成AIツールについてまとめましたのでご紹介いたします。
OpenAIがこれまで開発した生成AIサービス一覧(時系列順)
ChatGPTは、OpenAIが初めて開発した生成AIモデルではありません。
ChatGPT以前にも、これまでいくつもの生成AIを開発してきた進歩の末に、ChatGPTが発表されたという歴史があり、その後も進歩を続けています。
Opan AIが発表した生成AIを時系列順に追うことで、進歩の歴史をたどっていきましょう。
GPT-1
GPT-1(Generative Pre-trained Transformer 1)は、2018年6月11日にOpenAIが初めて公開した生成型の言語モデルで、その後のモデルの基礎となりました。
GPT-1は、Transformerアーキテクチャをベースにしています。Transformerは、自然言語処理のタスクにおいて革新的な成果を上げたモデルで、セルフアテンションメカニズムを用いて長距離の依存関係を学習することができます。
未学習段階でラベル付与なく教師なし学習を行って、その後各タスクにおいてファインチューニングを行うことで大規模の学習を可能としました。
当時としては大規模な1.17億個のパラメータ・4.5GBの学習データを持ち、自然言語生成に焦点を置いており、文章作成や文章の補完などのタスクを行うことができました。
GPT-2
GPT-2は2019年2月14日に発表されました。
GPT-1とGPT-2は基本構造は変わりません。異なるのはパラメータ数と学習データ量でGPT-2は15億個のパラメータ・40GBの学習データを持つことです。
これにより格段に精度が上がるとともに、より高度で複雑な言語生成タスクに対処できるようになりました。文章生成、翻訳、質問応答、文章の修正など、幅広い自然言語処理のアプリケーションに利用されました。
当初は悪用されるという懸念からソースコードの公開を拒否し、制限付きアクセス許可という形をとっていました。
その後2019年8月20日にGPT-2縮小版を公開、2019年11月5日に悪用の恐れはなくなったとして完全版を公開しました。
GPT-3
GPT-3は、2020年7月に発表されたGPT-2の後継モデルです。
GPT-3はGPT-2からさらにパラメータ数と学習に使うデータ量が増えています。
1750億個のパラメータ・570GBの学習データを持つことで、画期的な進歩を遂げました。ゼロショット転移で優れた精度を出せるようになったことです。
結果、事前学習モデルを利用して次に来る単語を確率的に並べるだけでそれっぽい文章が作成できるようになりました。
翻訳などにおいてはこれが顕著に現れます。ある程度翻訳ができたら確率的に文章に近い言葉を並べると翻訳タスク的なことができるようになってしまう状況になりました。
GPT-3 API
2020年9月にマイクロソフト社が独占ライセンスを取得し、クラウドサービス「MIcrosoft Azure」上で利用できるAPIとして公開されました。
GPT-3を活用することで記事や小説を自動生成したり、ゲームでストーリーに沿った会話をインタラクティブに生成する。さらには文章でイメージを伝えるだけで、アプリケーションのデザインを生成させたりすることなどが可能となりました。
DALL-E
2021年1月、OpenAIによるブログの投稿により発表された自然言語の記述からデジタル画像を生成する深層学習モデルです。GPT-3の画像生成のために変更されたバージョンを使用しています。
DALL-Eは、人間の想像力を超えるような独創的なアートやデザインの創造をサポートするために開発されました。120億パラメータの画像からテキストへの生成モデルと、2億5000万の画像キャプションデータセットという大量の学習データを持っています。生成される画像は、異なるコンセプトや特徴を組み合わせて新しいものを作り出すことができます。
CLIP
CLIP(Contrastive Language-Image Pretraining)は、画像からそれを説明する文章を生成するモデルで、2021年1月に発表されました。画像とテキストの両方のモデルを処理するために設計されています。これにより、モデルは画像と対応するテキストの関連性を理解し、異なる形式のデータを結びつける能力が向上しています。
CLIPは4億組の画像ーテキストペアで学習されています。この大規模なデータセットにより、多様なタスクに対するゼロショット転移で優れた精度を出すことが可能となりました。
CLIPは、画像分類、物体検出、セマンティックセグメンテーションなど、様々なタスクに利用できます。
Codex
2021年8月10日にCodexが発表されました。
CodexはGPT-3の系統で公開されているPythonコードを使ってチューニングされたモデルです。
訓練データには自然言語だけでなく公開されているソースコードも含まれているため、Pythonをはじめとする10以上のプログラミング言語で動作します。
このため自然言語を解析し、対応するコンピュータープログラム(コード)を生成することができます。
ただし、Codexが生成するコードには非効率なコードやコードサンプルに由来する欠陥が存在することがあります。また、Codexが多段階または高度な要求に苦戦し、失敗することがあることから、Codexは構文以外の言語は理解していなかったようです。
GPT-3.5
2022年3月15日に、GPT3とCodexのAPIに、編集と挿入機能を持たせた新しいバージョンを「text-davinci-002」および「code-davinci-002」という名前で公開しました。
さらに2022年11月28日に「text-davinci-003」が公開され、2022年11月30日にこれらのシリーズがGPT3.5に当たると発表されました。これらのモデルは、2021年6月までのデータで訓練されています。
GPT-3の発展系で、パラメータ数は大幅に増え、3550億個に達しています。これにより、GPT-3.5はさらに高度な文章生成や質問応答が可能になりました。
ChatGPTは、このGPT-3.5 以降の言語モデルを使用しています。
DALL-E 2
DALL-E 2は2022年4月に発表されました。
言語入力から高精度な画像やイメージを作成するAIツール:DALL-Eの後継モデルです。DALL-E2はCLIPとGLIDEを組み合わせた2stageモデルになっており、DALL-Eと比較して、4倍の解像度で精密な画像を生成することができます。
また作成した画像の別のバリエーションを生成できる機能もあります。一度作成した画像を起点に、構図やニュアンスを変えたさまざまなバリエーション画像を生成できます。DALL-E2で作成した画像ではなく、自分自身で描いた画像を基にバリエーション画像を生成することも可能です。
さらに、オリジナルの画像の編集機能も持ち合わせています。
Whisper
2022年9月21日に公開された高性能な音声認識AIです。日本語や英語といった言語にかかわらず、精度の高い文字起こしができます。
約68万時間もの膨大な音声データをインターネットから収集して学習しているため、当時は文字起こし精度の高さで話題となりました。
現在では約100言語に対応しており、アクセントやイントネーションの違い、専門用語も認識できるため、非常に高性能となっています。
ChatGPT
2022年11月30日に発表されました。内部で動いているモデルはGPT3.5です。
GTP3.5と比較してモデル自体に劇的な変化はありませんが、Chatというインターフェイスで誰でも簡単に利用できるということが画期的です。同様のことはGPT3.5でも同様の操作は行えてはいましたが、チャットというインターフェイスではなかったため、一般的な大きな話題とはなりませんでした。
また、GPT3.5からさらに人間による出入力に合わせたチューニングがなされているほか、インターフェイスをサービス化して提供されています。このため、ChatGPTを利用したユーザーのインプットデータ自体もフィードバック学習に利用されていると考えられます。
ChatGPTは後にGPT3.5 turbo0301→GPT3.5 turbo0613 16kとモデルアップデートがなされています。
ChatGPT API
2023年3月1日にChatGPT APIを公開しました。
開発者はChatGPTが公開しているAPIを利用することで、アプリやサービスにChatGPTの機能を組み込むことが可能になりました。
GPT-3.5 turbo
2023年3月に公表されたモデルです。
性能としてはGPT3.5と同等ですが、チャット用に最適化がなされているのとコストが1/10となりました。
GPT-3.5 turboは、2023年6月にGPT-3.5 turbo 16kにモデルアップデートがなされており、文字生成速度が3倍、入力トークンのコストが25%削減されました。
GPT-4
2023年3月14日に公開されたGPTシリーズの最新のモデルです。
このモデルでは、さらにパラメータの数が増え、数千億から数兆個と言われています。
GPT-3.5と比べて非常に高い知識量・言語理解と生成能力を持ち、より人間に近い対話や文章生成が可能となりました。
処理能力も向上しました。GPT3.5は、約5,000文字の処理性能に対し、Chat GPT4.0は約25,000文字までテキスト処理が可能になりました。
また、GPT-4はマルチモーダルAIであり、テキストのみならず画像も処理できるようになりました。
GPT-4 API
GPT4の公開と同時にAPIも公開されました。
開発者はGPT-4が公開しているAPIを利用することで、アプリやサービスにGPT-4の機能を組み込むことが可能になりました。
ChatGPTプラグイン
2023年3月23日、ChatGPTにプラグインのサポートが追加されました。
これによりChatGPTを他のサービスと統合したり、アプリケーションやツールを簡単に組み込むことができるようになりました。
また、ナレッジベース検索プラグインのコードもオープンソース化されました。
合わせて、Webブラウザとコードインタープリの2つのプラグインが発表されました。
Function calling
2023年6月13日にChatGPTに追加された機能です。
これはAPIを通じて関数呼び出しが可能となる機能で、外部データへのアクセスを可能となったことになります。
GPT側が自動的に外部APIや関数を呼び出すか判断し、外部関数等の値を基に回答を生成するようになりました。
Custom Instructions
2023年7月21日にChatGPTに追加された機能です。
ChatGPTに書くプロンプト(指示文)をあらかじめ登録しておける機能になります。制約条件などを事前に登録できるようになりました。
ChatGPTから一般的な答えではなく、専門的な回答を求める場合、前提条件を設定しておくと、専門的な応答が得られやすくなります。
また、どんな振る舞いをしてほしいかも設定することができます。レポート調にしたいなどの指示を与えることができるようになりました。
Code Interpreter
Code interpreterは2023年8月にChatGPTの有料サービスに実装されたプラグインです。話し言葉レベルの指示でプログラムを生成・実行してくれる機能です。
生成されるコードはPython言語で、サーバー上の仮想的なPython実行環境でそのコードが処理され、チャット画面に結果が表示されます。
また、チャット画面に任意のファイルをアップロードでき、そのファイル内のデータを処理するコードの生成、統計データ化なども行えます。テキストデータのみならずPDFのようなバイナリデータも処理することが可能となっています。
GPT-3.5 Turbo モデルがファインチューニングに対応
2023年8月23日にGPT-3.5turboモデルがファインチューニングに対応するようになりました。
モデルを特定のタスクに最適化するための追加学習を可能にしたことで、広範な知識を有するGPTモデルに特定の業界や分野の専門知識を組み込むことが可能となりました。
大量のデータをモデルに追加学習できるので高精度な結果が出やすくなることと、特定タスクに特化しているので、レスポンスが速くなるメリットが生まれました。
ChatGPT Enterprise
2023年8月29日に公開された企業用の最新バージョンのChatGPTです。
ChatGPT Enterpriseでは、GPT-4を2倍のスピードで利用でき、3万2000トークンというChatGPT Plusの4倍の文章を入力・理解することが可能です。
また、大規模利用を想定した管理機能の追加・使い勝手が良い機能の追加・企業でも利用可能なセキュリティレベルがなされています。
GPT-4V
2023年9月25日に発表されたGPT-4モデルです。
マルチモーダルAIとなりました。画像認識機能が加わり画像による対話もできる他、音声入出力も可能です。
異なる種類のデータ情報を組み合わせることで、より質の高い情報収集の他、深い洞察や精緻な予測も可能となりました。
Gpt-3.5-turbo-instruct
2023年9月14日にGPT3.5 turboのバージョンとして公開されました。
しかしながら、チャットに特化したGPT3.5とは少し別物です。Chat GPT3.5 turboと同等の能力を持ちますが、特定の指示を効率的に与えるために設計されました。
GPT3.5 turboと比較して質問に直接答えたり、テキストタスクを迅速に完了することに優れています。一問一答形式の質問に対してはGPT3.5 turbo-instructに優位性があると言えます。
DALL-E 3
2023年9月21日に公開された最新の画像生成AIで、Chat GPTに追加された機能です。テキストプロンプトからその内容を反映した画像を生成するDALLシリーズの最新版です。
従来のものから大幅に性能が向上しており、1024×1024、1024×1792、1792×1024ピクセルの優れた解像度の画像を提供し、より詳細でリアルな画像を実現しました。
さらにプロンプトのニュアンスを理解して入力に忠実な画像を生成するようになりました。
GPT-4 All Tools
2023年10月29日にアップデートされ追加された機能です。
PDFやデータファイルなど、文書や画像をアップロードして直接質問できるようになりました。さらに、情報検索から文書分析・グラフ作成・画像生成まで切り替えなしに1つのチャット内で行うことが可能になりました。
DALL-E 3 API
2023年10月にDALL-E 3のAPIが公開されました。
開発者はDALL-E3が公開しているAPIを利用することで、アプリやサービスにDALL-E 3の機能を組み込むことが可能になりました。
GPT-4 Turbo
2023年11月7日のOpenAI DevDayに発表されたGPT-4の改良版となります。
GPT 4と比べて入力できるトークン数が4倍の128,000トークンになりました。また、学習データも2023年4月まで反映されています。
またFunction Callingの強化の他、「コーディングの精密化」「API経由での画像入力」「API経由で画像生成」「API経由で音声合成」が可能となり、大幅な改良がなされてました。
GPT4 Turbo API
2023年11月7日GPT4 Turboの発表と同時にAPIも公開されました。
開発者はGPT-4 Turbo APIを利用することで、アプリやサービスにGPT-4 Turboの機能を組み込むことが可能になりました。
GPT-4V API
2023年11月7日に発表されたGPT-4 Turbo with visionは、画像認識・分析からの文章生成ができるようになったモデルです。GPT-4V APIとも言われたりしています。GPT-4 Turboとは別物でAPIの形式も異なります。Function CallingやJSONモードは使えません。
Assistants API
Assistants APIは2023年11月7日に発表された機能で、自分が利用しているアプリにAIアシスタントを構築できる機能です。アプリ内に外部の情報を取り入れることで、さまざまなタスクをAIが実行してくれます。
現在は、「Persistent Threads」「Data Retrieval」「code interpreter」の3つのAPIをサポートしていますが、今後はOpenAIが開発したツールを続々とリリースしていく予定です。
GPTs
2023年11月7日に発表されたGPTs(GPT Builder)は、ChatGPTをカスタマイズできる機能で、ソースコードの記述をせずにオリジナルのチャットボットを作成できる機能です。
プログラミングの知識がなくとも独自のカスタマイズが可能となります。
また、GPTsに搭載された「Custom Actions」により、APIを用いて外部データを取得することが可能となっています。
GPT store
2023年11月7日に発表がなされた、ユーザーがカスタマイズしたオリジナルChatGPTアプリ「GPTs」をユーザー間で共有できるサービスです。
当初は「GPT Store」のサービスは11月〜12月に利用可能となる予定でしたが、来年初頭に延期となりました。
参考記事:GPTストアのオープンが来年に延期、開発者から不満噴出
Q*(キュースター)
またOpen AIは次世代のAIを開発しているとのことです。まだ発表はなされていませんが「Q*(キュースター)」と呼ばれています。
Sam Altman氏が「来年(2024年)、AIは誰も予想しなかったレベルにまで大きくジャンプして進化する」と発言したのみで中身は全く公表されていません。
参考記事:OpenAIの謎のプロジェクト「Q*」の正体とは? 渦巻く疑問と不安、そして見えてきたヒント
なお、生成AIについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→生成AIとは何か?仕組みやできることをAI専門家がわかりやすく解説
Open AIの生成AIは今後の進化のケーススタディとなる
以上がOpenAIが開発した生成AIの歴史についての概要です。その進化の過程で自然言語処理の分野のみならず、画像生成能力など様々なタスクが行えるようになり、ますます人間に近い文章を生成する能力を持つようになりました。
OpenAIの生成AIの歴史はAIがどのように進化し、どのように我々の生活に影響を与えるかを理解するための貴重なケーススタディとなっています。これからも生成AIのさらなる進化に注目していきましょう。
生成系AIの業務活用なら!
・生成系AIを活用したPoC開発
・生成系AIのコンサルティング
・システム間API連携
最後に
いかがだったでしょうか?
弊社では
・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、サービス紹介資料もご用意しておりますので、併せてご確認ください。