【GPT 4 Turbo】GPT4の改良モデル!ChatGPT&APIでの使い方や料金、歴代モデルとの違いを解説

GPT-4-Turbo GPT4 改良モデル ChatGPT API 使い方 料金 歴代モデル 違い 解説

ChatGPT APIまで活用しているヘビーユーザーのみなさん、よりハイスペック&ローコストな「GPT 4 Turbo」が登場しました!

生みの親・サムアルトマン氏によるGPT 4 Turboの投稿が以下のとおり、大バズりしています。

それもそのはず。こちらは無印GPT 4で入力できる文字数が4倍になり、API経由でもマルチモーダルに対応しているにも関わらず、利用料金が半額以下に抑えられているんです!

この記事ではそんなGPT 4の改良版・GPT 4 Turboの機能 / 使い方 / いつから使えるのか / 料金…etc.を詳しく紹介していきます。最後まで読んでいただくとWebサイト&アプリ開発の幅が広がるので、ぜひ最後までお読みください!

目次

GPT 4の改良版!GPT 4 Turboの概要

日本時間で2023年11月7日に開催されたOpenAI DevDayで、GPT 4の改良版「GPT 4 Turbo」が発表されました。以下、このGPT 4 Turboのすごいところ&無印GPT 4とのスペックの違いを解説します。

※2024年5月13日以降、最新のGPT 4はGPT 4 Turboの後継にあたる「GPT 4o」になりました。以下、GPT 4oとの違いも注釈でお伝えします。

GPT 4 Turboのすごいところ4つ

GPT 4 Turboのすごいところは以下の4つです。(※1)

  1. 入力できる文字数の増加
  2. API上でのマルチモーダル
  3. 回答の最適化
  4. 利用料金の軽減

ChatGPT API周りの機能が、無印GPT 4比で充実しています。

そんなGPT 4 Turboのすごいところを以下、1つずつ解説していきます。

1.入力できる文字数の増加

GPT 4 Turboからは、GPT 4比で4倍の128,000トークンまで読み込みが可能になりました。本に換算すると300ページ分ものテキストが入力できるとのことです。

2.API上でのマルチモーダル対応

GPT 4 Turbo以降は、ChatGPT API経由で画像入力ができるようになっています。さらにAPI経由で他モデルと組み合わせる使い方も可能で、DALL E3による画像出力機能やTTSによる音声出力機能などが実装できます。

※GPT 4oの場合は、単一モデルでテキスト・画像・音声の入力に対応しています。さらにテキスト・音声の生成についても、GPT 4o単体で可能です。(画像は引き続きDALL E 3が担当)

3.回答の最適化

GPT 4 Turboからは、XMLやJSONなど特定のフォーマットについて、回答での表記が統一できるようになっています。さらに同じ内容の再生成機能も解放されています。

4.利用料金の軽減

GPT 4と比べてGPT 4 Turboでは、ChatGPT APIでの入力料金が1/3以下、出力料金が1/2以下とそれぞれ安くなっています。

※GPT 4oでは、GPT 4 Turbo比でAPIでの入力・出力料金がさらに1/2にプライスダウン。ついに無料版ChatGPTでも使えるようになりました。

以上の概要だけでも、「GPT 4 Turbo」がただものではないということがわかりますね。

さらに次の見出しでは、他のモデルとスペックを比べながら、そのすごさを掘り下げていきます!

GPT 4 Turboと他のモデルのスペックの違いを比較

まずはGPT 4 TurboとOpenAIの他モデルとで、スペックを比較した以下の表をご覧ください。(※2)

スクロールできます
GPT 4o(New!)GPT 4 TurboGPT 4GPT 3.5 TurboGPT 3.5
いつから公開2024年5月13日〜2023年11月7日〜2023年3月14日〜2023年6月13日〜2022年3月15日〜
入力できる文章量128,000トークン128,000トークン最大32,768トークン最大16,385トークン4,096トークン
学習データの鮮度2023年10月まで2023年12月まで(一部モデルは2023年4月まで)2021年9月まで2021年9月まで2021年6月まで
API経由で入力できるデータテキスト&画像&音声テキスト&画像テキストテキストテキスト
API経由で出力できるデータテキスト&画像&音声テキストテキストテキストテキスト

以上のとおり、GPT 4 Turboでは大幅に性能が向上しています。

とくに注目していただきたいのが、「GPT 4とGPT 4 Turboの差」と「GPT 3.5 TurboとGPT 4の差」です。実はGPT 4 Turboにリニューアルするにあたって、モデルチェンジ以上の改修を受けている部分もあるのです!

次はそんなGPT 4 Turboで実現した機能を紹介していきます。

GPT 4 Turboでできるようになったこと7つ

GPT 4 Turboで大きくアップデートされたのは以下の7つの要素です。

  • Function Calling
  • JSON modeなど
  • Reproducible Outputs / Log Probabilities
  • GPT 4 Turbo with vision
  • DALL E 3
  • Text to speech
  • Whisper v3(いつから使えるかは不明)

まずはアップデートを受けたFunction Callingから、その機能をみていきましょう!

【Function Calling】ワンアクションで複雑なアプリ操作ができる!

以前から使えたアプリの関数呼び出し機能「Function Calling」が、GPT 4 Turboにて強化されています!具体的には1回の命令で、複数の関数がまとめて呼び出せるようになりました。さらに呼び出しの精度も向上しています。

たとえばAPI経由でExcelを操作する際、これまでは「一列の合計をSUM関数で出して」と「合計をROUND関数で四捨五入して」というふうに、合計2回の命令が必要でした。

それが今回のアップデートで、「一列の合計を出して四捨五入して」と、ワンアクションで命令するだけで済むようになりました!

【JSON modeなど】より精密なコーディングが可能!

GPT 4にソースコードを生成してもらう際、プログラミング言語の表記がブレることがよくありました。GPT 4が使えるGitHub Copilot Xなどでも同様のトラブルは起こりますよね。

しかしGPT 4 Turboからは、表記のレギュレーションを守ってくれるようになったのです!たとえば常にXMLの文法で回答させたり、正しいJSONを記述させたり(JSON mode)といった使い方が可能です。

先ほどのFunction Callingとあわせて、アプリ開発がより一層簡単になりますね!

【Reproducible Outputs / Log Probabilities】回答の再現性がコントロール可能、生成確率までチェックできる!

GPT 4 Turboの思考過程をハックできる機能も実装されました!具体的には以下の2機能がAPIで使えるようになっています。

  • Reproducible Outputs(再現性のある出力):同じ回答が繰り返し生成できる機能
  • Log Probabilities:トークンの生成確率をさかのぼって確認できる機能

2機能の活用事例・使い方などは紹介されていませんが、どちらもOpenAI社内では好評だったとのこと。エンジニアのみなさん、ぜひぜひこちらもお試しください!

【GPT 4 Turbo with vision】API経由での画像入力もできる!

ついにAPI経由で、画像入力ができるようになりました!画像入力用のAPIはGPT 4Vではなく「GPT 4 Turbo with vision」という名前で追加されています。(正式モデル名はgpt-4-turbo-2024-04-09)

このGPT 4 Turbo with visionを応用すれば、連携先のアプリ&Webサイトからの画像入力が実現します。その活用事例は以下のとおりです。

  • 通販サイトの商品画像から説明を生成させる
  • レジャー施設の館内マップを使って案内させる

後述の音声合成機能「Text to speech」を合わせれば、目の不自由な方に向けた自動ガイダンスも可能。GPT 4 Turbo以降は福祉分野でも、生成AIの利用が進んでいきそうです。

【DALL E 3】API経由で画像生成まで可能!

これは「いつから使えるの?」と待っていた方も多いはず!GPT 4 TurboのAPIと並行して、ChatGPT外でDALL E3が使える「Images API」もリリースされています。

これまでコカコーラなど一部の大企業は、DALL E3を使ったキャンペーンを行っていました。ですがImages APIの登場以降は、誰でも気軽にDALL E3を使ったイベントが開催できるようになるはずです。

ちなみに生成にかかる料金は画像1枚あたり0.04ドル〜0.08ドル、とのことでした。

【Text to speech】人間に近いクオリティの音声がAPI経由で合成できる!

GPT 4 Turboのリリースに伴って、API経由での音声合成機能「Text to speech(TTS)」も解放されています。以降はChatGPT外のWebサイトやアプリでも、コンテンツの音声出力が実現します。

このTTSでは、6つのプリセット音声から好きな声色が設定可能。さらにベースグレードのtts-1のほか、高音質版のtts-1-hdも選べます。

入力料金は1,000文字あたり0.015ドルとのことでした。これならバリアフリーに配慮したWebサイトが作れますね。

【Whisper v3】APIでも使える自動音声認識モデルが近日実装!

Open AIの音声認識機能「Whisper V3」が近々、API経由での利用にも対応するようですが、2024年6月時点ではまだ対応していません。(API版はWhisper v2-large)

GPT 4 TurboのAPIと組み合わせれば、会話形式でWebサイトやアプリが操作できるようになるかもしれません!いつから使えるのかは不明ですが、続報を待ちましょう。

なお、API版のWhisperについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

GPT 4 Turboの料金体系

以上のとおり、スペック面でGPT 4から大幅な進化を遂げたGPT 4 Turbo。その分、利用料金が高くなっていそうですが……実はそうでもありません!

スクロールできます
GPT 4o(New!)GPT 4 TurboGPT 4(32K版)GPT 4(8K版)
入力にかかる料金0.005ドル / 1000トークン0.01ドル / 1000トークン0.06ドル / 1000トークン0.03ドル / 1000トークン
出力にかかる料金0.015ドル / 1000トークン0.03ドル / 1000トークン0.12ドル / 1000トークン0.06ドル / 1000トークン

このように、ベーシックな8K版のGPT 4と比べても利用料金が大幅に安くなっているんです!(※3)具体的なコストの違いはというと……

  • GPT 4(8K版)と比べて入力料金が1/3・出力料金が1/2
  • GPT 4(32K版)と比べて入力料金が1/6・出力料金が1/4

このようにGPT 4からGPT 4 Turboに乗り換えるだけで、入力&出力にかかる合計料金が半分以下に抑えられます。(最新モデル GPT 4oでは、料金がさらに半減!)

ちなみにChatGPTで旧モデルのGPT 4 Turboを使いたい場合は、有料プラン(ChatGPT Plus / Team / Enterprise)への加入が必須。各プランの料金と特典の違いは……

スクロールできます
ChatGPT PlusChatGPT TeamChatGPT Enterprise
料金月額20ドル月額25ドル(年払い)月額30ドル(月払い)ASK
特典・GPT 4oの利用上限が無料5倍に拡大・GPTsが作成可能に・DALL E3が作成可能に・Plusまでの特典一式が付属・ワークスペースでの共有が可能に・入力が学習に転用されなくなる・Teamまでの特典一式が付属・各モデルへのアクセスが無制限に・大量のデータ入力にも対応

以上のとおりです。(※4)

なお、最新モデルGPT 4oの活用事例について詳しく知りたい方は、下記の記事を合わせてご確認ください。

GPT 4 Turboの使い方

ここからはGPT 4 Turboの使い方を紹介していきます。2024年6月時点で、GPT 4 Turboを使う手段は……

  • 有料版ChatGPT(Plus / Team / Enterprise)
  • ChatGPT API

以上2つのみ。まずは手軽な有料版ChatGPTでの使い方から、詳しくみていきましょう!

有料版ChatGPTでのGPT 4 Turboの使い方

有料版ChatGPTでのGPT 4 Turboの使い方は簡単です。まずは以下のリンクからChatGPTにアクセスして、有料版(Plus / Team / Enterprise)に契約しているアカウントでログインしてください。

ChatGPT

続いてログイン後のホーム画面からは……

参考:ChatGPT

チャットルーム左上のモデル名をクリック!最後に上図赤枠部分の「GPT-4」を選択するとGPT 4 Turboとのチャットが可能になります。

ChatGPT APIでのGPT 4 Turboの使い方

2024年6月時点では、ChatGPT APIからもGPT 4 Turboが利用できます。

ちなみに使用できるモデルは……

  • gpt-4-turbo / gpt-4-turbo-2024-04-09(画像入力対応)
  • gpt-4-0125-preview
  • gpt-4-1106-preview

の3種類。

APIは以下の3ステップで利用できます。

1.OpenAIのアカウント取得
2.APIキーの取得
3.プログラミング言語でAPIを利用(Python)

ということで、ここからは各手順について詳しくみていきましょう!

1.OpenAIアカウントの開設

OpenAIアカウントを開設する為に以下のサイトにアクセスして下さい。

OpenAI API

真ん中の「Get started」をクリックして、BOTではないかの認証があるのでクリックして次に進んでください。 

アカウント作成に必要なフォームが表示されるので、必要情報を入力してアカウントを作成します。 メールアドレスのサインアップの他、GoogleアカウントかMicrosoftアカウントの認証を利用することも可能です。 

パスワードや簡単な質問に回答する必要があるので、アナウンスに従って入力します。 サインアップには電話認証が必要になるので事前にSMSが利用可能な電話番号を用意して下さい。

2.APIキーの発行

アカウントを作成したら以下のサイトにアクセスしてAPIキーを取得する為に「+ Create new secret Key」をクリックして下さい。 OpenAPI-keys

発行されたAPIキーは、あとで利用するので保存しておいて下さい。

3.プログラミング言語でAPIを利用(Python)

最後にプログラミング言語でAPIを利用します。 今回はPythonを利用してみました。

openai のインストール

まずPythonで利用する為のライブラリをインストールします。

コマンドラインで、

pip3 install openai

windowsの場合は、

pip install openai

これでAPIを利用する準備ができました。

以下はサンプルコードです。

Pythonプログラム

import openai

openai.api_key = "YOUR_API_KEY" #前述で発行したAPIをKeyに置き換えてください

response = openai.ChatCompletion.create(

    model="gpt-4-1106-preview",

    messages=[

        {"role": "user", "content": "質問内容をここに書きます"}, 

    ]

)

print(response["choices"][0]["message"]["content"]) #返信のみを出力

なお、GPT-4 Turboを利用できるのは、ChatGPT plusなどのGPT-4にアクセスできる方のみですのでご注意ください。

GPT 4 Turboを実際に使ってみた

それでは早速GPT 4 Turboを使っていきます。ここでは、新たに利用可能になったGPT-4 Turbo with Vision APIや、Parallel function callingJSON Modeなどを試します。

GPT-4 Turbo with Vision API

まずは、APIでの利用が可能になったGPT-4 Turbo with Visionから使っていきます。

以下のMandrill.pngを送信します。

b64=$(base64 Mandrill.png | tr -d '\\n')

payload='{

    "model": "gpt-4-vision-preview",

    "messages": [

      {

        "role": "user",

        "content": [

          {

            "type": "text",

            "text": "この画像、どう思う?"

          },

          {

            "type": "image_url",

            "image_url": {

              "url": "data:image/png;base64,'"$b64"'"

            }

          }

        ]

      }

    ],

    "max_tokens": 300

  }'

echo $payload | curl <https://api.openai.com/v1/chat/completions> \\

  -H "Content-Type: application/json" \\

  -H "Authorization: Bearer $OPENAI_API_KEY" \\

  --data-binary @-

{

  "id": "chatcmpl-8ISJDxrAR1oCfS6O6WqmwCl6uq3Vr",

  "object": "chat.completion",

  "created": 1699409415,

  "model": "gpt-4-1106-vision-preview",

  "usage": {

    "prompt_tokens": 271,

    "completion_tokens": 186,

    "total_tokens": 457

  },

  "choices": [

    {

      "message": {

        "role": "assistant",

        "content": "この画像は、鮮やかな色彩のマンドリルの顔をクローズアップしたものです。マンドリルは、その特徴的な赤と青の顔色と、黄色がかった毛皮で知られる霊長類です。彼らは社会性が高く、アフリカの熱帯雨林に生息しています。画像は非常に鮮明で、マンドリルの顔の細部をはっきりと捉えています。自然の美しさと野生動物の多様性を感じさせるすばらしい写真ですね。"

      },

      "finish_details": {

        "type": "stop",

        "stop": "<|fim_suffix|>"

      },

      "index": 0

    }

  ]

}

モデルに入力して実行すると、以下のテキストが出力されました。

この画像は、鮮やかな色彩のマンドリルの顔をクローズアップしたものです。

マンドリルは、その特徴的な赤と青の顔色と、黄色がかった毛皮で知られる霊長類です。

彼らは社会性が高く、アフリカの熱帯雨林に生息しています。画像は非常に鮮明で、マンドリルの顔の細部をはっきりと捉えています。

自然の美しさと野生動物の多様性を感じさせるすばらしい写真ですね。

非常に詳細で綺麗な文章が返ってきました。

画像の説明だけでなく、それがマンドリルであることを認識して、種の特徴まで説明してくれています。

これだけでも高性能なのが伝わってきますね!

Parallel function calling

続いて、Parallel function callingを使用します。

詳細は以下のページを参照してみてください。

parallel-function-calling

function callingのスキーマは複雑になりがちなので、Pythonを使用します。

既存のfunction callingとは違い、toolとして差別化されているようです。

import openai  # 1.1.1

import json

funcs = [

    {

        "type": "function", "function":  {

            "name": "buy_item",

            "description": "商品を買う",

            "parameters": {

                "type": "object",

                "properties": {

                    "item": {

                        "type": "string",

                        "description": "商品名",

                    },

                    "quantity": {

                        "type": "number",

                        "description": "購入する商品の数",

                    }

                },

                "required": ["item","quantity"],

            },

        }

    }

]

message = """牛乳を1つ買ってきてちょうだい。卵も6つお願い"""

client = openai.OpenAI()

response = client.chat.completions.create(

    messages=[

        {

            "role": "user",

            "content": message

        }

    ],

    model="gpt-4-1106-preview",

    tools=funcs

)

tool_calls = response.choices[0].message.tool_calls

for call in tool_calls:

    args = json.loads(call.function.arguments)

    print(args["item"], args["quantity"])

JSON Mode

次に、新たに追加されたJSON Modeを使用していきます。

json-mode

以下のように、要件定義書を与えてWeb API設計書をJSON形式で出力してもらいます。

import openai  # 1.1.1

system = """

# 命令書

あなたはウェブエンジニアです。要件定義書が与えられるので、下記の制約条件に従って必要なWeb APIの設計書を出力してください。

# 制約条件

- [要件定義書]に準拠すること

- [API設計書形式]に合わせたJSONで出力すること

- GET/POST/PUT/DELETE、それぞれ別のAPIとして扱うこと

# API設計書形式の例

```json

{

    apis: [

        {

            name: "ユーザー登録",

            description: "ユーザーを登録する",

            method: "POST",

            path: "/users",

            request: ユーザー情報,

            response: ユーザーID

        }

    ]    

}

```

"""

message = """

# 要件定義書

ToDoアプリの設計書(概略版)

1. 概要

この文書は、シンプルなToDoアプリの基本的な設計を記述します。アプリは、ユーザーがタスクを簡単に追加、管理、完了としてマークできる機能を提供することを目的とします。

2. 機能要件

- **タスクの追加**: ユーザーは新しいタスクを追加できる。

- **タスクの一覧表示**: 追加されたタスクが一覧で表示される。

- **タスクの編集**: ユーザーは既存のタスクを編集できる。

- **タスクの削除**: ユーザーはタスクを削除できる。

- **タスクの完了**: ユーザーはタスクを完了としてマークできる。

- **フィルタリング**: 完了したタスクと未完了のタスクを分けて表示できる。

3. 非機能要件

- **使いやすさ**: インターフェースは直感的で簡単に使えるものでなければならない。

- **パフォーマンス**: タスクの追加、編集、削除は迅速に行われる。

- **拡張性**: 将来的な機能追加に対応できる設計であること。

4. システムアーキテクチャ

- **クライアント**: スマートフォンやウェブブラウザで動作するフロントエンド。

- **サーバー**: タスクのデータを保持し、クライアントとのやり取りを行うバックエンドサーバー。

5. 技術スタック

- フロントエンド: ReactまたはVue.js

- バックエンド: Node.js + Express

- データベース: MongoDBまたはPostgreSQL

6. ユーザーインターフェース

- **タスク一覧画面**: タスクがリストアップされる。

- **タスク追加モーダル**: タスクを追加するためのポップアップモーダル。

- **タスク編集インターフェース**: 既存タスクを編集するためのインターフェース。

- **フィルタリングオプション**: 完了/未完了を切り替えるためのUIコンポーネント。

7. データモデル

- **タスク**: 

  - ID

  - タイトル

  - 説明

  - 完了状態

  - 作成日時

  - 更新日時

8. セキュリティ

- **認証**: ユーザーはアカウントを作成し、ログインすることでタスクを管理できる。

- **データ保護**: HTTPSを使用してデータを暗号化し、データベースは定期的にバックアップする。

9. 開発とデプロイ

- 開発にはGitを使用し、ソースコードはGitHubに保管する。

- デプロイにはHerokuまたはAWSを使用する。

10. テスト

- 単体テスト: 各機能に対して単体テストを行う。

- 統合テスト: 全体のワークフローが正常に機能するかのテストを行う。

- ユーザーアクセプタンステスト: 実際のユーザーがテストを行い、使用感を評価する

"""

client = openai.OpenAI()

response = client.chat.completions.create(

    messages=[

        {

            "role": "system",

            "content": system

        },

        {

            "role": "user",

            "content": message

        }

    ],

    model="gpt-3.5-turbo-1106",

)

print(response.choices[0].message.content)

出力されたものがこちらです。

```json

{

    "apis": [

        {

            "name": "タスクの追加",

            "description": "新しいタスクを追加する",

            "method": "POST",

            "path": "/tasks",

            "request": {

                "title": "string",

                "description": "string"

            },

            "response": {

                "taskId": "string"

            }

        },

        {

            "name": "タスクの一覧表示",

            "description": "追加されたタスクを一覧で表示する",

            "method": "GET",

            "path": "/tasks",

            "request": null,

            "response": [

                {

                    "taskId": "string",

                    "title": "string",

                    "description": "string",

                    "completed": "boolean",

                    "createdAt": "string",

                    "updatedAt": "string"

                }

            ]

        },

        {

            "name": "タスクの編集",

            "description": "既存のタスクを編集する",

            "method": "PUT",

            "path": "/tasks/{taskId}",

            "request": {

                "title": "string",

                "description": "string",

                "completed": "boolean"

            },

            "response": {

                "message": "string"

            }

        },

        {

            "name": "タスクの削除",

            "description": "タスクを削除する",

            "method": "DELETE",

            "path": "/tasks/{taskId}",

            "request": null,

            "response": {

                "message": "string"

            }

        },

        {

            "name": "タスクの完了",

            "description": "タスクを完了としてマークする",

            "method": "PUT",

            "path": "/tasks/{taskId}/complete",

            "request": null,

            "response": {

                "message": "string"

            }

        },

        {

            "name": "タスクの未完了へ変更",

            "description": "完了済みのタスクを未完了に変更する",

            "method": "PUT",

            "path": "/tasks/{taskId}/incomplete",

            "request": null,

            "response": {

                "message": "string"

            }

        }

    ]

}

しっかりとしたJSON形式で出力してくれました。

なお、JSONモードオフでは以下のような出力でした。

# API設計書

```json

{

    "apis": [

        {

            "name": "タスクの追加",

            "description": "新しいタスクを追加する",

            "method": "POST",

            "path": "/tasks",

            "request": {

                "title": "string",

                "description": "string"

            },

            "response": {

                "taskId": "string"

            }

        },

        {

            "name": "タスク一覧取得",

            "description": "追加されたタスクを一覧で表示する",

            "method": "GET",

            "path": "/tasks",

            "request": null,

            "response": [

                {

                    "taskId": "string",

                    "title": "string",

                    "description": "string",

                    "completed": "boolean",

                    "createdAt": "string",

                    "updatedAt": "string"

                }

            ]

        },

        {

            "name": "タスクの編集",

            "description": "既存のタスクを編集する",

            "method": "PUT",

            "path": "/tasks/{taskId}",

            "request": {

                "title": "string",

                "description": "string",

                "completed": "boolean"

            },

            "response": {

                "message": "string"

            }

        },

        {

            "name": "タスクの削除",

            "description": "タスクを削除する",

            "method": "DELETE",

            "path": "/tasks/{taskId}",

            "request": null,

            "response": {

                "message": "string"

            }

        }

    ]    

}

上記のAPI設計書では、要件定義書に記載されている機能要件に基づいて、タスクの追加・一覧取得・編集・削除それぞれのAPIを定義しました。それぞれのAPIは、適切なメソッドとパスを持ち、リクエストとレスポンスのデータ構造も示しています。

DALLE-3 API

画像生成モデルであるDALLE-3もAPIで利用可能になったので、こちらも使用してみます。

## DALLE-3 API

画像生成モデル。

```bash

curl <https://api.openai.com/v1/images/generations> \\

  -H "Content-Type: application/json" \\

  -H "Authorization: Bearer $OPENAI_API_KEY" \\

  -d '{

    "model": "dall-e-3",

    "prompt": "WEELというAIメディアを運営している会社の写真。",

    "n": 1,

    "size": "1024x1024"

  }' | jq -r '.data[0].url' | xargs curl -o out.png

{

  "created": 1699409960,

  "data": [

    {

      "revised_prompt": "An image of an office environment where the AI media named 'WEEL' is being run. The workplace is modern and filled with high-tech gadgets. Employees are scattered across the space, engaged in their tasks - some are in conference rooms brainstorming, others are at their desks coding. Representation includes a variety of genders and descents such as Caucasian, Hispanic, Middle-Eastern, Black, and South Asian equally distributed.",

      "url": "xxxxxx"

    }

  ]

}

プロンプト

WEELというAIメディアを運営している会社の写真。

以下の画像と改訂されたプロンプトが出力されました。

An image of an office environment where the AI media named 'WEEL' is being run. The workplace is modern and filled with high-tech gadgets. Employees are scattered across the space, engaged in their tasks - some are in conference rooms brainstorming, others are at their desks coding. Representation includes a variety of genders and descents such as Caucasian, Hispanic, Middle-Eastern, Black, and South Asian equally distributed.

相変わらず超高精度な画像を生成してくれますね。

短いプロンプトからこれだけの情報を持つ正確なプロンプトを生成し、画像に反映してくれるのはすごいですよね!

TTS

音声合成機能「Text to speech(TTS)」がAPIで使えるようになっていたので、こちらも使用してみます。

curl https://api.openai.com/v1/audio/speech \ 

-H "Authorization: Bearer $OPENAI_API_KEY" \ 

-H "Content-Type: application/json" \ 

-d '{ 

 "model": "tts-1", 

 "input": "ウィールはAIメディアを運営しています。", 

 "voice": "alloy"

}' \ 

--output out.mp3

こちらで音声が出力されました!

このように、単にLLMとしての性能が向上しただけでなく、新機能の追加やマルチモーダル機能との連携が強化されており、本当に唯一無二のマルチモーダルAIモデルに進化したな、という印象です。

なお、日本語特化の音声生成AIについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

より汎用性に磨きがかかったGPT 4 Turbo

この記事では、さらなる進化を遂げたGPT 4 Turboを紹介しました。

もう一度GPT4 Turboのすごいところ4つを復習しておきましょう!

  • 入力できる文字数の増加:GPT 4(32K版)の4倍、最大128kトークンまで入力可能に
  • API上でのマルチモーダル対応:API経由でも画像の入力、ならびに画像&音声の出力が可能に
  • 回答の最適化:同一内容の再生成やソースコードの表記統一が可能に
  • 利用料金の軽減:8K版のGPT 4と比べても、半額以下で入力&出力が可能に

このように、スペックを大幅に向上させつつも、運用コストは半額以下に抑えてくれています。

そして、今回増えた機能は以下の7つです。

  • ワンアクションでの複雑なアプリ操作
  • より精密なコーディング
  • 回答の再現性のコントロール
  • API経由での画像入力
  • API経由での画像生成
  • API経由での音声出力
  • API経由での音声認識(近日実装)

当メディアでは引き続き、GPT 4シリーズの動向を追って参ります!

企業から個人まですごい活用事例を紹介していく予定ですので、ぜひ引き続きチェックしてくださいね。

サービス紹介資料

生成系AIの業務活用なら!

・生成系AIを活用したPoC開発

・生成系AIのコンサルティング

・システム間API連携

最後に

いかがだったでしょうか?

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
ハルシネーション対策AIツールの開発
自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • 2sc

    テクニカルライター 大学時代はアリの生態を研究。 ラボで唯一、Pythonを使ってデータ分析を効率化していた。 現在はライターとして、オウンドメディアや学術記事の執筆に当たっている。

  • URLをコピーしました!
  • URLをコピーしました!
目次