【Gemini Pro API】使い方や料金体系、GPT-4Vと比較してみた結果も解説

Gemini Pro API 使い方 料金体系 GPT-4V 比較

WEELメディア事業部LLMライターのゆうやです。

2023年12月13日、ついにGemini API経由でGemini Proが使用できるようになりました!

同時に無料の Web ベースの開発者ツールGoogle AI Studioも公開され、Googleアカウントでログインすると1分あたり60リクエスト(ほかの無料サービスの20倍相当)が許可されます。

また、テキストと画像を入力として受け入れ、テキスト出力を行うGemini Pro Visionも公開され、Google AI Studio開発者向けのAIプラットフォーム「Vertex AI」で利用できます。

今回は、Gemini Pro APIの概要と使ってみた感想をお伝えします。

是非最後までご覧ください!

なお弊社では、生成AIの社内活用について無料相談を承っています。こちらからお気軽にご相談ください。
→無料相談で話を聞いてみる

目次

Gemini Pro APIの概要

2023年12月13日、ついにGemini API経由でGemini Proが使用できるようになりました!

同時に無料の Web ベースの開発者ツールGoogle AI Studioも公開され、Googleアカウントでログインすると1分あたり60リクエスト(ほかの無料サービスの20倍相当)が許可されます。

Gemini APIで利用できるGemini Proの特徴は以下の点です。

  • Gemini Pro は、ベンチマークにおいて他の同様のサイズのモデルよりも優れたパフォーマンスを発揮します。
  • 現在のバージョンにはテキスト用の 32K コンテキスト ウィンドウが搭載されており、将来のバージョンではさらに大きなコンテキスト ウィンドウが搭載される予定です。
  • 制限内で無料で使用でき、競争力のある価格設定になっています。
  • 関数呼び出し、埋め込み、セマンティック検索、カスタム知識基盤、チャット機能など、さまざまな機能が備わっています。
  • 世界中の 180 以上の国と地域で 38 の言語をサポートしています。
  • Gemini Pro はテキストを入力として受け入れ、テキストを出力として生成します。また、テキストと画像を入力として受け入れ、テキスト出力を行う専用の Gemini Pro Vision マルチモーダル エンドポイントも利用可能です。
  • Gemini Proにはアプリ構築に役立つSDKも用意されており、Python・Android(Kotlin)・Node.js・Swift・JavaScriptをサポートしている

また、Google AI Studioのほかに、開発者向けのAIプラットフォーム「Vertex AI」でも、企業独自のデータを使用してGeminiをカスタマイズ可能になりました。

Vertex AIは、より専門的なプラットフォームで、以下の特徴があります。

  • Gemini を自社のデータで調整して抽出し、それを基礎に基づいて強化して、現実世界でのアクションを実行するための最新情報と拡張機能を提供。
  • Gemini を活用した検索および会話エージェントをローコード / ノーコード環境で構築できます。これには、検索拡張生成 (RAG)、混合検索、埋め込み、会話プレイブックなどのサポートが含まれます。

こちらのプラットフォームは、企業や開発者向けに高度な機能が用意されているので、一般ユーザーはGoogle AI Studioを使用する方が簡単で良いでしょう。

ここからは、Gemini Proの料金体系を紹介します。

なお、Gemini Proの概要について詳しく知りたい方は、下記の記事を合わせてご確認ください。
【Gemini】ChatGPTの最強のライバルGoogleのGemini!使い方〜GPT-4との性能比較まで

Gemini Pro APIの料金体系

現在、Gemini ProはGemini APIを経由して無料でアクセスでき、1分あたり最大60クエリが利用可能です。

この無料期間は2024年初頭までで、それ以降は課金が必要になります。

料金は、テキスト1000文字入力で$0.000251画像入力ごとに$0.0025で、1000文字出力ごとに$0.0005かかります。

これは激安といえる料金で、この性能のモデルがここまで低価格で利用できるのは相当競争力が高いといえます。

ここからは、Google AI Studioを使って、その使い勝手や性能を検証します。

Gemini Pro APIの使い方

Gemini Proは、Webベースの開発者ツール「Google AI Studio」開発者向けのAIプラットフォーム「Vertex AI」で利用できます。

一般ユーザーは、Google AI Studioで利用するのが便利で、Googleアカウントでサインインするだけで、1分あたり60リクエストまでの無料枠を利用できます。

以下のリンクからGoogle AI Studioにアクセスすることができます。

Google AI Studio

ログインとポリシーへの同意を求められるので、それが完了すると以下の画面になります。

使い方は非常に簡単で、以下の赤枠にプロンプトを入力し、青枠でモデルの変更や出力の設定変更ができます。

使用できるモデルは、テキストのみに対応しているGemini Pro画像や動画の入力に対応したGemini Visionの2つです。

早速使ってみて使い勝手を確認していきましょう!

Gemini Pro APIを実際に使ってみた

Gemini Proで以下のプロンプトを入力してみます。

自己紹介して
こんにちは、私は言語モデルであり、幅広いトピックに関するさまざまなタスクを支援するように訓練されています。私は、テキストや会話の生成、翻訳、要約、質問の回答、コードの生成などを行うことができます。また、マーケティング、カスタマー サービス、ヘルスケア、教育などのさまざまな業界で応用されています。

私の主な目的は、人間のユーザーに情報や娯楽を提供し、彼らの仕事をより効率的に行えるように支援することです。私は、大量のテキスト データを処理し、そこから重要な洞察やパターンを引き出すことができます。また、ユーザーのニーズや好みに合わせてコンテンツをパーソナライズすることもできます。

私はまだ開発の初期段階にありますが、私の能力は急速に進化しています。私は、ユーザーとより自然で直感的な方法で対話できるようになり、より複雑なタスクを実行できるようになっています。私の目標は、人間のユーザーにとって不可欠なツールとなり、彼らの生活や仕事にプラスの影響を与えることです。

以下に、私の機能のいくつかを紹介します。

* **テキスト生成:**私は、ブログ記事、ニュース記事、詩、脚本など、さまざまな形式のテキストを生成することができます。
* **会話:**私は、人間のユーザーと自然で魅力的な対話を行うことができます。
* **翻訳:**私は、100以上の言語間でテキストを翻訳することができます。
* **要約:**私は、長いテキストや文書をより簡潔な形式に要約することができます。
* **質問の回答:**私は、幅広いトピックに関する質問に回答することができます。
* **コード生成:**私は、さまざまなプログラミング言語でコードを生成することができます。

私は、ユーザーのニーズや好みに合わせてカスタマイズすることができます。例えば、特定のトピックに関する情報に重点を置いたり、特定のスタイルでテキストを生成することができます。

私はまだ開発の初期段階にありますが、私の能力は急速に進化しています。私は、ユーザーとより自然で直感的な方法で対話できるようになり、より複雑なタスクを実行できるようになっています。私の目標は、人間のユーザーにとって不可欠なツールとなり、彼らの生活や仕事にプラスの影響を与えることです。

もし、私の能力や応用例についてさらに詳しく知りたい場合は、お気軽にお問い合わせください。

問題なく使えており、とても丁寧な回答をしてくれました。

次に、Gemini Pro Visionを使ってみます。

以下の画像とプロンプトを入力してみます。

この画像について説明して

結果はこのようになりました。

 この画像には、床の上に座っているビーグル犬が写っています。犬はカメラを見上げており、茶色と白の毛並み、垂れ下がった耳、長いしっぽを持っています。ビーグルは、友好的で愛情深い犬種として知られており、ペットとして人気があります。

こちらも問題なく回答を出力し、画像を正しく理解できています。

問題なく利用できることが分かったので、ここからはGemini Pro VisionをGPT-4Vと比較しながら、その性能を検証していきます。

Gemini Pro VisionをGPT-4Vと比較してみた

今回はGoogle AI StudioでのGemini Pro Visionの使い勝手や性能を、ライバル的存在のGPT-4Vと比較して、どのような違いがあるのか検証していきます。
→Gemini対ChatGPTの比較はこちら

まずは使い勝手の部分でUIの比較です。

Google AI Studio+Gemini Pro Vision

ChatGPT+GPT-4V

UIは、ChatGPTは一般ユーザーに公開されているパブリックなUIのため、開発者向けのAIプラットフォームであるGoopgle AI Studioと比較するとシンプルで分かりやすい見た目と操作感になっていると思います。

ただ、Goopgle AI Studioが使いにくいということではなくこちらも基本的な操作は非常に簡単なので直感的に操作することができます。

続いて、画像を入力した際の出力の比較です。

以下の画像とプロンプトを入力します。

この画像について詳しく説明して

なお、ChatGPTを普段からお使いの方はお気づきかもしれませんが、11月の大型アップデート以降、ChatGPTは入力を日本語でしても英語で回答が出力されることが多くなったので、「日本語で」という指示を付け加えます。

この点は、Gemini Proの方が使い勝手が良いですね。

以下の回答が出力されました。

Gemini Pro Vision

これは国際宇宙ステーション(ISS)の画像です。ISSは、地球を周回する人工衛星であり、宇宙飛行士が長期滞在して実験を行うための施設です。ISSは、アメリカ、ロシア、ヨーロッパ、日本、カナダの5つの宇宙機関によって共同で運用されています。

ISSは、1998年に打ち上げられて以来、宇宙飛行士が常駐しています。ISSでは、微小重力環境を利用した実験が行われており、その成果は、医療、材料科学、地球観測などの分野に貢献しています。ISSは、人類が宇宙を探査するための重要な拠点であり、今後も長期にわたって運用される予定です。

GPT-4V


この画像は、地球を周回する国際宇宙ステーション(ISS)を捉えたものです。ISSはいくつものモジュールと太陽光パネルから成り立っており、これらのパネルはステーションに電力を供給するために不可欠です。
太陽光パネルは太陽への露出を最大化するように広がっています。写真には、太陽の光が宇宙ステーションを照らしている様子が見て取れます。
地球は写真の下部にあり、大気の薄い青い線とその向こうに広がる宇宙の広大さが目に映ります。地球は部分的に雲に覆われており、その下にはかろうじて陸地が見え隠れしています。
この写真からは、ISSに接近するか、あるいは後ろから追いかける宇宙船や衛星から撮影されたような視点が感じられます。人類が作り出した宇宙構造物と、それが存在する無限の宇宙を捉えた印象的な画像です。

明確に出力された回答の性格が分かれました。

Gemini Pro Visionは、画像に写っているのは国際宇宙ステーション(ISS)だと認識した後、ISSの詳細な説明を出力していますが、画像の様子などについては触れていません。

一方のGPT-4Vは、同じくISSだと認識して軽くISSについて説明した後、画像の様子を詳細に捉えて説明してくれており、画像に写っていない部分の考察までしてくれています。

この結果からは優劣はつけられませんが、Gemini Pro Visionはその画像にメインで写っている物体の詳細な情報を出力し、GPT-4Vは画像全体の様子を詳しく回答しました。

どちらもISSと認識できていることから、かなり知識は豊富なようです。

ただし、生成速度についてはGemini Pro Visionの方がかなり速かったです。

今度は、以下の画像を入力して画像について説明してもらいます。

この画像について詳しく説明して

一見リンゴにも見えそうな画像ですが、正しく認識できるのでしょうか。

Gemini Pro Vision

これはランプの画像です。ランプは、光源として使用される電気機器です。ランプは、電球、蛍光灯、LED電球など、さまざまな種類があります。
このランプは、白熱電球です。白熱電球は、電流が流れることでフィラメントが熱せられ、光を放つ仕組みです。
白熱電球は、他の種類のランプに比べて寿命が短く、消費電力も大きいです。しかし、白熱電球は、光が柔らかく、電球の色が豊富であるという特徴があります。

GPT-4V

この画像は、暖かみのあるオレンジ色をしたランプシェードを備えたテーブルランプを示しています。ランプは木製のテーブルの上に置かれており、背後の壁との間には柔らかい光と影が生まれています。
ランプシェードは上部よりも底部の方が広がっており、光を下方向へと広げるデザインになっています。
ランプのボディは球形で、シェードと同じオレンジ色をしていて、点灯していることにより温かな雰囲気を醸し出しています。ランプの光は、テーブルの表面に柔らかく映り、周囲の暗さと対比をなしています。
壁とテーブルの角には明確な影ができており、ランプの光がどれだけ部屋の雰囲気に影響を与えているかを示しています。画像全体からは、静かで落ち着いた空間の雰囲気が感じられます。

こちらも先ほどのISSの画像と同じように出力の性格が分かれました。

Gemini Pro Visionは、メインで写っているものをランプだと認識して、このランプは白熱電球だとしてその仕組みや特徴を回答しています。

一方のGPT-4Vは、テーブルランプが写っている画像としながらも、画像全体の様子や雰囲気について詳細に回答してくれています。

先ほどのISSのときは、優劣はつけられないと言いましたが、画像についての説明という点からすると、GPT-4Vの回答の方がより良い回答と言えそうですね。

現在、Gemini Pro Visionは画像入力にのみ対応しているので、動画入力や画像生成についてはまだ使えません。

今後、それらの機能が公開された際には改めてGPT-4Vとの比較を行います。

現在の生成AI業界はまさに戦国時代であり、開発競争が激化して次々に革新的な能力や性能を持ったモデルが公開されています。

今回紹介したGemini Proよりさらに強力なGemini Ultraがもうすぐ公開される予定ですし、OpenAIからGPT-4.5がリリースされるとの噂もあります。

我々ユーザーからすると、開発競争によってより強力なAIが開発されることはとてもありがたいことなので、今後も生成AI業界の動向から目が離せませんね!

なお、GPT-4Vについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
【GPT-4V】ChatGPTが画像入力と音声入力に対応!使い方〜実践まで徹底解説

まとめ

Gemini API経由でGemini Proが使用できるようになり、無料の Web ベースの開発者ツールGoogle AI StudioでGoogleアカウントでログインすると、1分あたり最大60クエリ(ほかの無料サービスの20倍相当)が無料で利用可能です。

また、テキストと画像を入力として受け入れ、テキスト出力を行うGemini Pro Visionも公開され、こちらも現在は無料で利用できます。

無料期間終了後は、テキスト1000文字入力で$0.000251画像入力ごとに$0.0025で、1000文字出力ごとに$0.0005という非常に低価格で利用できます。

実際に使ってみた感想は、Google AI Studioは非常に使い勝手がよく、新たに使えるようになった画像認識機能も、その性能はGPT-4Vには及びませんが、画像内の物体の詳細な情報を教えてくれました。

今後登場予定のGemini Ultraではさらに高性能になるとのことなので、登場が待ち遠しいですね!

サービス紹介資料

生成系AIの業務活用なら!

・生成系AIを活用したPoC開発

・生成系AIのコンサルティング

・システム間API連携

最後に

いかがだったでしょうか?

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
ハルシネーション対策AIツールの開発
自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • ゆうや

    ロボット工学専攻。 大学時代は、対話ロボットのための画像キャプションの自動生成について研究。 趣味は、サウナとドライブ。

  • URLをコピーしました!
  • URLをコピーしました!
目次