【Project Mariner】GoogleChromeの操作を自動化するブラウザ用AIエージェントを解説
- Gemini 2.0を搭載したGoogleのブラウザ用AIエージェント
- Chromeブラウザ上での操作(リサーチ、データ入力、繰り返し作業など)をプロンプトひとつで実行
- マルチモーダル(テキスト、音声、画像、フォーム、画面上の要素など)を理解して処理が可能
WEELメディア事業部AIライターの2scです。
みなさん!GoogleがChromeの操作を自動化するブラウザ用AIエージェント「Project Mariner」を発表しました!
こちらは現在開発中なのですが、「Webサイトでのリサーチ」「スプレッドシートへの記入作業」などなど、ブラウザ上の面倒ごとをプロンプトひとつで自動化してくれるようなんです。
当記事では、そんなProject Marinerの特徴や活用シーンを紹介。完読いただくと、次に来るAIツールの予習ができます。
ぜひぜひ、最後までお読みくださいね!
Project Marinerの概要
2024年12月11日、Googleは最新のLLM「Gemini 2.0」と同時に、それを搭載したブラウザ用AIエージェント「Project Mariner」を発表しました。(※1、2、3)こちらはなんと、Chromeブラウザの操作をプロンプトひとつで自動化してくれる、というものになっています。
そんなProject Marinerの具体的な特徴は下記のとおりです。
- Gemini 2.0搭載のブラウザ用AIエージェント
- テキスト / コード / 画像 / フォーム…etc.ブラウザ画面上の要素を理解
- 音声による命令も理解
- プロンプトひとつでブラウザの操作を自動化
- 個人情報の入力 / 商品購入 / 規約同意…etc.重要な判断はユーザーに引き継ぎ
- ブラウザ操作能力のベンチマーク「WebVoyager」で83.5%ものスコアを記録
- Chrome拡張機能として、一部テスターに公開中
Project Marinerは現時点で、Googleに選ばれたテスターのみが使える、研究プロトタイプの段階にあります。ですが今後、ブラウザ世界シェアNo.1のChromeに本格実装されることで、ChatGPTを超えるユーザーを集めるかもしれません。要注目の生成AI系サービスですね。
なお、Gemini 2.0の最速モデルについて詳しく知りたい方は、下記の記事も合わせてご確認ください。
Project Marinerの特徴・すごいところ
ここからは、要注目のGoogle Chrome用AIエージェントであるProject Marinerについて、その特徴・すごいところを3点ご紹介します。まずは、優れたマルチモーダル理解能力から、詳しくみていきましょう!
マルチモーダル理解能力が優秀
Gemini 2.0を搭載するProject Marinerは、ユーザーからの入力とブラウザ画面上の要素を網羅的に理解できる、優れたマルチモーダル理解能力を有しています。(※1)具体的には……
- テキスト形式での命令(プロンプト)
- 音声入力での命令
- 画面上のピクセル
- 画面上のテキスト
- 画面上のソースコード
- 画面上の画像
- 画面上のフォーム
といったものを理解し、後に続く処理を推論するところまでが自力で可能。そんなProject Marinerは、GUIの要素を理解する能力を測るベンチマーク「ScreenSpot」にて、84.0%ものスコアを叩き出しています。
Chromeブラウザの操作を自動化
Project Marinerは自身の推論に則り、自律的にChromeブラウザを操作する機能をもちます。(※1)ユーザーはProject Marinerにプロンプトを入力するだけで、Chromeブラウザの自動操作が可能です。
具体的に、Project Marinerは実在のブラウザ上での作業能力を測るベンチマーク「WebVoyager」にて、83.5%(探索木使用時は90.5%)のスコアを記録。実用に耐えうる完成度になっているようです。
また、Project Marinerは以下のような便利機能も搭載しています。
- Webサイトの内容や操作の進捗についてユーザーに説明
- あいまいな指示については逆質問を提供
- 繰り返しの操作を自動化
リサーチから記入まで、ブラウザ上での作業が捗りそうですね。
透明性・安全対策もバッチリ
Project Marinerでは、ブラウザを自動操作するにあたって、入念な透明性・安全対策がなされています。(※1、2、3)
まず、Project Marinerの安全性対策は以下のとおり。ユーザーの手を離れて重大な誤動作が起きないよう、徹底した対策がなされています。
- バックグラウンド動作不可、アクティブなタブでのみ動作
- エージェントの動作中断・一時停止が可能
- 個人情報の入力 / 規約同意 / Cookieへの同意…etc.は自動化不可
- 命令権がユーザー>第三者となっており、プロンプトインジェクション耐性も抜群
(メール / ドキュメント / Webサイト上に隠された有害プロンプトを極力無視)
次に、透明性対策についても、推論・意思決定のプロセスがサイドバー上に明示されるようになっていて万全です。
Project Marinerの活用例
今度はProject Marinerの活用例についても、公式のデモ動画や投稿から3つご紹介します。以下、詳しくみていきましょう!
企業のメールアドレス収集
Google DeepMindのProject Mariner公式ページでは、Project Marinerを使った企業のメールアドレス収集のデモ動画が公開されています。(下記)
デモ動画の内容は「Googleスプレッドシート上のアウトドア企業一覧について、それぞれの連絡用メールアドレスを自動で調べて記入する」というもの。その他「バックグラウンドでの動作の制限」「動作の一時停止」「推論過程の表示」などが実演されており、Project Marinerの機能性と安全性が示されています。
絵画を参考に絵の具を購入
Google DeepMindの公式Xからは以下のとおり、Project Marinerによるネットショッピングのデモ動画も投稿されています。
こちらでは「最も有名な後期印象派の画家を参考に、雰囲気の近い絵の具をECカートに追加する」までの流れをProject Marinerが自動化。具体的には……
- 最も有名な後期印象派の画家をゴッホと特定
- ゴッホの絵画をGoogle Arts and Cultureで検索
- 雰囲気の近いカラフルな絵の具をEtsy(ECサイト)で検索
- 絵の具をカートに追加
- 購入するか否かをユーザーに逆質問
- (購入しないと答えたため、)プロセスを終了
以上の流れで処理を実行しています。こちらでもProject Marinerの機能性と安全性がフルに発揮されていますね。
近所の求人のリサーチ
GoogleのエンジニアであるAddy Osmani氏は、自身のXアカウントでProject Marinerの活用シーンを紹介しています。(下記)
こちらの投稿で紹介されているProject Marinerの活用例は……
例えば、ユーザーが「近くの仕事を探して」と依頼すれば、Project Marinerはそのリクエストを理解し、適切な求人検索サイトに移動し、ユーザーの所在地や好みに基づいて検索をカスタマイズします。これは、Gemini 2.0の可能性を探るために開発したプロトタイプの一例にすぎません。
以上のとおり。Project MarinerはChromeの位置情報もうまく活用してタスクをこなしてくれるようです。
なお、問題解決に特化したGemini 2.0の派生モデルについて詳しく知りたい方は、下記の記事も合わせてご確認ください。
「Project Mariner」登場で、Chromeが自動化ツールに進化!
当記事では、Googleが送るChromeブラウザ用AIエージェント「Project Mariner」について、現段階で明らかになっている情報をお伝えしました。Project Marinerの特徴・すごいところについて、もう一度振り返ってみると……
- マルチモーダル理解能力が優秀
- Chromeブラウザの操作を自動化
- 透明性・安全対策もバッチリ
以上のとおり。これが正式にリリースされるとなると、生成AI業界の勢力図が書き換わる……かもしれませんね。
最後に
いかがだったでしょうか?
「Project Mariner」の活用は、業務効率化を次のレベルへ導く可能性を秘めています。自社の課題解決にAI導入がどう役立つか、次のステップを見据えてみてください。
株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!
開発実績として、
・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、通勤時間に読めるメルマガを配信しています。
最新のAI情報を日本最速で受け取りたい方は、以下からご登録ください。
また、弊社紹介資料もご用意しておりますので、併せてご確認ください。