【Open Interpreter 0.2.0】ついに来た…PCをGUIで操作できるようになった最強AIエージェントを使ってみた
WEELメディア事業部テックリサーチャーの藤崎です。
2024年1月5日に、自然言語でプログラムを開発・実行できるOpen Interpreterがメジャーアップデートし、なんとパソコンをGUIで操作できるようになりました!
私達はやってほしいことを指示するだけで、あとはOpen Interpreterが自動で操作してくれるんです!
実はOpen Interpreterのサンプルには「JARVIS」という文字が書いてあるので、実際に試してその実用性を確かめてみてください!
この記事ではOpen Interpreterのメジャーアップデートにてパワーアップした機能を中心に解説していきます。
プログラミングやタスクの自動化などに興味がある人はぜひ最後までご覧ください!
Open Interpreterの概要
Open Interpreterは自然言語でプログラミングができるオープンソースのツールです。
PythonやJavascript、C++やシェルといった多様なプログラミング言語に対応しており、プログラミングの学習をはじめデータ分析、Webサイトの開発やタスクの自動化など幅広い用途で利用することができます。
今までのOpen Interpreterはプロンプトを入力すればコマンドを駆使して結果を生成していました。
例えば、MacOSのテーマをダークモードやライトモードに変えるプロンプトを入力すれば、AppleScriptを作成・実行してテーマの変更を行っていました。
しかし、今回のアップデートでGUIを操作できるようになったため、そのプロセスはまるで人間がPCを操作しているように動かすことができるようになったのです!
どうやって画面を認識しているかというと、画面のスクリーンショットを撮ってUIの位置情報を認識→次のステップを思考→動作を確定及び実行→スクリーンショットを撮って現状確認…というプロセスを入力したプロンプトに対しての答えがでるまで繰り返しているとのこと。
つまり、人間が目で見て判断し実行するという手順をOpen Interpreterが実行しているんです。
ついにSFの時代が追いついてきたような気がしますね・・・!
なお、Open Interpreterの概要や基本的な情報は別記事にて解説していますので合わせてご確認ください。
→Open Interpreterがついに画像出力にも対応!使い方から実践までを解説【画像付き】
Open Interpreterの料金体系
Open InterpreterはAGPL-3.0 licenseで公開されているため利用するのに費用はかかりません。
ただし、OpenAI API KEYが必要となるためその利用料は別途必要になります。
Open Interpreterの使い方
Open Interpreterは様々な導入方法がありますが、今回はローカルで試してみました。
GPTを使うのでマシンパワーがそれほど高くないPCでOpen Interpreterを動かすことができます。
Open Interpreterを動かすために必要なスペック
今回動作を確認したマシンは下記の通りです。
■PC
MacBookPro 2020 13-inch
CPU:Core i5 1.4GHz
メモリ:16GB
SSD:256GB
GPU:Intel Iris Plus Graphics 645 1536 MB
■Python 3.11.5
■pip 23.3.2
極端に古いPCでなければOpen Interpreterは動かすことができると思います。
Open Interpreterの導入方法
まず、pipのアップグレードを行います。
pip install --upgrade pip
その後、下記のコマンドでOpen Interpreterをインストールし、念のためアップグレードします。
pip install open-interpreter
pip install --upgrade Open Interpreter
Open Interpreterは下記のコマンドで起動します。
interpreter -y
OSモードでの起動は次のとおりです。
interpreter -os
起動後、パッケージが足りないと表示される場合がありますが「y」をクリックして進めましょう。
ただ、追加のパッケージは最新版がインストールされるため、既存の開発環境に影響がある場合は各パッケージのバージョンに注意し、手動でインストールすることをおすすめします。
また、起動するごとにOpenAI API KEYを聞いてくるため入力が必要です。
なお、ここに入力した文字は表示されませんのでコピー&ペーストを行うのが確実です。
毎回の入力が面倒な場合は、ターミナルで「export OPENAI_API_KEY=API KEY」を入力して設定しておきましょう
以上でOpen Interpreterのセットアップは完了です。
なお、GoogleColabでのデモを試したい方は下記リンクへアクセスしてみてください。
・デモ1→An interactive demo is also available on Google Colab
・デモ2→Along with an example voice interface, inspired by Her
※デモ1はテキストベース、デモ2はボイスインターフェースを使ったデモになります。
Open Interpreterを使う際の注意点
様々なタスクを自動化してくれるOpen Interpreterですが、利用するには注意が必要です。
特にOSモードを利用する際には、Open InterpreterにPCの操作許可が必要になります。
例えば、Macにてテーマを変更しようとするとターミナルアプリがシステムイベントの制御許可を求めてきます。
この他にもプロンプトに応じて初回は様々な操作許可を求めてきますが、必要があるものだけを許可するようにしてください。
そして、ソフトの操作などを行う際、ショートカットキーなどを使うのでキーバインドを変更していると正常に動作しないので注意が必要です。
また、Open Interpreterは自動で必要なパッケージをインストールしようとしますが、本来の業務に必要のないものなども含まれます。
アプリの操作許可や本来は不要なものをPC内に入れないといけなかったりと、PC環境を大きく変えてしまう可能性があります。
そのため、Open Interpreterを動かす専用のユーザーを作り、念のためvenvなどpythonの仮想環境上で試すなどセキュリティに注意して利用することをおすすめします。
なお、勝手にPCを操るAIについて知りたい方はこちらの記事をご覧ください。
→【Self-Operating Computer】人間に代わってAIがPCを操る!使い方〜実践まで
Open Interpreterを実際に使ってみた
では実際にOpen Interpreterを使ってみましょう!
追加パッケージのインストール及びOpenAI API KEYの入力が終わっていると、下記のような表示になっています。
基本的な使い方はここにプロンプトを入力していくのですが、Open Interpreterにはテストプロンプトが用意されています。
上矢印キーを押すと、いくつかの候補が出てきますのでまずはどのような動きをするのか試してみましょう。
今回は「シアトルの現在時刻を教えて」というプロンプトと、「テーマをダークモードに変更」の2つを試してみます。
どちらのプロンプトも今回はプログラムを組んで実行してくれました。
同じプロンプトでもプログラムを作る、ブラウザで調べるなどその時々で様々なアプローチがあるようです。
Open Interpreterの推しポイントであるOSをGUIで操作できるというのは本当なのか?
さて、それではメジャーアップデートしたOpen Interpreterの実力を見てみましょう!
以前、同じOSを操作できる「Self-Operating Computer」を使ってみましたがどちらが使いやすいか、比較してみます。
まずは同じ質問である「Search for tomorrow’s weather forecast in Hokkaido on Google.(明日の北海道の天気予報をGoogleで検索して)」を入力しました。
では一連の動きを動画にしたのでご確認ください。
かなりスムーズにブラウザを起動して検索してくれましたね!
ではもう一つ、「明日の北海道の天気予報をGoogleで検索して、検索結果が1位のサイトを表示してください」と少し長めの日本語でプロンプトを入力してみました。
GPT4を介しているので日本語は問題なく解読できると思うのですが果たして・・・?
日本語でも全く問題なしでした!すごいですね!
検索結果を表示するまでは先程と同じプロセスでしたが、検索結果を表示したあと現在の画面の状態を把握し、座標で位置を特定してからマウスを動かして1位のサイトをクリックするところまで、完璧でした。
ではOpen InterpreterとSelf-Operating Computerを比較してみた結果をまとめてみました。
Open Interpreter | Self-Operating Computer | |
---|---|---|
導入のしやすさ | ◎pipでインストール可能 | ◯ Gitからインストール |
生成速度 | ◎ | ◯ |
使いやすさ | ◎ | ◯ |
日本語対応 | △プロンプトは解読可能だが変換などは不可能だった | 不明 |
どちらも同じようなことができるのですが、全体的にOpen Interpreterの方が一歩進んでいるという印象でした!
まとめ
Open Interpreterは自然言語でプログラミングや分析などを行うことができるツールですが、メジャーアップデートによってOSをGUIで操作できるようになりました。
GPT4を利用しているため、日本語のプロンプトも認識することができるというのも大きなポイントです。
まだ人間のチェックを入れないといけませんが、ざっくりした資料作成やデータの収集・分析などのたたき台を作ったりするのに活用できそうですね。
もちろんセキュリティに注意は必要ですが、うまく使えばジャービスのようにあなたの業務をサポートしてくれる相棒になってくれることでしょう!
生成系AIの業務活用なら!
・生成系AIを活用したPoC開発
・生成系AIのコンサルティング
・システム間API連携
最後に
いかがだったでしょうか?
弊社では
・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、サービス紹介資料もご用意しておりますので、併せてご確認ください。