【Self-Operating Computer】人間に代わってAIがPCを操る!使い方〜実践まで
メディア事業部リサーチャーのいつきとメディア事業部LLMリサーチャーの藤崎です。この記事は専門的な内容を含むため、AIスペシャリストとの共同執筆となっています。
今回ご紹介するのは、OthersideAIのJosh Bickett氏がオープンソース化を発表した「Self-Operating Computer Framework」について。
なんと、マルチモーダルAIがマウスとキーボードを自動で操作して、指定したタスクをこなしてくれるようです。
このフレームワークを使えば、業務が恐ろしいまでに効率化されそうですが、新しく公開されたモデルなので使い方がわからないという方も多いでしょう。
そこで今回の記事では、Self-Operating Computer Frameworkの概要や使い方について、筆者本人が使用した上で徹底的に解説します。
最後まで目を通していただくと、Self-Operating Computer Frameworkのおおよその機能や使い方が理解できるので、早速ルーティンワークを効率化できるかもしれません!
ぜひ最後までご覧ください。
Self-Operating Computer Frameworkの概要
Self-Operating Computer Frameworkは、マルチモーダルAIを搭載した、自動操作型コンピュータフレームワークです。デフォルトでGPT-4Vを搭載しているものの、さまざまなマルチモーダルモデルとの互換性を備えています。
とくに、GPT-4Vが苦手としていた、マウスクリックを行うために必要なXY座標(縦横の位置)を正確に捉える能力に長けているのが特徴。人間に近い感覚でマウスとキーボードを操作できます。
なお、Self-Operating Computer Frameworkは現状MacOSのみに対応しているので、ほかのOSでは使用できません。
今後は、XY座標をより正確に捉え、反応速度を高めた上位モデルをリリースするほか、追加モデルのサポートを予定しているとのことです。
参考記事:OthersideAI/self-operating-computer
Self-Operating Computer Frameworkの料金体系
Self-Operating Computer Framework自体は無料で利用することはできますが、OpenAI API KEYが必要になるためその利用料は必要となります。
なお、PCを勝手に操るAIついて知りたい方はこちらの記事をご覧ください。
→【Open Interpreter 0.2.0】ついに来た…PCをGUIで操作できるようになった最強AIエージェントを使ってみた
Self-Operating Computer Frameworkの使い方
それでは公式の手順に沿ってSelf-Operating Computer Frameworkをセットアップしていきましょう!
以下はターミナルにて操作を行ってください。
- まず、Gitから任意のディレクトリにファイルをダウンロードしてください。
git clone https://github.com/OthersideAI/self-operating-computer.git
- 次に、cdコマンドでダウンロードしたディレクトリに移動します。
cd self-operating-computer
- Pythonの仮想環境を作成しアクティベートします。
python3 -m venv venv
source venv/bin/activate
- requirements.txtを使って必要なパッケージをインストール
pip install -r requirements.txt
- プロジェクトとコマンドラインインターフェースをインストールします。
pip install .
.example.env
を.env
に名前を変更、このファイルに OpenAI keyを入力します。
mv .example.env .env
- .envファイル内の「your-key-here」の部分に各自のOpenAI Keyを入力してください。
OPENAI_API_KEY='your-key-here'
- 起動します!
operate
10. 最後に、システム環境設定→アクセシビリティ→プライバシーとセキュリティ内の「画面収録」及び「アクセシビリティ」の項目にて
ターミナルのチェックを入れておいてください。以上で準備は完了です。
Self-Operating Computer Frameworkを実際に使ってみた
ではSelf-Operating Computer Frameworkを実際に使ってみましょう!
前述の手順で「operate」を入力したあと、ターミナルの背景が緑になって「OK」と表示されるので押します。
その後、「User」の表示のあとにプロンプトを入力すればSelf-Operating Computer Frameworkが自動で操作してくれるのです!
今回は「Search for tomorrow’s weather forecast in Hokkaido on Google.(明日の北海道の天気予報をGoogleで検索して)」と入力しました。
実際に動かしている動画をご覧ください。
すごくないですか!?
何も触っていないのに、ブラウザが起動して検索窓にフレーズを入力しプロンプト通りの結果を見せてくれました。
もはや何でもありですね・・・。
なお、道徳性、倫理性をを備えたAIエージェントについて知りたい方はこちらの記事をご覧ください。
→【Hierarchical Autonomous Agent Swarm】道徳性、倫理性を備えた人間のような自律型AIエージェントを使ってみた
Self-Operating Computer Frameworkを使う際の注意点
実は、普段使っている環境でSelf-Operating Computer Frameworkを動かしてみたのですが、Chromeでブックマークバーを表示させていたり拡張機能を入れていると座標がうまく取れないのか意図したものとは動きをしていました。
また、Chromeを起動する際にSelf-Operating Computer Frameworkはスポットライトを使用していました。
ただ、筆者の環境ではスポットライトのショートカットキーが他の割り当てになっていたため、初回ではスポットライトが起動しないなどのトラブルがありました。
環境次第ではスムーズに動かない場合があるのでご注意ください。
まとめ
Self-Operating Computer Frameworkは、MacOS上でマウスとキーボードを自動で操作してくれる、自動操作型コンピューターフレームワークです。XY座標を正確に捉える能力を備えており、タスクをこなすために必要な一連の操作をマルチモーダルAIが代行してくれます。
さらに、今後も改良を重ね、より正確で速く動作するモデルをリリースする予定とのこと。
更に精度が上がっていけば、アイアンマンに登場するジャービスのような自動操作型コンピュータが普及し、ルーティン業務に忙殺される日々から解放されるかもしれませんね!
本記事で紹介したSelf-Operating Computer Frameworkの使い方を参考にしながら、業務の一部に取り入れてみてください。
生成系AIの業務活用なら!
・生成系AIを活用したPoC開発
・生成系AIのコンサルティング
・システム間API連携
最後に
いかがだったでしょうか?
弊社では
・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、サービス紹介資料もご用意しておりますので、併せてご確認ください。