【AppAgent】人間のようにスマホを自動で操る最強の生成AIを使ってみた
WEELメディア事業部テックリサーチャーの藤崎です。
近年、生成AIを使って自動でプログラミングを行ったり、PCそのものを自動で操作できたりとその進化には目を見張るものがあります。
そんな中、なんとついにスマホアプリを自動で操作することができる「AppAgent」が公開されました!
この記事ではAppAgentの概要から使い方、そして実際にスマホアプリを自動で操作してみました!
近未来の技術に触れてみたい方、必見です!
AppAgentの概要
AppAgentはAndroidを自動で操作するAIです。
単体で動くのではなく、GPT-4を使って動作します。
AppAgentはスマートフォンアプリケーションを操作するために設計されたLLM ベースのマルチモーダルエージェントフレームワークです。
このフレームワークはタップやスワイプなど、人間の操作を模倣してスマートフォンのアプリケーションを動かすことができるとのこと。
テストではSNS、メール、地図、画像編集など10個のアプリケーションで様々なタスクを試し、その実用性が実証されているそうです。
AppAgentがこんなにも自然にスマホアプリを操作できるのは、探索フェーズと導入フェーズという2つのフェーズで動作していることに関係しています。
まず、最初のフェーズでアプリのユーザーインターフェース観察を行い、タップできる場所、スクロールできる場所などを学習してアプリの操作に関わるドキュメントをまとめます。そして、次のフェーズにて作成したドキュメントをもとに実際にアプリの操作を行うのです。
自分で操作マニュアルをまとめるだけでなく、それを活用して自動でアプリを動かすなんてすごいですよね!
AppAgentの料金体系
AppAgentはMIT Licenseのため利用に関する料金は必要ありません。
ただし、OpenAI API KEYを利用するためその分の費用が別途必要になりますのでご注意ください。
なお、PCをGUIで操作してくれるエージェントについてはこちらの記事をご覧ください。
→【Open Interpreter 0.2.0】ついに来た…PCをGUIで操作できるようになった最強AIエージェントを使ってみた
AppAgentの使い方
AppAgentを動かすのに必要なスペックについて詳しい情報は記述されていませんでしたが、動作するスマートフォンはAndroidのみとなっています。ただ、手元にはiPhoneしかなかったため、今回はAndroidエミュレータを使いました。
AppAgentを動かすのに必要なスペック
今回動作を確認したマシンは下記の通りです。
■ Windows
OS:Windows11
CPU:Core i3-12100F 3.3GHz
メモリ:16GB
SSD:500GB
GPU:GeForce GTX 1650
■Mac
MacBookPro 2020 13-inch
CPU:Core i5 1.4GHz
メモリ:16GB
SSD:256GB
GPU:Intel Iris Plus Graphics 645 1536 MB
■Python 3.9.18
※adbコマンドが使えること
AppAgentの導入方法
まず、事前準備としてAndroidの端末を開発者モードにしておき、USB接続しておきましょう。
次に、Gitから必要なファイルをダウンロードします。
git clone https://github.com/mnotgod96/AppAgent.git
作成されたディレクトリに移動し、requirements.txtを使って必要なパッケージを一括でインストールします。
cd AppAgent
pip install -r requirements.txt
最後に、congif.yml内にある「OPENAI_API_KEY:」の箇所に、各自取得したOPENAI_API_KEYを入力すれば準備完了です!
AppAgentを実際に使ってみた
では早速AppAgentを使ってみましょう!
下記コマンドを実行すると、AppAgentを起動することができます。
python learn.py
下記のような表示が出れば正常にAppAgentが起動しています。
「1」は使うアプリや、やって欲しいことを入力してAppAgentに自動で操作してもらうモード、「2」はこちらが操作のデモを行い、AppAgentがそれを学習するというモードです。
基本的には表示されているメッセージと対話しながら進めていくというスタイルなので難しいプログラミングなどは必要ありません。
AppAgentはGPT-4を利用しているので、日本語で入力した指示も英語に訳して理解することができているようです。
ただ、日本語特有の変換や日本語キーボードに対してのデータがないようで、日本語入力をしようとしてもうまくできずに途中でエラーが発生していました。
AppAgentを試す場合、指示は英語で入力することをおすすめします。
AppAgentの推しポイントであるスマホを自動で操作できるというのは本当なのか?
AppAgentには2つのモードがありますが、今回は完全に自動で操作しているところをチェックしたいので、「1」のautonomous explorationを選択しました。
やってもらうタスクは「GoogleChromeで明日の北海道の天気予報をチェックしてもらう」です。
まず、先ほどと同じように「python learn.py」を入力し、1を選択します。
次に、ターゲットのアプリを聞いてくるので「GoogleChrome」と入力します。
その後、AppAgentにやって欲しいタスクを聞いてくるので短い文章で説明しましょう。
今回は「check the weather in hokkaido tomorrow(明日の北海道の天気予報をチェックして)」としました。
あとはAppAgentが自動でスマホを操作してくれます。
動きとしては現在の画面をスクリーンショットし、その画像を解析してスマホのUIを認識、タップできる位置などを把握し操作するという流れのようです。
画面上では、AppAgentが一つずつステップを踏みながら次にやるべきことを考えている様子を見ることができます。
同じ指示でもその時によって、表示されている内容が異なっているので本当に思考しているようですね。
一連の流れを動画にしていますので、AppAgentがスマホアプリを操作しているところをぜひご覧ください!
※なお、結果が出るまでに時間がかかったので動画は10倍速にしています。
なお、自律型AIエージェントの代表例であるAutoGPTについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→AutoGPTとは?インストール方法から使い方まで徹底解説!【Windows・MacOS】
まとめ
AppAgentはこちらからの指示に応じてスマホアプリを自動で操作できるAIエージェントです。
簡単なタスクや定期的なタスクであれば十分に人間の代わりに操作できるパフォーマンスを持っています。
とはいえ、いまはPCがないとAppAgentを動かすことができないため、使い所は限られてしまいます。
また、内部でどのような処理をしているのか見えない部分もありますので、セキュリティの面でも注意が必要です。
そして稼働確認できているアプリも少なくそれほど高機能ではありませんが、様々な学習を続けることにより映画「アイアンマン」のジャービスのようなパートナーになってくれるかもしれませんね!
生成系AIの業務活用なら!
・生成系AIを活用したPoC開発
・生成系AIのコンサルティング
・システム間API連携
最後に
いかがだったでしょうか?
弊社では
・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発
などの開発実績がございます。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、弊社紹介資料もご用意しておりますので、併せてご確認ください。