サイトのデザインが新しくなりました。

Open Interpreterがついに画像出力にも対応!使い方から実践までを解説【画像付き】

Open Interpreter ChatGPT

皆さん、Open InterpreterというAIアシスタントをご存知ですか?

自然言語でプログラムを開発し実行までできるオープンソースのツールで、ChatGPT並みのインパクトを持つAIツールなんです!

Open Interpreter は、LLM(ChatGPTやLlama 2)に自分のPCの操作権限を付与し、SF宜しくパワーポイントやデータ解析、諸々の作業をAIに代替させるものです。

例えばこんなことができちゃう!

本記事では、Open InterpreterのMacOS・Windows・Google Colabの導入方法や、実際に使ってみた感想、最後にはよくネット上で比較されるChatGPTのCode Interpreterとの比較をまとめました。

最後まで読むと、Open Interpreter なしでは生きていけなくなります!
ぜひ最後までご覧ください!

なお、本記事は2023年9月時点での情報になります。現在、OpenInterpreterはメジャーバージョンアップされておりOSを自動操作できるモードも含まれています。最新のOpenInterpreterは下記記事で解説していますので合わせてご覧ください。

【Open Interpreter 0.2.0】ついに来た…PCをGUIで操作できるようになった最強AIエージェントを使ってみた

なお弊社では、生成AIツール開発についての無料相談を承っています。こちらからお気軽にご相談ください。
→無料相談で話を聞いてみる

目次

Open Interpreterの概要

Open Interpreterは、自然言語によるプログラミングをローカルで実現するオープンソースツールです。PythonやJavaScript、Bash などの言語に対応しており、データ分析やブラウザ制御、動画/画像/PDFの生成、編集ができます。

ChatGPTのCode interpreterも似たようなツールですが、違うところもいくつかあります。

項目Open InterpreterCode Interpreter(ChatGPT)
動作環境クラウド・ローカル環境の両方で動作、フルアクセス可能ChatGPTの画面上、アクセス制限あり
使用可能なパッケージ任意のパッケージやライブラリが使用可能事前にインストールされたもののみ
実行時間とファイルサイズ制限なし実行時間とファイルサイズに制限あり
セキュリティユーザー確認が必要、不正なコードを防ぐユーザー確認のプロセスが異なる
料金無料(オープンソース)+OpenAI API使用料金月額20ドル(有料プラン)
多様なプログラミング言語に対応Python、JavaScript、BashなどPythonのみ
bash、shell動かせる動かせない

つまり、Open Interpreterの推しポイントはこちらです。

動作環境: Open Interpreterはクラウドとローカル環境の両方で動作するため、インターネットへのフルアクセスが可能です。これにより、外部APIやデータベースに自由にアクセスでき、プロジェクトの柔軟性が大幅に向上します。

パッケージとライブラリの選択肢: Open Interpreterでは、任意のパッケージやライブラリを使用できます。これは、特定のプロジェクトに最適なツールを選べるという点で非常に価値があります。

制限のない実行時間とファイルサイズ: Open Interpreterは実行時間やファイルサイズに制限がありません。大規模なデータ分析や計算処理もスムーズに行えます。

セキュリティの確保: Open Interpreterは、コードを実行する前にユーザーの確認が必要です。不正なコードの実行を防ぐことができ、安全性が高まります。

コストパフォーマンス: Open Interpreterはオープンソースプロジェクトであり、無料で使用できます。特にスタートアップや個人開発者にとって、費用を抑えられる大きなメリットです。

多様なプログラミング言語に対応: Open InterpreterはPythonだけでなくJavaScriptやBashなどもサポートしているため、様々な用途に対応できます。

これらが本当だとしたら、すごいですよね。

なお、PCの操作にも対応したOpen Interpreterについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
【Open Interpreter 0.2.0】ついに来た…PCをGUIで操作できるようになった最強AIエージェントを使ってみた

Open Interpreterのライセンスについて

Open Interpreterは「GNU Affero General Public License v3.0」でライセンスされています。GNU Affero General Public License v3.0はフリーソフトウェアとオープンソースソフトウェアの原則を強調し、ソフトウェアの自由な利用と共有を促進するために設計されています。

該当のライセンスについて詳しくは公式ページをご確認ください。

GNU Affero General Public License v3.0 → https://www.gnu.org/licenses/agpl-3.0.ja.html

利用用途可否
商用利用
改変
配布
特許使用
私的利用
参考:https://github.com/KillianLucas/open-interpreter/blob/main/LICENSE

では早速、推しポイントを検証するためにもまずは導入方法を見ていきましょう!

Open Interpreterの使い方

ここではOpenInterpreterを動かすために必要なスペックと、ローカル環境での導入方法、Google Colabの導入方法を解説します。

Open Interpreterを動かすために必要なスペック

・MacOS

■マシン:MacBook Pro(13-inch 2020)
■CPUの種類:1.4 GHz クアッドコアIntel Core i5
■システムメモリ:16GB
■GPUの種類:Intel Iris Plus Graphics 645 1536 MB
■HDD/SSDの空き容量:50GB

・Windows

■OS:Windows11
■CPUの種類:Core i3-12100F3.30GHz
■システムメモリ:16GB
■GPUの種類:GTX1650
■HDD/SSDの空き容量:100GB

Open Interpreterを動かすにはそこまで高スペックなPCが必要というわけではありませんが、あまりに低スペックだと他のソフトを同時に動かすと処理が重たくなったりするので、快適さを求めるのであればスペックに余裕をもたせることをおすすめします。

では、ローカルの環境構築やクラウドでの動かし方をみていきましょう。

ローカル環境の構築(MacOS編)

まずは、以下をterminal で実行。

pip install open-interpreter

次にOPENAI_API_KEYを登録します。

export OPENAI_API_KEY=your_api_key

あとは、プログラムを書き実行するだけです。

ファイル名は、open_interpreter.py。

以下はプログラムの一例です。

import interpreter

interpreter.chat("print hello world")

プログラムを実行します。

python3 open_interpreter.py

実際にできているか確認してみましょう。
以下のように、プログラム、実行結果、コメントが出力されているので、OKです!

次はWindowsでの実行手順を見ていきましょう

ローカル環境(Windows編)

まずはPower shellを開き、以下のコマンドを入力します。

pip install open-interpreter

次にOPENAI_API_KEYを登録します。

$env:OPENAI_API_KEY = "your-api-key"

以下を叩いて、登録できているか確認します。

echo $env:OPENAI_API_KEY

登録できてますね!

あとは、Macと同様に、プログラムを書き実行するだけです。

ファイル名は、open_interpreter.py。

以下はプログラムの一例です。

import interpreter

interpreter.chat("print hello world”)

プログラムを実行します。

python3 open_interpreter.py

実際にできているか確認してみましょう。
以下のように、プログラム、実行結果、コメントが出力されているので、OKです!

次は、Docker+LLAMAで実行する方法をご紹介します。

Open InterpreterをDocker+LLAMAで使う

まず、Dockerfileを用意します。

内容は必要最低限となっていて、Ubuntuの最新版にpythonとpip、そしてOpen Interpreterをインストールします。

「pip install open-interpreter」で最新版Open Interpreterをインストールできますが、ローカルで動かすにはLM Studioを使わないといけないようなので、今回は0.1.4というバージョンを使うことにしました。

Dokerfileが置いてある場所で下記コマンドを実行し、イメージを作成します。

docker build -t openinterpreter .

最後のopeninterpreterはイメージ名になるのでお好みで変更してください。

イメージの作成が完了したら下記コマンドでDockerコンテナを起動します。

docker run -it -rm openinterpreter /bin/bash

プロンプトの表記が「英数字の羅列:~#」になっていれば起動完了です。

下記コマンドでOpen Interpreterを実行します。

interpreter -y

GPT-4のAPIキーを聞いてくるのですが、ここで何も入力せずにエンターを押すとCode-Llamaを使うことができます。

Code-Llamaの設定画面に移動するので、パラメーター、GPUの使用など使いたい環境をセットアップします。

途中、llama-cpp-pythonのインストールを勧めてくるので、yを押してインストールしてください。

「Finished downloading ….」という表示がでればすべてのセットアップが完了です。

「 > | 」という表示のあとにプロンプトを入力します。

次は、Google Colab上でも実行できる方法をご紹介します。

クラウド環境(Goolge Colab編)

Open InterpreterのGithubからGoogle Colabファイル(クラウド環境)が公開されていました。

あわせて読みたい

まず、以下をクリックしてモジュールのインストール。

!pip install open-interpreter

# Google Colab users: restart your runtime here

次に、your_openai_api_keyを、自身のOpenAI APIキーに置き換えます。
(なお、OpenAIのAPI Keyを使っているので、ある意味ChatGPTで動いていると言えますが、ここのキーはCode Llamaなどの他のLLMでも可能です。)

import interpreter

# Paste your OpenAI API key below.

interpreter.api_key = "your_openai_api_key"

プログラム実行前の確認をオフにして、自動的に実行するように設定する。

interpreter.auto_run = True

これは、Google Colabの実行環境が、個別に用意されており、第三者にプログラムを実行されることがないからです。

実際にできているか確認してみましょう。
以下のように、プログラム、実行結果、コメントが出力されているので、OKです!

では、実際に使ってみましょう!

Open Interpreterを実際に使ってみた

では、早速Open Interpreterを実際に使ってみましょう!

Open Interpreterの基本的な使い方

Open Interpreterは、以下の構文で記述し実行します。

interpreter.chat(“{prompt}”)

では、Google Colabにあったプログラムを試してみましょう。

まずは、再掲になりますが、以下を実行しました。

interpreter.chat("Please print hello world.")

定番の「Hello World」と出力するプログラムを作るように指示。

すると、以下のような出力が。

プログラム、実行結果、実行に成功したというコメントが出力されています!

ここまで一挙にやってくれるなんてすごい……

次は、数学に関するタスク。

以下のように実行します。

interpreter.chat()

ですので、以下を入力。

Can you solve this equation? 10x + 14 = 21 / 3

以下の結果が出力されます。

こちらも正しい結果が出ていますね。

最後は、ウェブブラウジング

以下のプロンプトを入力します。

What are the last 10 BBC news headlines?

以下のような結果が出力されます。

かなりのことはOpen Interpreter に任せられるのではないでしょうか?

Interpreter Visionで画像認識させてコーディングをする

ウェブサイトを見ていて、「こんな感じのものをコーディングしたい」と思ったことはありませんか?

Open Interpreterは画像認識も行えるので「こんな感じ」も汲み取ってくれます!

今回はWindowsのローカル環境+GPT4(Open AI KEY使用)で試してみました。

まずは下記コードを実行してOpen Interpreterをアップデートします。

pip install --upgrade open-interpreter

あとはオプションを付けてOpen Interpreterを実行するだけです!

interpreter --vision

「Vision enabled」という記述があれば準備完了です!

ではこんな感じのドロップダウンをTailwind CSSを使って作ってもらいましょう。

プロンプトは下記のようにしました。

Can you recreate this dropdown with Tailwind CSS? “画像のパス” 

※ “画像パス”のところは適宜変更してください。

注意点としては、日本語で書いたらエラーを吐いてOpen Interpreterが落ちてしまったので、プロンプトはもちろん、画像パスも英語で書くことをおすすめします。

プロンプト入力後、解説文とコードが1分もかからずブワーッと一気に生成されました。

最後に「実行しますか?」と聞いてくるので「y」入力してエンターを押すとブラウザが立ち上がって動作の確認まで行えました!

実際に出力されたものがこちらです。

完璧じゃないでしょうか?

しかも、サンプル画像では全部黒字だったのですが「Delete」だけ注意しないといけないボタンだからか、赤字になっています!

すごすぎますね・・・。

次は、Open Interpreter の推しポイントを検証していきましょう!

Open Interpreterの推しポイントは本当なのか?

次の3つをChatGPTのCode Interpreterと比較しようと思います。

  1. 多様なプログラミング言語に対応
  2. インターネットアクセス
  3. ファイルアップロードの制約なし

多様なプログラミング言語に対応

まずは、対応しているプログラミング言語について。

Open Interpreterは、多言語に対応しているのか確認します。

公式の記載によると、JavaScriptやBash に対応しているんだとか。

JavaScriptで、Hello World をさせてみました。

以下のプロンプトを入力。

interpreter.chat("Please print hello world by JavaScript")

確かにできてますね。

ちなみに、Code Interpreterは、JavaScriptはできないです。

以下のプロンプトを入力しました。

Please print hello world by JavaScript and execute.

すると、、、この環境では、Pythonしか実行できないと言われました。

ということで、Code Interpreterでは、JavaScirptを書くことはできませんでした。

インターネットアクセス

次は、インターネットにアクセスできるかどうか。

再掲ですが、Open Interpreterは確認済みです。

BCCの最新ニュースを10個取り込めてましたよね。

ちなみに、Code Interpreterに依頼すると以下でした。

Code Interpreterではできてないですねー。

ちなみに、やや脱線しますが、サードパーティプラグインのWebPilotを使えば取得は可能です。

ただ、Code Interpreterとの併用はできず、都度切り替えが必要になりやや面倒でしょう。

ファイルアップロードの制約なし

次は、ファイルアップロードの制約について。

今までとは順番が逆転しますが、まずはCode Interpreterについて。こちらは、アップロードに120秒かかる場合、
またはファイルサイズが100 MBを超える場合、アップロードできません。

試しに、6GB超えのファイルをChatGPTへアップロードしてみます。

試みたけど、画面上に赤い文字が……。

このように、アップできません。

一方で、Open Interpreterは、制約がありません。

以下をローカルで実行しました。

interpreter.chat("Read xxmix9realisticsdxl_testV20.safetensors on my desktop and if successful print successful.")

successful と返ってきているので読み込めてますね。

ということで、Open Interpreterの場合は、ファイルサイズなどの制約なしにアップロードできるということですね。

これまでの結果を表にまとめると……

機能・特性Open InterpreterCode Interpreter
多様なプログラミング言語に対応
インターネットアクセス(ブラウジング)
ファイルアップロード制約上限なし
bash、shellの対応

Open Interpreterの推しポイントは本当でした!!

OpenAIが開発したCode Interpreterよりも全然優れていますね。
性能が優れているだけでなく、無料で使用できるということで、もはやCode Interpreterを使う必要ないのでは…?と思ってしまいます。

OpenInterpreterは自動でタスクを実行してくれる近未来のツールだった

Open Interpreterの概要、導入、使ってみた感想、そして、推しポイントの検証結果をまとめます。

Open Interpreterの概要

Open Interpreterは多機能かつ柔軟性の高いオープンソースのプログラミングツールです。以下の特性が特に注目されています。

  • ローカル環境での動作: インターネットへのフルアクセスが可能で、外部APIやデータベースに自由にアクセスできます。
  • 多様なプログラミング言語に対応: Python、JavaScript、Bashなど、多くのプログラミング言語をサポートしています。
  • パッケージとライブラリ: 任意のパッケージやライブラリを使用でき、プロジェクトに最適なツールを選べます。
  • 制限のない実行時間とファイルサイズ: 大規模なデータ分析や計算処理もスムーズに行えます。
  • 高度なセキュリティ対策: コードを実行する前にユーザーの確認が必要で、安全性が高まります。
  • コストパフォーマンス: オープンソースプロジェクトであり、無料で使用できます。

これらの特性は、プロジェクトの柔軟性と効率性を大幅に向上させるため、スタートアップから大企業、個人開発者まで幅広いユーザーにとって非常に有用です。

Open Interpreterの導入方法

公式から提供されているGoogle Colabのファイルをもとに導入しました。

あわせて読みたい

Open Interpreterを実際に使ってみた

以下の3タスクをOpen Interpreterに実行させてみました。

  1. プログラム作成
  2. 数学
  3. ウェブブラウジング

どれも正しく動いてました。

Open Interpreterの推しポイントは本当なのか?

いくつかある推しポイントを類似サービスのCode Interpreterと比較してみました。

機能・特性Open InterpreterCode Interpreter
多様なプログラミング言語に対応
インターネットアクセス(ブラウジング)
ファイルアップロード制約上限なし
bash、shellの利用

Open Interpreterの推しポイントは本当でした!!

OpenAIが開発したCode Intepreterよりも圧倒的に優れているという結果になりました。

また、こちらの記事でOpen Intetpreterの活用事例もご紹介しています。
気になる方は、ぜひご覧ください!

最後に

いかがだったでしょうか?

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
ハルシネーション対策AIツールの開発
自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • Leon Kobayashi

    必ずフォローすべきAIエバンジェリスト(自称) => 元東証一部上場ITコンサル (拙者、早口オタク過ぎて性に合わず退社)<-イマココ 【好きなもの】リコリコ・しゃぶ葉 宜しくおねがいします。

  • URLをコピーしました!
  • URLをコピーしました!
目次