【Claude 3.5 Sonnet】ついにPCを操作するAIエージェントが公開!

Claude-3.5-Sonnet Opus GPT-4o 高性能 モデル

WEELメディア事業部LLMリサーチャーの中田です。

2024年10月22日、Anthropicが同年6月にリリースした「Claude 3.5 Sonnet」のアップグレード版を公開しました。

今回は回答生成&Artifactsの性能が底上げされたほか、PCのマウス&キーボード操作を自動化してくれるAIエージェント機能「Computer use」が新たに加わっています。

Anthropic公式のXアカウントでの投稿のいいね数は、半日ですでに10,000件に迫っています!世界中で物凄く注目されていることが分かります。

この記事ではClaude 3.5シリーズの使い方や料金体系、有効性の検証まで行います。本記事を熟読することで、あなたの最推しはClaude 3.5シリーズになっちゃうかも!

ぜひぜひ、最後までご覧ください。

目次

Claude 3.5シリーズの概要・沿革

まずは、Anthropicが送る大規模言語モデル(LLM)「Claude 3.5シリーズ」について、その概要と沿革をお届けします。以下、詳しくみていきましょう!

初登場はClaude 3.5 Sonnet

Claude 3.5 Sonnetは、Anthropicが開発した大規模言語モデル「Claude 3 Sonnet」の後継モデルです。このClaude 3.5 SonnetはClaude 3 Sonnetよりも各種能力が格段にレベルアップしており、もはやOpusよりも凄いとのこと!

SonnetはClaudeシリーズの中位にあたるモデルなのですが、「Claude 3.5 Sonnet」に関しては、先代の上位モデル・Claude 3 Opusを超える性能を発揮!

さらにOpenAIのGPT-4oやGoogleのGemini 1.5 Proなど他社の最新モデルと同等かそれ以上の能力を示しています。

Claude 3.5 Sonnetの特徴は、以下の通りです。

  • Claude 3 Opusと比べて2倍の速度で動作
  • Opusの5分の1のコストで利用可能
  • コーディングや画像系テストでOpusを上回る高い性能
  • 画像からのテキスト抽出が可能
  • これまで以上に「人間らしい自然な文章」を生成可能に

特に、画像認識やコード生成の性能が格段にアップしており、これまでのLLMとは比べ物にならない様子です・・・

Claude 3.5 Sonnetは、Anthropicの公式Webアプリやモバイルアプリ、API、AWS(Amazon Bedrock)、Google Cloud(Vertex AI)など様々な方法で利用可能です。

プレビュー機能「Artifacts」が追加

Claude.aiのWebアプリでは、プレビュー機能「Artifacts」が導入され、Claudeに生成を依頼したコンテンツをリアルタイムで表示・編集できるようになっています。

本当に、AIとリアルタイムで会話しながらイラストを作っていますね……!

他にも、フローチャートを作成したり、ハイクオリティな動的Webページを秒速で作ったりなどが可能に。Claudeシリーズがこれまで以上に使いやすくなっております。

これは実務でも大活躍の予感です!

【最新】Claude 3.5 Sonnetがパワーアップ

2024年10月22日、Claude最新の中位モデル「Claude 3.5 Sonnet」がさらなるアップグレードを受けて帰ってきました!このClaude 3.5 Sonnetでは処理速度・利用料金をそのままに、コーディング能力を筆頭として各能力が底上げされています。(※1)

具体的に、Claude 3.5 Sonnetは自然科学の問題集「GPQA Diamond」や理数&人文の高度な問題集「MMLU-Pro」で、ライバルのGPT-4oやGemini 1.5 Proに圧勝!

さらにさらに、AIエージェントのコーディング能力を測る「SWE-bench Verified」やAIエージェントのツール使用能力を測る「TAU-bench」でも下記のとおり、アップグレード前から進化を遂げています。

Claude 3.5 Sonnetがパワーアップ
参考:https://www.anthropic.com/news/3-5-models-and-computer-use

【アップグレード前後のスコア】

  • SWE-bench Verified:33.4%→49.0%にUP
  • TAU-bench(小売業界 / 難易度中):62.6%→69.2%にUP
  • TAU-bench(航空業界 / 難易度高):36.0%→46.0%にUP

特に、SWE-bench Verifiedのスコアにおいては、OpenAI o1-previewや専用のAIエージェントをも上回っているようです。

また、シリーズを通してのアピールポイント「安全性」についても、Claude 3.5 Sonnetは抜かりありません。これまで通り米国AI安全研究所と英国安全研究所のお墨付きが得られていて、ハルシネーションや不適切なコンテンツの生成への対策が徹底されています。

そんなリニューアルしたClaude 3.5 Sonnetは、ブラウザ版・アプリ版・API版・Amazon Bedrock・Vertex AIで公開中です!

【最新】Claude 3.5 Haikuが登場

同じく2024年10月22日、Claude最新のエントリーモデル「Claude 3.5 Haiku」の公開がアナウンスされました。(※1)

こちらは先代のエントリーモデル・Claude 3 Haiku相当の生成速度・コストパフォーマンスを誇っており、それでいて先代の上位モデル・Claude 3 Opusと同等以上の性能を有しています。

なかでもコーディングが得意で、「SWE-bench Verified」ではアップグレード前のClaude 3.5 SonnetやGPT-4oをも上回る40.6%ものスコアを叩き出しました。

そんなClaude 3.5 Haikuは2024年10月末にテキスト専用モデル、マルチモーダルモデルの順で登場予定。ブラウザ版・アプリ版・API版・Amazon Bedrock・Vertex AIで使えるようになるとのことです。

【最新】新機能「Computer use」も導入

2024年10月22日には、API版Claude専用の新機能「Computer use」もベータリリースされています。こちらはAPI経由で動作するClaude 3.5 Sonnet搭載のAIエージェントで、カーソル操作・ボタンクリック・テキスト入力等のPC操作を自動化してくれる優れものです。(※1)

そして史上初「生成AIの開発元が公式にリリースするAIエージェント」となっていて、すでに下記企業での導入・活用・評価が行われています。

【Computer useを活用・評価中の企業】
  • Asana
  • Canva
  • Cognition
  • DoorDash
  • Replit
  • The Browser Company

このComputer useはスクロールやドラッグが苦手だったり、スパムや詐欺への流用が懸念されていたりと、まだまだ改善の余地あり。ただ、Anthropicは今後もComputer useのアップデートを続けていくとのことでした。

なお、Claude 3について詳しく知りたい方は、下記の記事を合わせてご確認ください。

Claude 3.5シリーズの料金

Claude 3.5シリーズはブラウザ版 / アプリ版Claudeの全プランで利用可。下表のとおり制限はありますが、無料プランからでもその恩恵が受けられます。(※2)

スクロールできます
FreeProTeamEnterprise
料金無料月額20ドル(年払いで)月額25ドル要問い合わせ
特典・ブラウザ版・iOS版・Android版でのアクセス
・画像やファイルのアップロード
・Claude 3.5 Sonnetの利用
Freeの特典
 +
・Freeより緩めの利用制限
・優先アクセス
・Claude 3 Opus等複数モデルへのアクセス
・新機能への先行アクセス
Proの特典
 +
・Proより緩めの利用制限
・一括請求と管理機能
・コラボレーション機能への先行アクセス
Teamの特典
 +
・Teamより緩めの利用制限
・コンテキストウィンドウの拡張
・シングルサインオン
・ドメインキャプチャ
・権限設定
・クロスドメインのアイデンティティ管理システム(SCIM)
・監査ログ
・データソースの統合

また、Claude 3.5シリーズはAPI版Claudeからも使えて、

スクロールできます
Claude 3.5 SonnetClaude 3.5 Haiku
入力1Mトークンあたり3ドル1Mトークンあたり0.25ドル
キャッシュ書き込み1Mトークンあたり3.75ドル1Mトークンあたり0.30ドル
キャッシュ読み込み1Mトークンあたり0.30ドル1Mトークンあたり0.03ドル
出力1Mトークンあたり15ドル1Mトークンあたり1.25ドル

以上のとおり、従量課金制で外部ツールへの組み込みが可能です。

Claude 3.5シリーズの使い方

ブラウザ版の使い方

ブラウザ版を使いたい場合、Claude.aiの公式サイトにアクセスするだけで利用ができます。

ちなみにArtifactsの設定方法は、以下の通りです。

ArtifactsおよびClaude 3.5 Sonnetの詳しい利用方法については、以下の動画を参照ください。。

API版の使い方

Claude 3.5シリーズについては、API版も用意されています。その使い方は簡単でPythonの場合、AnthropicのPythonライブラリをインストールして、OSモジュールでAPIキーを入力するだけでスタンバイが可能です。(コードは下記)

pip install anthropic

import os
os.environ["ANTHROPIC_API_KEY"] = "任意のAPIキー"

ちなみに、APIキーの発行手順もシンプル。Anthropic Consoleの「Get API keys」にアクセスして……

Claude API 1

上図青枠「+Create Key」をクリックするだけで、自分用のAPIキーが発行できます。実際にクリックしてみると……

Claude API 2

このようにAPIキーの名前と連携先(Workspace)を指定できる画面が現れます。さらに、空欄を埋めて「Add」をクリックすると……

Claude API 3

以上のとおりAPIキーが発行されました。この発行画面を閉じてしまうとAPIキーの再確認ができなくなってしまいますので、青枠「Copy Key」をクリックしてメモ帳などにペーストしておきましょう。

なお、「API版Claude 3.5 Sonnet / Computer use」の使い方については近日中に公開予定です!ブックマークをしてお待ちください!

なお、Claude 3の中の最速モデル「Haiku」について詳しく知りたい方は、下記の記事を合わせてご確認ください。

Claude 3.5シリーズの実力を試してみた

Claude 3.5 Sonnetの目玉機能である、以下の3つを試してみました。

  • 画像認識とテキスト抽出
  • 画像認識の深層学習モデルの構築
  • Artifacts

画像認識とテキスト抽出

まずは、試しに以下の名刺を画像として読み込ませ、名刺の形式に沿って文字起こしをさせようと思います。

使用するプロンプトは、以下の通りです。

プロンプトはこちら

この名刺をすべて文字起こしし、形式や文字の配置も合わせてコードブロックとして出力してください。

結果は、以下の通りです。

Claude 3 Opusで同様の検証をしてみると、以下のような結果になりました。

両者の比較です。

Opusと比べると、Claude 3 Sonnetの方が、アイコンまで再現してくれています!

また、どちらもモデルも「画像からのテキスト抽出」を高精度で行えているのが分かります。

画像認識の深層学習モデルの構築

次に、コード生成をさせてみます。CIFAR-10を用いて画像認識モデルを構築し、「どちらのLLMで構築したモデルの方が、精度が高いのか」を検証します。

使用したプロンプトは、以下の通りです。

プロンプトはこちら

Create a deep learning model of image recognition using the CIFAR-10 dataset, which is readily available in PyTorch. In doing so, please make the model as accurate as possible.

和訳:

PyTorchで簡単に利用できるCIFAR-10データセットを使用して、画像認識のディープラーニングモデルを作ってください。その際、できるだけ精度の高いモデルを作ってください。

結果は以下の通りです。

生成されたPythonコードはこちら
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
import matplotlib.pyplot as plt
import numpy as np

# Set random seed for reproducibility
torch.manual_seed(42)
torch.backends.cudnn.deterministic = True
torch.backends.cudnn.benchmark = False

# Check if CUDA is available
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

# Define transforms
transform_train = transforms.Compose([
    transforms.RandomCrop(32, padding=4),
    transforms.RandomHorizontalFlip(),
    transforms.ToTensor(),
    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),
])

transform_test = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)),
])

# Load CIFAR-10 dataset
trainset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform_train)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=128, shuffle=True, num_workers=2)

testset = torchvision.datasets.CIFAR10(root='./data', train=False, download=True, transform=transform_test)
testloader = torch.utils.data.DataLoader(testset, batch_size=100, shuffle=False, num_workers=2)

# Define the CNN architecture
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(3, 64, 3, padding=1)
        self.conv2 = nn.Conv2d(64, 128, 3, padding=1)
        self.conv3 = nn.Conv2d(128, 256, 3, padding=1)
        self.conv4 = nn.Conv2d(256, 512, 3, padding=1)
        self.pool = nn.MaxPool2d(2, 2)
        self.fc1 = nn.Linear(512 * 2 * 2, 1024)
        self.fc2 = nn.Linear(1024, 512)
        self.fc3 = nn.Linear(512, 10)
        self.dropout = nn.Dropout(0.2)
        self.batchnorm1 = nn.BatchNorm2d(64)
        self.batchnorm2 = nn.BatchNorm2d(128)
        self.batchnorm3 = nn.BatchNorm2d(256)
        self.batchnorm4 = nn.BatchNorm2d(512)

    def forward(self, x):
        x = self.pool(torch.relu(self.batchnorm1(self.conv1(x))))
        x = self.pool(torch.relu(self.batchnorm2(self.conv2(x))))
        x = self.pool(torch.relu(self.batchnorm3(self.conv3(x))))
        x = self.pool(torch.relu(self.batchnorm4(self.conv4(x))))
        x = x.view(-1, 512 * 2 * 2)
        x = self.dropout(torch.relu(self.fc1(x)))
        x = self.dropout(torch.relu(self.fc2(x)))
        x = self.fc3(x)
        return x

# Initialize the model, loss function, and optimizer
net = Net().to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(net.parameters(), lr=0.001)
scheduler = optim.lr_scheduler.ReduceLROnPlateau(optimizer, 'min', patience=3, factor=0.1)

# Training loop
def train_model(epochs):
    for epoch in range(epochs):
        net.train()
        running_loss = 0.0
        for i, data in enumerate(trainloader, 0):
            inputs, labels = data[0].to(device), data[1].to(device)
            optimizer.zero_grad()
            outputs = net(inputs)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()
            running_loss += loss.item()
        
        # Evaluate on validation set (using test set as validation)
        net.eval()
        val_loss = 0.0
        correct = 0
        total = 0
        with torch.no_grad():
            for data in testloader:
                images, labels = data[0].to(device), data[1].to(device)
                outputs = net(images)
                loss = criterion(outputs, labels)
                val_loss += loss.item()
                _, predicted = torch.max(outputs.data, 1)
                total += labels.size(0)
                correct += (predicted == labels).sum().item()
        
        val_loss /= len(testloader)
        accuracy = 100 * correct / total
        
        print(f'Epoch {epoch + 1}, Training Loss: {running_loss / len(trainloader):.3f}, '
              f'Validation Loss: {val_loss:.3f}, Accuracy: {accuracy:.2f}%')
        
        scheduler.step(val_loss)

# Train the model
train_model(50)

# Evaluate the model
def evaluate_model():
    net.eval()
    correct = 0
    total = 0
    with torch.no_grad():
        for data in testloader:
            images, labels = data[0].to(device), data[1].to(device)
            outputs = net(images)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()

    print(f'Accuracy on test images: {100 * correct / total:.2f}%')

evaluate_model()

コードをGoogle Colabで実行した際の、テストセットの結果は88.18%でした。ちなみに、まったく同様の処理をGPT-4にやらせてみたところ、61%の精度でしたので、かなり良い結果と言えるでしょう。

たった1行プロンプトを入力するだけで、Sonnetが全自動で全プログラムを書いてくれるので便利です。ついでに、かなり精度の高いAIモデルも自動で構築してくれるので、AI開発にも十分利用できそうです!

Artifacts

最後は、今回の目玉機能である「Artifacts」を使って、以下の3つを生成してみました。

  • TransformerのAttention機構の解説アニメーション
  • インベーダーゲーム
  • 株価表示ツール

TransformerのAttention機構の解説アニメーション

初心者でもTransformerのAttention機構をイメージできるように、解説アニメーションを作成させてみました。

ボタン1つで単語間の関係性も、視覚的に分かりやすくなっているので、たたき台としてはかなり良い感じです!

社内研修などでアニメーションを簡単に生成したい場合は、かなり有効なんじゃないでしょうか。

インベーダーゲーム

画面上の操作で遊べる「インベーダーゲーム」を作成させてみました。

当たり判定が少し厳しめですが、かなりリアルで、ゲームとして成り立っているのが凄い!笑

ゲーム作成にも十分使えそうですね。

株価表示ツール

最後に、銘柄を指定するだけで現在の株価を表示させてくれるUIを作成させてみました。

シンプルでありながら、かなり有用なツールが出来上がりました。

こちらの機能をよりリッチにするには、Claude 3.5 Sonnetと会話形式で追加指示を加えるだけ!様々な機能を、直感的に追加できます。

【最新】Computer use

近日中に検証予定です!ブックマークをしてお待ちください!

Claude 3.5シリーズの最新活用事例3選

ここでは、Anthropicが公式Xに投稿した「Claude 3.5 Sonnet / Computer use」の活用事例を3つお届けします。以下、事務作業効率化の例からみていきましょう!

PC内の情報検索と引用

Claude 3.5 SonnetのComputer useなら、PC内のあらゆる情報を全自動でかき集めてくれます。例えば、架空の企業「Ant Equipment Company」から記入を依頼されたフォームについては……

以上のとおり、スプレッドシートからCRMツールまでを探索して記入欄を埋めてくれるんです!

しかもこれは序の口で、今後数ヶ月の間にもっと複雑なタスクがこなせるようになるとのこと。続報が楽しみですね。

プログラミングとバグ修正

Claude 3.5 SonnetのComputer useを使えば、プログラミングの一連の流れが自動化できてしまいます。まずは論より証拠ということで、下記の投稿をご覧ください!

こちらではなんと、以下の流れをComputer useが完全自動化してくれています。

  1. Google Chromeを開く
  2. ブラウザ版Claudeにアクセスする
  3. ブラウザ版Claudeに「90年代風個人サイトのHTMLコード」を生成させる
  4. HTMLコードをダウンロードする
  5. HTMLコードをVS Codeで開く
  6. エラーを修正する

Anthropic曰く「まだまだ改善の余地がある」とのことですが、人間の仕事がなくなってしまわないか心配になるほどの出来栄えです。

旅行プランの立案

Claude 3.5 SonnetのComputer useは、プライベートでも大活躍の予感!下記事例のように、旅程の立案から共有までが自動化可能です。

こちらも……

  1. Google Chromeを開く
  2. 日の出スポットを調べる
  3. Googleマップで自宅からの距離を調べる
  4. 日の出時刻も調べる
  5. Macのカレンダーで旅程を共有する

以上の複雑な処理が自動化できていますね。

もしかしたらOpenAIよりも先に、AnthropicがAGI(汎用人工知能)を完成させてしまうかも……
今後の動向も要チェックです!

なお、Claude 3のプロンプトテクニックについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

最後に

いかがだったでしょうか?

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
ハルシネーション対策AIツールの開発
自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ
無料相談

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、サービス紹介資料もご用意しておりますので、併せてご確認ください。

さらなる進化を遂げるClaude 3.5シリーズ

本記事では、Claude 3シリーズの後継にあたる「Claude 3.5シリーズ」を解説しました。

これまで最強と言われてきた「Claude 3 Opus」や「GPT-4o」よりも、高性能なLLMということで、世界でも大注目の的となっています。

ちなみに、Xでは「GPT-4oよりもスゴイ」などの意見が目立っている模様……

また、今回の目玉機能とも言える「Artifacts」の使いやすさや性能の高さには、界隈でも大盛り上がりの様子です。

最後に

いかがだったでしょうか?

Claude 3.5シリーズの導入やAIエージェントの活用で、貴社の業務効率化をさらに加速させませんか?生成AIの最新技術で競争力を強化し、ビジネスの未来を切り拓く方法をぜひご検討ください。

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

まずは、無料相談にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ
商用利用可能な画像生成AIレポート

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • 中田

    データサイエンス専攻の大学院生。大学では、生成系AIの拡散モデルを用いた音楽生成について研究。 趣味は作曲、サッカー、コーヒー。

  • URLをコピーしました!
  • URLをコピーしました!
目次