【Fara-7B】ブラウザ操作を自動化する次世代エージェントモデルを徹底解説

2025-12-012025-12-02

押さえておきたいポイント

Microsoft 製エージェントモデルで、ブラウザ操作をスクリーンショットだけで実行
多段階のWebタスクを単一モデルで自動化でき、同サイズ帯ではトップクラスの操作精度と効率性を持つ
MIT Licenseで公開され、ローカル環境でも動かせるため、個人・企業問わず導入しやすい実用的モデル

2025年11月、Microsoftから新たなエージェント型の小型言語モデルがリリースされました！

今回リリースされた「Fara-7B」はパソコン操作エージェント向けのモデルです。従来のモデルに比べ性能が高く、コストが抑えられています。

Fara-7B is our first agentic small language model for computer use. This experimental model includes robust safety measures to aid responsible deployment. Despite its size, Fara-7B holds its own against larger, more resource-intensive agentic systems: https://t.co/lT9m0uH4gQ pic.twitter.com/ukaJWEyfod
— Microsoft Research (@MSFTResearch) November 24, 2025

本記事ではFara-7Bの概要から仕組み、実際の使い方について解説をします。本記事を読めばFara-7Bの理解が深まります。ぜひ最後までお読みください！

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

Fara-7Bの概要

Fara-7Bは、Microsoftが開発したコンピューター操作に特化したエージェント型の小型言語モデル（SLM）。

7Bパラメーターというコンパクトな構造でありながら、Webサイトの閲覧やフォーム入力、情報検索といった多段階の操作を自動で実行できます。従来は複数の大規模モデルを組み合わせて構築していたエージェントシステムを、単一のモデルとして動作させられる点が魅力的です。

**参考：https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/**

小型モデルを採用することで、デバイス上で直接動く低レイテンシなエージェント体験を実現。この仕組みにより、操作内容がローカルから外部に送られないため、ユーザーデータの保護にも寄与する構成になっています。

Fara-7Bは、日常のWebタスクを自動化する用途を想定したモデルとして位置付けられており、現時点ではフォーム送信や旅行予約、アカウント管理など、実際のユーザー行動に基づく操作が可能です。

Fara-7Bの仕組み

Fara-7Bの仕組みは、スクリーンショットを介した視覚的理解と、座標ベースのアクション予測です。モデルは、専用の解析エンジンに依存せず、画面をそのまま視認する方式を採用。このアプローチにより、実際の利用環境と乖離しない形で操作を再現できる構造になっています。

Fara-7Bは、ユーザーの指示、直前までの行動履歴、そして最新3枚のスクリーンショットをコンテキストとして取り込みます。これらをまとめて処理することで、現在の画面状況や操作の流れを把握し、次に取るべきアクションを推定。

また、推論の際には「thinking」メッセージとして思考内容を生成し、その後にPlaywright API形式のツールコールを出力する仕組みです。

Fara-7Bが実行するアクションには、click(x,y)やtype()といった基本操作に加えて、web_search()やvisit_url()などのブラウザ特化ツールも含まれます。それぞれの操作は1ステップ単位で処理され、あらゆるWebタスクを「観察 → 思考 → 行動」の連続として進めます。

マルチエージェントから単一モデルへの蒸留構造

Fara-7Bの技術には、Magentic-Oneを基盤とするマルチエージェントのデータ生成パイプラインがあります。

まず、URLを起点としたタスク提案を行い、マルチエージェントがWeb上でタスクを解決し、最後に3種類のVerifierが成功軌跡を検証。

本来であれば、複数のエージェントが役割を分担する高度なプロセスになりますが、Fara-7Bではその一連の挙動を単一モデルに蒸留しています。この設計により、デプロイの容易さと軽量性を両立。

学習に使用されたデータは、145,000の軌跡（累計100万ステップ）で構成されており、軌跡には観察・思考・行動が全て含まれ、UI要素の位置推定やキャプション生成などの補助タスクも加えられています。こうした構造化された多様なデータにより、Web操作に必要な判断力を獲得しています。

ベースモデルと学習方式

Fara-7Bのベースとなるのは、長文コンテキストとUI要素のgroundingに強いQwen2.5-VL-7Bです。本モデルは最大128kトークンの入力に対応し、画面理解の性能が高い点が採用理由として挙げられます。

学習方式はSFT（Supervised Fine-Tuning）に限定されており、強化学習は使用されていません。多段階エージェントシステムの軌跡をそのまま教師データ化したシンプルな方式でありながら、高い操作精度を実現している点が興味深い仕組みです。

なお、Microsoft初の自社モデルであるMAI-Voice-1／MAI-1-previewについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

WEEL

Microsoft初の自社モデル「MAI-Voice-1／MAI-1-preview」徹底解説 | WEEL 押さえておきたいポイントマイクロソフト社の自社開発MAIでOpenAI依存から転換へ MAI-Voice-1：1分音声を数秒で生成 MAI-1-preview：MoE採用で日常質問に強い 2025年8月29…

Fara-7Bの特徴

Fara-7Bには、同サイズ帯のモデルには見られない特徴がいくつかあります。

ここでは、その中でも特に重要なポイントを整理しながら、どのような価値を提供するモデルなのかを解説します。

スクリーンショットのみを用いた操作理解

Fara-7Bは、ブラウザのスクリーンショットだけを入力として扱うシンプルなアーキテクチャを採用。アクセシビリティツリーや追加の画面解析モデルに依存しないため、人間が画面を見るのと同じモダリティで操作内容を把握できます。

この方式は、環境依存性を抑えつつ、幅広いWebサイトに対応できる点にメリットがあります。また、追加コンポーネントを必要としない構造は、導入や移植の容易さにも直結する仕組みです。

7Bパラメーターながら同サイズ帯トップレベルの操作精度

Fara-7Bは、WebVoyager・Online-Mind2Web・DeepShopなどの代表的ベンチマークで同サイズ帯のエージェントモデルを上回る精度を記録。特に、WebTailBenchでは38.4%という高い成功率を示し、UI-TARS-1.5-7BやGPT-4oを用いたSoM Agentより優れた結果です。

少ないステップでタスクを完了できる高い効率性

Fara-7Bは平均16ステップでタスクを完了するのに対し、同じQwen-2.5-VL-7BベースのUI-TARS-1.5-7Bは平均41ステップを要します。同一価格帯の推論コストでありながら、Fara-7Bははるかに効率的。

ステップ数の削減は、回答速度の向上だけでなく、実行時間やトークン消費の削減にも関係します。そのため、継続的に動作する業務エージェント用途でも扱いやすい設計になっています。

マルチエージェントの知識を単一モデルに統合した学習構造

Fara-7Bは、Magentic-Oneを基盤とするマルチエージェントの解法プロセスを蒸留した単一モデルです。145,000軌跡・100万ステップにおよぶ合成データで訓練されており、タスク提案・実行・検証までの複雑な流れを一体化した動作が可能。

こうした蒸留構造は、複雑な操作戦略を小型モデルに圧縮する仕組みであり、デプロイのシンプルさと性能の両立につながります。

Fara-7Bの安全性・制約

Fara-7Bはブラウザ操作を伴うエージェントモデルであるため、安全設計がモデル内部の判断ロジックまで含めて構築されています。

操作ログの可視化やCritical Pointでの停止など、多層的な保護が組み合わされることで、誤操作や意図しない処理を抑制する仕組みです。また、有害タスクを拒否するための学習も加えられており、実際のWeb利用環境でも一定以上の堅牢性を保てる構成になっています。

安全を担保する入力設計と行動の透明性

Fara-7Bは、入力をスクリーンショット・ユーザー指示・行動履歴に限定。アクセシビリティツリーのような追加情報を取得せず、画面上の情報だけで判断するため、外部データの過剰取得を避けられます。

さらに、全てのアクションがログとして記録されるため、操作履歴の確認が可能です。この設計は、利用者が意図しない挙動を検出しやすく、実際の運用でも透明性のあるモデルとして扱える点が特徴でしょう。

Critical Pointによる停止と拒否動作の学習

Fara-7Bは、個人情報入力や送信操作、決済などの不可逆なアクションの直前で必ず停止する仕組みを備えています。モデルはCritical Pointに到達すると行動を中断し、ユーザーの同意を求める動きを学習しており、不本意な送信を防ぐ安全弁として機能します。

**参考：https://www.microsoft.com/en-us/research/wp-content/uploads/2025/11/Fara-7B-An-Efficient-Agentic-Model-for-Computer-Use.pdf**

加えて、有害タスクの拒否を目的とした訓練データも組み込まれており、WebTailBench-Refusalsでは82%の拒否率を記録。危険行為・詐欺・プロンプトインジェクションなどに対応するための拒否学習が実施され、実運用での誤作動リスクを抑える狙いがあります。

実行時の制約とモデルが抱える課題

Fara-7Bはサンドボックス環境での利用が前提。ブラウザ仕様の変化や環境依存エラーが発生する可能性があるため、実務での利用には監視が不可欠です。

また、複雑なタスクでは誤ったUI選択や指示逸脱が起こりやすく、長い操作手順ではハルシネーションが生じる場面もあります。こうした課題は、強化学習やより強力なマルチモーダルモデルを用いることで改善が期待される領域といえるでしょう。

Fara-7Bの料金

Fara-7Bは、Microsoft FoundryやHugging Faceで公開されているオープンウェイトモデルとして提供。

**参考：https://ai.azure.com/explore/models/Fara-7B/version/2/registry/azureml-msr?tid=1da05c0b-6121-440e-a6b3-6228f5f9681c#details**

研究目的や開発環境で使える実験的モデルという位置づけであり、モデル自体の利用価格については明確な金額設定がありません。

Fara-7Bのライセンス

Fara-7Bは、Microsoft FoundryおよびHugging FaceでMIT Licenseとして公開されています。

利用用途	可否	備考
商用利用	⭕️
改変	⭕️
配布	⭕️	元の著作権表示とMIT License の全文を含める
特許使用	⭕️
私的使用	⭕️

Fara-7Bのライセンス

なお、Google DeepMindの次世代AIエージェントであるSIMA 2について詳しく知りたい方は、下記の記事を合わせてご確認ください。

WEEL

SIMA 2とは？Google DeepMindの次世代AIエージェントの仕組み・特徴を徹底解説 | WEEL Google DeepMindが発表した次世代AIエージェント「SIMA 2」の概要、特徴、安全性、想定される活用事例まで分かりやすく解説します。

Fara-7Bの実装方法

Fara-7Bの実装方法としていくつかあります。

Microsoft Foundry
Hugging Face
Magentic-UI に実装済み（実験環境での利用可能）
Windows 11 搭載 Copilot+ PC に AI Toolkit（VSCode）からダウンロード

google colaboratoryを使ってHugging Faceからモデルのダウンロードをしようとしましたが、サーバーをバックグラウンドで起動させておく必要があり、google colaboratoryでの実装は難しそうです。

今回はローカル環境にモデルをダウンロードしてMagentic-UIで利用してみます。

Fara-7B実装環境

◆M4 Pro Mac mini 64GB
◆Python 3.10

まずは仮想環境を作って必要ライブラリのインストール。

事前準備はこちら

conda create -n fara python=3.10 -y
conda activate fara
pip install "magentic-ui[fara]"
python -m playwright install
pip install vllm

vLLMでホスト

vllm serve "microsoft/Fara-7B" \
  --port 5001 \
  --dtype auto \
  --max-model-len 4096 \
  --max-num-batched-tokens 4096 \
  --enforce-eager

fara_config.yamlはこちら

model_config_local_surfer: &client_surfer
  provider: OpenAIChatCompletionClient
  config:
    model: "microsoft/Fara-7B"
    base_url: http://localhost:5001/v1  # vLLM の URL
    api_key: not-needed
  model_info:
    vision: true
    function_calling: true
    json_output: false
    family: "unknown"
    structured_output: false
    multiple_system_messages: false

orchestrator_client: *client_surfer
coder_client: *client_surfer
web_surfer_client: *client_surfer
file_surfer_client: *client_surfer
action_guard_client: *client_surfer
model_client: *client_surfer

ここまでできたらあとは起動するだけです。今回はDockerなしで実装していますので下記コマンドになります。

conda activate fara
magentic-ui --run-without-docker --fara --port 8081 --config fara_config.yaml

起動するとコンソールにhttp://127.0.0.1:8081が表示されるので、アクセスすればOKです。

実際に「Google を開いて「Fara-7B Microsoft」と検索して、最初の3つの記事のタイトルを教えて。」というプロンプトを与えてみましたが、Chromeが起動するところで止まってしまいました。

Fara-7Bの活用事例

Fara-7Bは、画面理解と操作判断を統合した構造を持つため、従来のLLMでは難しかったOSレベルの自動化を実現しやすいです。

特に、テキスト入力だけでアプリやWebページを正確に扱える点は、個人利用から企業業務まで広い用途で利用できます。

ルーティンタスクの自動化

日常的なパソコン操作などルーティンタスクの自動化はFara-7Bでできそうです。

ブラウザ内の情報収集やフォーム入力、メール送信といった軽作業は、画面上の要素を直接解釈しながら進行できるFara-7Bと相性が良いです。また、画像解析を前提としたレイアウト判断により、要素位置が変わっても同じタスクを継続できる点もメリットになります。

さらに、表計算ソフトでのデータ加工をした後、その結果をクラウドストレージへ保存し、チャットツールに共有するまでの流れを単一の指示で処理も可能。視覚的なコンテキストを保持しながら手順を追えるため、工程間の齟齬が起きにくいでしょう。

業務タスクの自動化

また、Webベースの業務アプリケーションに対する自動化もFara-7Bで実現できるのではないでしょうか。

SaaSサービスのダッシュボード更新やレポートダウンロード、管理画面の設定変更といった作業は、UIの変化に弱い既存のRPAでは対応が難しかったです。しかし、Fara-7Bの動的推論であれば、画面内容の変化を理解しながら臨機応変に判断を下せます。

Fara-7Bを実際に使ってみた

Fara-7Bを実際にgoogle colaboratory・ローカル環境で使ってみました。

google colaboratoryでは実装途中でバックグラウンド処理が必要であり、実装が難しく、ローカル環境では使用デバイスに左右されるため、誰でもできるというわけではなさそうです。

うまく動かせると下記動画のようにネットショッピングなどを自動化することができます。

参考：https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/

なお、カーソルの動きで動画を編集できる最先端動画生成AIであるDragNUWAについて詳しく知りたい方は、下記の記事を合わせてご確認ください。

WEEL

【DragNUWA】カーソルの動きで動画を編集できる最先端動画生成AIの概要・性能・使い方まで | WEEL DragNUWAの概要や使ってみた感想をお伝えします。DragNUWAは、テキスト、画像、軌跡を主要な制御要素として利用するビデオ生成モデルです。最新の動画生成AIに興味がある方…

まとめ

本記事ではFara-7Bの概要から仕組み、実際に使ってみた所感について解説をしました。google colaboratoryでは実装が難しい一方で、Foundryをこれまで使ったことがある方はFoundryからも利用できるようなので、ぜひ試してみてください。

最後に

いかがだったでしょうか？

「どの業務がAIで自動化できるか分からない」「PoCから伴走してほしい」という企業の方に向けて、最新モデルを活用した業務改善を支援しています。ご興味があればお気軽にご相談ください。

株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです！

開発実績として、

・新規事業室での「リサーチ」「分析」「事業計画検討」を70％自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80％削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント

などの開発実績がございます。

生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ