browser-useとは？使い方からインストール方法まで解説

最終更新日:2025/04/22

browser-useとは？

ネット検索といった定型的なタスクを効率化して、自分が自由に使える時間を増やしたいけれど、何か良い方法はないか悩んでいる人はいませんか？

仕事を効率化するには、人間とAIがそれぞれ得意なことを切り分けて、効率的にできることはAIに任せることも1つの方法です。

この記事では、人手不足の中さらに仕事の効率化を進めたい人に知ってほしい、browser-useについて詳しく解説します。

browser-useとは？

browser-useとは、Gregor Zunic氏が開発した、Webブラウザを自動操作してタスクを実行することができるAIエージェントです。

browser-useでは以下のようなことができます。

項目	概要
ブラウザ自動化	高度なAI機能と強力なブラウザ自動化を組み合わせ、AIエージェントによるスムーズなWeb操作を実現する
視覚＋HTML抽出	視覚的な理解とHTML構造の抽出を組み合わせ、包括的なWeb操作を可能にする
マルチタブ管理	複数のブラウザタブを自動で処理し、複雑なワークフローや並行処理を実現する
エレメント追跡	クリックされたボタンやリンクの位置（XPath）を記録し、AIが同じ操作を正確に再現できるようにする
カスタムアクション	ファイル保存、データベース操作、通知、人間の入力処理など、独自のアクションを追加できる
自己修正機能	エラーが発生してもAIが自動で問題を検出・修正し、スムーズに処理を続けられる
LLM対応	GPT-4、Claude 3、Llama 2 を含むすべての LangChain LLM に対応している

複数のタブを開いて同時進行でタスクを行ったり、エラーを修正することができるため、より人間のブラウザ操作に近い動きができる点が特徴的です。

参考：browser-use公式ホームページ

browser-useの性能

画像出典：browser-use「ブラウザの使用 = 最先端の Web エージェント」

browser-useは、オンラインのWebサイト上でAIモデルの性能をテストするためのベンチマークである「WebVoyager」で、586種類のWebタスクにおいて89.1%の成功率を記録しました。

browser-useの各Webサイト上における成功率は以下の通りです。

Webサイト	成功率	タスクを完了するまでに必要とした操作回数
Huggingface	100%	9.7
Google Flights	95%	36.2
Amazon	92%	14.7
GitHub	92%	15.9
Apple	91%	12.5
BBC News	91%	18.2
Cambridge Dictionary	91%	16.7
Allrecipes	90%	18.3
Coursera	90%	8.5
Google Search	90%	14.4
Google Map	86%	14.9
ESPN	85%	21.0
ArXiv	83%	17.6
Wolfram Alpha	83%	18.4
Booking	80%	32.7

WebVoyagerのベンチマークではうまくテストできない場合もあったため、数値は今のbrowser-useの状態を完全に表しているわけではありません。

しかし、多くの人が普段からよく使用するAmazon、Google Search、Google Mapなどのサイトで成功率が高く、完了までの操作回数が少ないのは好ましい結果であると言えます。

browser-useでは、今後手動で修正したテスト結果をもっと透明化し、他のモデルや設定でのテストも行っていきたいとしています。

参考：browser-use「ブラウザの使用 = 最先端の Web エージェント」

browser-useで使えるAIモデル

browser-useで使えるAIモデルについて、プロバイダとAIモデルの2つにわけてご紹介します。

プロバイダ

この場合のプロバイダとは、AIモデルを提供している企業や団体を指しますが、browser-useではプロバイダに応じて以下のようにできることが異なります。

プロバイダ	ツール呼び出し	構造化出力	JSONモード	ローカル環境での使用	マルチモーダル対応	パッケージ
ChatAnthropic	〇	〇	×	×	〇	langchain-anthropic
ChatMistralAI	〇	〇	×	×	×	langchain-mistralai
ChatFireworks	〇	〇	〇	×	×	langchain-fireworks
AzureChatOpenAI	〇	〇	〇	×	〇	langchain-openai
ChatOpenAI	〇	〇	〇	×	〇	langchain-openai
ChatTogether	〇	〇	〇	×	×	langchain-together
ChatVertexAI	〇	〇	×	×	〇	langchain-google-vertexai
ChatGoogleGenerativeAI	〇	〇	×	×	〇	langchain-google-genai
ChatGroq	〇	〇	〇	×	×	langchain-groq
ChatCohere	〇	〇	×	×	×	langchain-cohere
ChatBedrock	〇	〇	×	×	×	langchain-aws
ChatHuggingFace	〇	〇	×	〇	×	langchain-huggingface
ChatNVIDIA	〇	〇	〇	〇	〇	langchain-nvidia-ai-endpoints
ChatOllama	〇	〇	〇	〇	×	langchain-ollama
ChatLlamaCpp	〇	〇	×	〇	×	langchain-community
ChatAI21	〇	〇	×	×	×	langchain-ai21
ChatUpstage	〇	〇	×	×	×	langchain-upstage
ChatDatabricks	〇	〇	×	×	×	databricks-langchain
ChatWatsonx	〇	〇	〇	×	×	langchain-ibm
ChatXAI	〇	〇	×	×	×	langchain-xai

AIモデルを選ぶ前に、自分のやりたいことがプロバイダ別の機能に含まれているかどうかをあらかじめ確認しておきましょう。

AIモデル

browser-useで使えるAIモデルは、2025年2月現在78個あり、Langchainの「Chat models」というページから内容を確認できます。

全てのAIモデルについては解説ページがあり、概要やセットアップ方法などがわかるようになっています。

例えばChatAbsoを選んだ場合、ChatAbsoのページでChatAbsoのAIモデルとしての概要、セットアップ方法、インストール方法などを確認してから使用するとよいでしょう。

参考：browser-use「サポートされているモデル」

参考：Langchain「Chat models」

browser-useを使うのにかかる費用

browser-useを使うのにかかる費用は以下の通りです。

項目	オープンソースプラン	Proプラン	Enterpriseプラン
料金	$0（無料）	$30 /月	要問い合わせ
機能	すべてのコア機能	オープンソースプランの機能はすべて使用可能	オープンソースプランおよびProプランの内容に加え、カスタマイズ対応
ライブラリアクセス	フルライブラリアクセスが可能	無制限アクセス	無制限アクセス
サポート	ー	優先サポート	専用サポートチーム
その他	セルフホスト（自分でホスティングして運用する） MITライセンス	毎月30ドル分のAPIクレジットが含まれる	オンプレミスでのデプロイ対応 SLA保証カスタムインテグレーション

最初は無料プランでお試し利用をしてみて、慣れたら使いたい機能に応じて有料プランに移行することをおすすめします。

参考：browser-use公式ホームページ

browser-useの使い方

browser-useの使い方を、クラウド環境とローカル環境の2つにわけてご紹介します。

クラウド環境

browser-useをクラウド環境で使う場合、まず公式ホームページにアクセスします。

①「Go to Browser Use Cloud」をクリックする

画像出典：browser-use公式ホームページ

②GitHub、Google、Eメールアドレスのどれかでサインインする

画像出典：browser-use公式ホームページ

③プランの選択画面が出てくるためいずれかを選択する

画像出典：browser-use公式ホームページ

④サインインが完了する

画像出典：browser-use公式ホームページ

複雑な操作は必要としないため、画像の手順を確認しながらサインインをしてみましょう。

参考：browser-use公式ホームページ

ローカ

browser-useをそのままローカル環境で使う場合、以下のような作業をしなければならない可能性があります。

browser-useを動かすために必要なパッケージやライブラリのインストール
（必要あれば）ローカルサーバーのセットアップ
ブラウザの自動化設定
APIキーや設定ファイル（JSONやYAML）の管理
ブラウザの動作環境のセットアップ
（うまく動かない場合）エラーのログやデバッグ

このような手間を省き、ブラウザ上でbrowser-useを使えるようにするためのツールがbrowser-use-Web UIです。

browser-use-Web UIのインストール方法をご紹介します。

ツールをインストールする

browser-useのソースコードをGitリポジトリからダウンロード（クローン）するために使うGitと、browser-useはPythonで構築されているため、Pythonをインストールしましょう。

Gitのインストール手順は以下の通りです。

Gitの公式ホームページにアクセスする

「Downloads」のページから「macOS」「Windows」「Linux」のどれかを選んでダウンロード
インストーラを起動して画面の指示に従う
インストール後、Powershellで「git –version」というコマンドでGitが正しくインストールされているか確認する

また、Pythonのダウンロード手順は以下の通りです。

Python公式ホームページにアクセスする
最新版のPythonをダウンロードする
インストーラーを起動し、「Add Python to PATH」にチェックを入れてインストールする
インストール後、Powershellで「python –version」というコマンドでPythonが正しくインストールされているか確認する

複数のツールをインストールする場合、手順を間違えないよう慎重に行います。

設定に必要な情報を取得する

プロバイダによって手順が異なりますが、ローカル環境でbrowser-useを動かすためにはAPIキーを取得する必要があります。

例えばOpenAIを選ぶとしたら、OpenAI APIキーを取得しなければなりません。

OpenAI APIキーを取得する手順は以下の通りです。

OpenAI開発者プラットフォームにアクセスする
アカウントにログインする
右上の自分のアバターをクリックして「API keys」のセクションを選択する
「Create new secret key」というボタンをクリックする
新しいAPIキーが表示されるのでコピーして安全な場所に保管する

また、ブラウザに対しbrowser-useが操作しても大丈夫である認識させるためには、実行ファイルのパスが必要となります。

browser-useでChromeを操作したい場合に必要なパスを確認するための手順は以下の通りです。

検索バーに「Google Chrome」と入力する
Chromeのショートカットを右クリックし、「ファイルの場所を開く」を選択する
表示されたショートカットを右クリックし、「プロパティ」を選択する
「リンク先」フィールドにChromeの実行可能ファイルへのパスが表示されるのでコピーして安全な場所に保管する

APIキーもパスもセキュリティ上重要であるため、悪用されないよう厳重に保管する必要があります。

browser-use-Web UIをインストールする

browser-use-Web UIを以下の手順でインストールします。

インストールフォルダを作成する
「git clone https://github.com/example/browser-use-ui.git .」というコマンドを実行してbrowser-use-Web UIリポジトリをクローンする
dir コマンドで配置ファイルを確認する
仮想環境用フォルダを作成する

仮想環境はPC内で他のものに影響を与えないようにすることを目的として作成します。

クラウド環境より複雑な設定が必要ですが、ローカル環境での使用はbrowser-useをセキュリティのしっかりした環境でカスタマイズして使いたい人におすすめです。