生成AI

最終更新日:2025/04/22
browser-useとは?
ネット検索といった定型的なタスクを効率化して、自分が自由に使える時間を増やしたいけれど、何か良い方法はないか悩んでいる人はいませんか?
仕事を効率化するには、人間とAIがそれぞれ得意なことを切り分けて、効率的にできることはAIに任せることも1つの方法です。
この記事では、人手不足の中さらに仕事の効率化を進めたい人に知ってほしい、browser-useについて詳しく解説します。
browser-useとは、Gregor Zunic氏が開発した、Webブラウザを自動操作してタスクを実行することができるAIエージェントです。
browser-useでは以下のようなことができます。
| 項目 | 概要 |
| ブラウザ自動化 | 高度なAI機能と強力なブラウザ自動化を組み合わせ、AIエージェントによるスムーズなWeb操作を実現する |
| 視覚+HTML抽出 | 視覚的な理解とHTML構造の抽出を組み合わせ、包括的なWeb操作を可能にする |
| マルチタブ管理 | 複数のブラウザタブを自動で処理し、複雑なワークフローや並行処理を実現する |
| エレメント追跡 | クリックされたボタンやリンクの位置(XPath)を記録し、AIが同じ操作を正確に再現できるようにする |
| カスタムアクション | ファイル保存、データベース操作、通知、人間の入力処理など、独自のアクションを追加できる |
| 自己修正機能 | エラーが発生してもAIが自動で問題を検出・修正し、スムーズに処理を続けられる |
| LLM対応 | GPT-4、Claude 3、Llama 2 を含むすべての LangChain LLM に対応している |
複数のタブを開いて同時進行でタスクを行ったり、エラーを修正することができるため、より人間のブラウザ操作に近い動きができる点が特徴的です。
画像出典:browser-use「ブラウザの使用 = 最先端の Web エージェント」
browser-useは、オンラインのWebサイト上でAIモデルの性能をテストするためのベンチマークである「WebVoyager」で、586種類のWebタスクにおいて89.1%の成功率を記録しました。
browser-useの各Webサイト上における成功率は以下の通りです。
| Webサイト | 成功率 | タスクを完了するまでに必要とした操作回数 |
| Huggingface | 100% | 9.7 |
| Google Flights | 95% | 36.2 |
| Amazon | 92% | 14.7 |
| GitHub | 92% | 15.9 |
| Apple | 91% | 12.5 |
| BBC News | 91% | 18.2 |
| Cambridge Dictionary | 91% | 16.7 |
| Allrecipes | 90% | 18.3 |
| Coursera | 90% | 8.5 |
| Google Search | 90% | 14.4 |
| Google Map | 86% | 14.9 |
| ESPN | 85% | 21.0 |
| ArXiv | 83% | 17.6 |
| Wolfram Alpha | 83% | 18.4 |
| Booking | 80% | 32.7 |
WebVoyagerのベンチマークではうまくテストできない場合もあったため、数値は今のbrowser-useの状態を完全に表しているわけではありません。
しかし、多くの人が普段からよく使用するAmazon、Google Search、Google Mapなどのサイトで成功率が高く、完了までの操作回数が少ないのは好ましい結果であると言えます。
browser-useでは、今後手動で修正したテスト結果をもっと透明化し、他のモデルや設定でのテストも行っていきたいとしています。
参考:browser-use「ブラウザの使用 = 最先端の Web エージェント」
browser-useで使えるAIモデルについて、プロバイダとAIモデルの2つにわけてご紹介します。
この場合のプロバイダとは、AIモデルを提供している企業や団体を指しますが、browser-useではプロバイダに応じて以下のようにできることが異なります。
| プロバイダ | ツール呼び出し | 構造化出力 | JSONモード | ローカル環境での使用 | マルチモーダル対応 | パッケージ |
| ChatAnthropic | 〇 | 〇 | × | × | 〇 | langchain-anthropic |
| ChatMistralAI | 〇 | 〇 | × | × | × | langchain-mistralai |
| ChatFireworks | 〇 | 〇 | 〇 | × | × | langchain-fireworks |
| AzureChatOpenAI | 〇 | 〇 | 〇 | × | 〇 | langchain-openai |
| ChatOpenAI | 〇 | 〇 | 〇 | × | 〇 | langchain-openai |
| ChatTogether | 〇 | 〇 | 〇 | × | × | langchain-together |
| ChatVertexAI | 〇 | 〇 | × | × | 〇 | langchain-google-vertexai |
| ChatGoogleGenerativeAI | 〇 | 〇 | × | × | 〇 | langchain-google-genai |
| ChatGroq | 〇 | 〇 | 〇 | × | × | langchain-groq |
| ChatCohere | 〇 | 〇 | × | × | × | langchain-cohere |
| ChatBedrock | 〇 | 〇 | × | × | × | langchain-aws |
| ChatHuggingFace | 〇 | 〇 | × | 〇 | × | langchain-huggingface |
| ChatNVIDIA | 〇 | 〇 | 〇 | 〇 | 〇 | langchain-nvidia-ai-endpoints |
| ChatOllama | 〇 | 〇 | 〇 | 〇 | × | langchain-ollama |
| ChatLlamaCpp | 〇 | 〇 | × | 〇 | × | langchain-community |
| ChatAI21 | 〇 | 〇 | × | × | × | langchain-ai21 |
| ChatUpstage | 〇 | 〇 | × | × | × | langchain-upstage |
| ChatDatabricks | 〇 | 〇 | × | × | × | databricks-langchain |
| ChatWatsonx | 〇 | 〇 | 〇 | × | × | langchain-ibm |
| ChatXAI | 〇 | 〇 | × | × | × | langchain-xai |
AIモデルを選ぶ前に、自分のやりたいことがプロバイダ別の機能に含まれているかどうかをあらかじめ確認しておきましょう。
browser-useで使えるAIモデルは、2025年2月現在78個あり、Langchainの「Chat models」というページから内容を確認できます。
全てのAIモデルについては解説ページがあり、概要やセットアップ方法などがわかるようになっています。
例えばChatAbsoを選んだ場合、ChatAbsoのページでChatAbsoのAIモデルとしての概要、セットアップ方法、インストール方法などを確認してから使用するとよいでしょう。
browser-useを使うのにかかる費用は以下の通りです。
| 項目 | オープンソースプラン | Proプラン | Enterpriseプラン |
| 料金 |
|
|
|
| 機能 |
|
|
|
| ライブラリアクセス |
|
|
|
| サポート | ー |
|
|
| その他 |
|
|
|
最初は無料プランでお試し利用をしてみて、慣れたら使いたい機能に応じて有料プランに移行することをおすすめします。
browser-useの使い方を、クラウド環境とローカル環境の2つにわけてご紹介します。
browser-useをクラウド環境で使う場合、まず公式ホームページにアクセスします。
①「Go to Browser Use Cloud」をクリックする
画像出典:browser-use公式ホームページ
②GitHub、Google、Eメールアドレスのどれかでサインインする
画像出典:browser-use公式ホームページ
③プランの選択画面が出てくるためいずれかを選択する
画像出典:browser-use公式ホームページ
④サインインが完了する
画像出典:browser-use公式ホームページ
複雑な操作は必要としないため、画像の手順を確認しながらサインインをしてみましょう。
browser-useをそのままローカル環境で使う場合、以下のような作業をしなければならない可能性があります。
このような手間を省き、ブラウザ上でbrowser-useを使えるようにするためのツールがbrowser-use-Web UIです。
browser-use-Web UIのインストール方法をご紹介します。
browser-useのソースコードをGitリポジトリからダウンロード(クローン)するために使うGitと、browser-useはPythonで構築されているため、Pythonをインストールしましょう。
Gitのインストール手順は以下の通りです。
また、Pythonのダウンロード手順は以下の通りです。
複数のツールをインストールする場合、手順を間違えないよう慎重に行います。
プロバイダによって手順が異なりますが、ローカル環境でbrowser-useを動かすためにはAPIキーを取得する必要があります。
例えばOpenAIを選ぶとしたら、OpenAI APIキーを取得しなければなりません。
OpenAI APIキーを取得する手順は以下の通りです。
また、ブラウザに対しbrowser-useが操作しても大丈夫である認識させるためには、実行ファイルのパスが必要となります。
browser-useでChromeを操作したい場合に必要なパスを確認するための手順は以下の通りです。
APIキーもパスもセキュリティ上重要であるため、悪用されないよう厳重に保管する必要があります。
browser-use-Web UIを以下の手順でインストールします。
仮想環境はPC内で他のものに影響を与えないようにすることを目的として作成します。
クラウド環境より複雑な設定が必要ですが、ローカル環境での使用はbrowser-useをセキュリティのしっかりした環境でカスタマイズして使いたい人におすすめです。
browser-useとは、Webブラウザを自動操作してタスクを実行することができるAIエージェントです。
人間の操作に近い形でブラウザを操作でき、操作の正確性も高まってきているのでぜひ積極的に活用してみてください。
アイスマイリーでは、AIエージェントサービスと提供企業の一覧を無料配布しています。課題や目的に応じたサービスを比較検討できますので、ぜひこの機会にお問い合わせください。
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI製品・ソリューションの掲載を
希望される企業様はこちら