「AIエージェント」とは結局何者で、「RPA」と何が違うのか?:AI時代の自動化を考察する【前編】
「RPA」と「AIエージェント」はどちらも業務効率化に役立つ技術だが、それぞれの特徴を正確に理解している人はどれだけいるだろうか。両者の基本的な仕組みを解説する。
業務自動化を進める企業は、ある選択を迫られている。安定性と実績に優れた「RPA」(ロボティックプロセスオートメーション)を使い続けるか、それともまだ実証段階にありながらも、より業務に適合する可能性を秘めた「AIエージェント」(AI:人工知能)を試してみるかだ。企業はどちらを選ぶべきなのか。RPAとAIエージェントの基本的な仕組みや代表的なツールを取り上げ、両者の違いを整理する。
「AIエージェント」は何者? 「RPA」とは何が違うのか
RPA
RPAは、あらかじめ定義されたルールに基づいて、反復的かつ構造化された業務を自動で処理する技術だ。botが人間の操作を模倣し、クリック、入力、コピー&ペースト、データ処理といった作業を実行する。
RPAには大きく分けてGUI(グラフィカルユーザーインタフェース)ベースと、API(アプリケーションプログラミングインタフェース)ベースの2つのタイプがある。
- GUIベース
- ユーザーの画面操作を記録し、それを再生することで自動化を実現する
- APIベース
- ドラッグ&ドロップ形式のエディターなどのツールを用いたマウス操作で、複数のシステムを連携させ、自動処理ワークフローを構築する
RPAのbotには、ユーザーの操作を伴って実行される「アテンド型」と、人の介入なしで自律的に稼働する「アンアテンド型」がある。いずれの場合も、RPAはあらかじめ定義された手順に従って処理を実行するため、事前に想定されていない事象が発生するとエラーになる点に注意が必要だ。
RPAは、一般的に以下のようなツールや機能で構成される。
- オートメーションツール
- 業務フローを設計および開発し、自動化処理を構築するための中核的なツール
- コネクター
- 主要な業務アプリケーションやクラウドサービスとRPAを連携させ、外部システムとの統合を容易にするための仕組み
- プロセスマイニングおよび分析機能
- 業務プロセスの実際の流れを可視化および分析し、RPA導入の適所を発見、改善するツール
- AIテンプレート
- AI機能を業務フローに組み込むためのテンプレート
- botオーケストレーション機能
- 複数のbotを一元管理し、実行タイミングやエラー時の処理を制御するための機能
RPAベンダーには、Automation Anywhere、EdgeVerve、IBM、Microsoft、Nice、Nintex、Pega、SAP、ServiceNow、SS&C Blue Prism、Tungsten Automation、UiPathなどがある。
AIエージェント
AIエージェントは、大規模言語(LLM)をベースに構築されたプログラムで、外部ツールと連携してタスクを自律的に遂行する。AIエージェントには、ユーザーとのインタラクションを前提とする設計のものと、指示後は人手を介さずに自律的にタスクを実行する自己完結型のものがある。
AIエージェントの中核には「オーケストレーションフレームワーク」と呼ばれる仕組みがあり、一連の処理を制御したり、外部ツールとの連携を支援したりする役割を担う。代表的なものには以下がある。
- CrewAIの「CrewAI」
- Googleの「Vertex AI Agent Builder」
- Hugging Faceの「smolagents」
- DataStaxの「Langflow」
- Lettaの「Letta」
- LlamaIndexの「LlamaIndex」
- LangGraphの「LangGraph」
- Microsoftの「AutoGen and Semantic Kernel」
- OpenAIの「Swarm」
AIエージェントは、プロンプト(AIモデルへの指示)を受け取った時点でタスク処理を開始する。まずLLMがプロンプトを解析し、学習済みの知識や推論に基づいて実行すべきアクションを決定する。その後、Web検索、ドキュメント検索、コード実行、関数やAPIの呼び出しなど、必要な処理を段階的に実行する。
現時点で、「あらゆるタスクに対処できる完全自律型の汎用(はんよう)AIエージェント」はまだ登場していない。実用化に至っているのは「ナロー(特化型)AI」で、一定のユーザー指示を受けつつ、限定された範囲のタスクを実行する。
ナローAIの代表例として、AIベンダーOpenAI、xAI、Perplexity AIなどが提供する「DeepSearch」「DeepResearch」がある。これらの機能は、ユーザーの要求に応じてインターネットを検索し、情報収集や詳細なレポート作成を遂行する。
PC操作機能を備えたLLMも登場している。ユーザーのPC画面を直接操作してタスクを実行でき、GUIベースのRPAに近い動作が可能となる。例えば、Anthropicの「Computer Use」、Googleの「Mariner」、OpenAIの「Operator」などがこうした機能を搭載している。
中編は、業務の性質に応じたRPAとAIエージェントの使い分け方を解説する。
TechTarget発 世界のインサイト&ベストプラクティス
米国Informa TechTargetの豊富な記事の中から、さまざまな業種や職種に関する動向やビジネスノウハウなどを厳選してお届けします。
Copyright © ITmedia, Inc. All Rights Reserved.