エージェンティック Web は、静的な「クリック、フェッチ(取得)、レンダリング(描画)」という体験から、インテリジェントエージェントが情報を取得し、複数ステップのワークフローを計画し、アクションを実行し、他のエージェントと協力して成果を出すアプリケーションへの移行を指します。
エージェンティックな体験を左右するのは、多くの場合、セッションごとに連鎖して行われる数十から数百のマイクロ推論です。わずかな遅延でさえ、積み重なれば、遅く、不安定な体験につながります。
トレーニングは計算負荷が高く、集中的で、通常は個別のサイクルで実行されます。推論は継続的で、ユーザーインタラクションによって実行され、エンゲージメントごとに複数の従属的なコールが関わる場合があります。
高度に分散された GPU とエッジネイティブの意思決定を組み合わせて使用し、レイテンシーの影響を受けやすいリアルタイムの分散型推論をグローバル規模で実現するように設計されたインフラアプローチです。
トレーニングを行い、微調整し、大量または「ワンショット(1 回限り)」の推論を行うための一元化された AI ファクトリーです。
ユーザーの近くに分散型 GPU の層を配置し、レイテンシーの影響を受けやすいリアルタイムの推論を実現します。
GPU に到達する前にリクエストを評価し、セキュリティを確保し、ルーティングするためのエッジルーティングおよびセキュリティレイヤーを備えています。
受信リクエストの検証と分類、脅威とボットのフィルタリング、トークンセキュリティとプライバシーに配慮したトラフィックの処理、および、レイテンシー、コスト、可用性に基づいた最適な GPU ロケーションへのリクエストのルーティングを行います。
GPU を人口集中地の近くに配置することで、レイテンシーが低減され、同時実行性が向上し、長距離ネットワーク移動が最小限に抑えられます。これは、リアルタイム推論とエージェンティックオーケストレーションに不可欠なことです。
リアルタイムの応答性を必要とし、ユーザーやデータの近くで実行されるワークロード(エージェンティックワークフロー、マルチモーダルアプリケーション、要求の厳しいメディア/動画のインテリジェンスシナリオなど)です。
Akamai のプラットフォーム分析によると、10~15 ミリ秒の遅延が増加すると、重要な小売ワークフローの間の離脱率が増加する可能性があります。このことは、マイクロ推論が連鎖している場合に特に顕著にみられます。
本ホワイトペーパーでは、フェーズの概要を説明しています。まず分散型推論の有効化について論じ、次にリアルタイムのマルチモーダルインテリジェンス、そして、データの取得、タスクの計画、他のエージェントとのコラボレーションを可能にする完全なエージェンティックアプリケーションの話題へと展開します。