このホワイトペーパーで説明されている 3 層アーキテクチャとは何ですか？

1. トレーニングを行い、微調整し、大量または「ワンショット（1 回限り）」の推論を行うための一元化された AI ファクトリーです。2.ユーザーの近くに分散型 GPU の層を配置し、レイテンシーの影響を受けやすいリアルタイムの推論を実現します。 3. GPU に到達する前にリクエストを評価し、セキュリティを確保し、ルーティングするためのエッジルーティングおよびセキュリティレイヤーを備えています。

エージェンティック Web の設計

重要ポイント：

エージェンティックアプリケーションはレイテンシーの制約を受けます。結果が数十から数百の連鎖マイクロ推論に依存している場合、小さな遅延が積み重なり、ユーザー体験の悪化につながります。
レイテンシーには、測定可能なビジネスインパクトをもたらします。Akamai の分析によると、わずか 10～15 ミリ秒の遅延増加でも、重要な小売ワークフロー内の離脱率が増加する可能性があります。
トレーニングではなく、推論が主要な AI ワークロードになりつつあります。推論は継続的に実行され、ユーザーインタラクションに結び付くものですが、トレーニングは集中的に実行される周期的な処理です。
Akamai Cloud for Inference は、3 層アーキテクチャを採用しています。トレーニングと大量の推論を行うための一元化された AI ファクトリー、ユーザーの近くでリアルタイム推論を行うための分散型 GPU に加え、リクエストの評価、保護、ルーティングを行うためのエッジルーティングとセキュリティレイヤーを備えています。
分散型 GPU は、長距離ネットワーク移動を削減し、同時実行性を向上させます。近接したコンピューティングにより、レイテンシーの影響を受けやすい推論にもミリ秒レベルの応答性を実現します。
エッジルーティングとセキュリティレイヤーが、高価な GPU キャパシティを保護します。リクエストを検証して分類し、脅威とボットをフィルタリングし、レイテンシー、コスト、可用性に基づき最適な GPU ロケーションにルーティングします。
実際のメディアワークフローからわかる、近接性が重要である理由。例としては、8K VR ブロードキャストや、分散型推論によって実現するほぼリアルタイムの動画の決定（約 35 ミリ秒）などがあります。
エージェンティック Web の設計

残念ながら、このページにアクセスしているブラウザ/OS はこの機能をサポートしていません。 PDFにアクセスできます here

よくある質問（FAQ）

エージェンティック Web は、静的な「クリック、フェッチ（取得）、レンダリング（描画）」という体験から、インテリジェントエージェントが情報を取得し、複数ステップのワークフローを計画し、アクションを実行し、他のエージェントと協力して成果を出すアプリケーションへの移行を指します。

エージェンティックな体験を左右するのは、多くの場合、セッションごとに連鎖して行われる数十から数百のマイクロ推論です。わずかな遅延でさえ、積み重なれば、遅く、不安定な体験につながります。

トレーニングは計算負荷が高く、集中的で、通常は個別のサイクルで実行されます。推論は継続的で、ユーザーインタラクションによって実行され、エンゲージメントごとに複数の従属的なコールが関わる場合があります。

高度に分散された GPU とエッジネイティブの意思決定を組み合わせて使用し、レイテンシーの影響を受けやすいリアルタイムの分散型推論をグローバル規模で実現するように設計されたインフラアプローチです。

トレーニングを行い、微調整し、大量または「ワンショット（1 回限り）」の推論を行うための一元化された AI ファクトリーです。
ユーザーの近くに分散型 GPU の層を配置し、レイテンシーの影響を受けやすいリアルタイムの推論を実現します。
GPU に到達する前にリクエストを評価し、セキュリティを確保し、ルーティングするためのエッジルーティングおよびセキュリティレイヤーを備えています。

受信リクエストの検証と分類、脅威とボットのフィルタリング、トークンセキュリティとプライバシーに配慮したトラフィックの処理、および、レイテンシー、コスト、可用性に基づいた最適な GPU ロケーションへのリクエストのルーティングを行います。

GPU を人口集中地の近くに配置することで、レイテンシーが低減され、同時実行性が向上し、長距離ネットワーク移動が最小限に抑えられます。これは、リアルタイム推論とエージェンティックオーケストレーションに不可欠なことです。

リアルタイムの応答性を必要とし、ユーザーやデータの近くで実行されるワークロード（エージェンティックワークフロー、マルチモーダルアプリケーション、要求の厳しいメディア／動画のインテリジェンスシナリオなど）です。

Akamai のプラットフォーム分析によると、10～15 ミリ秒の遅延が増加すると、重要な小売ワークフローの間の離脱率が増加する可能性があります。このことは、マイクロ推論が連鎖している場合に特に顕著にみられます。

本ホワイトペーパーでは、フェーズの概要を説明しています。まず分散型推論の有効化について論じ、次にリアルタイムのマルチモーダルインテリジェンス、そして、データの取得、タスクの計画、他のエージェントとのコラボレーションを可能にする完全なエージェンティックアプリケーションの話題へと展開します。

Akamai Cloud

Akamai Security

Akamai のグローバルインフラ

エージェンティック Web の設計

重要ポイント：

よくある質問（FAQ）

エージェンティック Web とは何ですか？

エージェンティック AI に超低レイテンシーが必要なのはなぜですか？

推論とトレーニングの違いは何ですか？

Akamai Cloud for Inference とは何ですか？

このホワイトペーパーで説明されている 3 層アーキテクチャとは何ですか？

エッジルーティングとセキュリティレイヤーは AI 推論においてどのような役割を果たしますか？

集約されたクラウドリージョンに依存するのではなく、GPU を地理的に分散させるのはなぜですか？

分散型推論から最もメリットを得られるのはどのようなワークロードですか？

わずかなレイテンシーの増加はビジネスにどのような影響を与えますか？

このホワイトペーパーでは、エージェンティックアプリケーションへの進化についてどのように説明していますか？