에이전틱 웹은 정적인 "클릭, 가져오기, 렌더링" 경험에서 지능형 에이전트가 정보를 검색하고, 다단계 워크플로를 계획하며, 작업을 실행하고, 다른 에이전트와 협력하여 결과를 제공하는 애플리케이션으로의 전환을 의미합니다.
에이전틱 경험은 종종 세션당 수십 또는 수백 개의 연결된 마이크로 추론에 의존합니다. 짧은 지연들이 더해지면 경험을 느려지고 불안정해집니다.
학습은 연산이 많고 불규칙하며, 일반적으로 별개의 주기로 실행됩니다. 추론은 사용자의 상호 작용에 의해 지속적으로 이루어지며, 참여 당 여러 개의 종속 호출을 포함할 수 있습니다.
이는 고도로 분산된 GPU와 엣지 네이티브 결정 기능을 결합하여 글로벌 규모에서 실시간, 분산형, 지연 시간에 민감한 추론을 위해 설계된 인프라 접근 방식입니다.
학습, 미세 조정 및 고성능 또는 "원샷" 추론을 위한 중앙 집중식 AI 팩토리.
사용자 근처의 분산형 GPU 계층을 통한 실시간, 지연 시간에 민감한 추론.
GPU에 도달하기 전에 요청을 평가, 보호 및 라우팅하는 엣지 라우팅 및 보안 계층.
수신 요청을 검증 및 분류하고, 위협과 봇을 필터링하며, 토큰 보안 및 개인정보 보호가 필요한 트래픽을 처리하고, 지연 시간, 비용 및 가용성을 기준으로 최적의 GPU 위치로 요청을 라우팅합니다.
인구 밀집 지역에 GPU를 배치하면 지연 시간이 감소하고 동시 처리량이 증가하며 장거리 네트워크 이동이 최소화됩니다. 이는 실시간 추론 및 에이전틱 오케스트레이션에 매우 중요합니다.
실시간 응답성이 필요하고 사용자 또는 데이터 근처에서 실행되는 워크로드로, 에이전틱 워크플로, 다중 모드 애플리케이션, 그리고 까다로운 미디어/비디오 인텔리전스 시나리오를 포함합니다.
Akamai 플랫폼 분석에 따르면, 지연 시간이 10~15밀리초만 길어져도 중요한 리테일 워크플로우에서 이탈률이 높아질 수 있으며, 이는 마이크로 추론이 연쇄적으로 발생할 때 더욱 두드러지게 나타납니다.
백서에서는 단계별 접근법을 제시합니다. 먼저 분산 추론을 활성화하고, 다음으로 실시간 다중 모달 인텔리전스, 그리고 마지막으로 데이터를 검색하고 작업을 계획하며 다른 에이전트와 협업할 수 있는 완전한 에이전틱 애플리케이션입니다.