2026.03.17 (화)

  • 맑음동두천 -1.3℃
  • 맑음강릉 5.3℃
  • 연무서울 2.6℃
  • 연무대전 1.3℃
  • 박무대구 3.5℃
  • 구름많음울산 5.0℃
  • 박무광주 4.1℃
  • 흐림부산 8.0℃
  • 구름많음고창 -0.2℃
  • 구름많음제주 6.7℃
  • 맑음강화 -1.5℃
  • 맑음보은 -1.8℃
  • 맑음금산 -1.1℃
  • 구름많음강진군 2.2℃
  • 맑음경주시 1.5℃
  • 구름많음거제 5.7℃
기상청 제공

웨카, 엔비디아 BlueField-4 STX에서 더 낮은 토큰당 비용으로 토큰 출력 극대화

뉴럴메시 및 증강 메모리 그리드의 엔비디아 STX 통합으로 동일한 GPU 환경에서 토큰 생산량 6.5배 증가, AI 기업의 추론 비용 대폭 절감

캘리포니아 산호세 및 캠벨, 2026년 3월 16일 /PRNewswire/ -- GTC 2026: AI 스토리지 및 메모리 시스템 기업 웨카(WEKA)가 3월 16일, 엔비디아(NVIDIA) STX 레퍼런스 아키텍처와 자사 뉴럴메시™(NeuralMesh™) 소프트웨어의 통합을 발표했다. 뉴럴메시에서 구동되는 웨카의 혁신적인 증강 메모리 그리드™(Augmented Memory Grid™) 메모리 확장 기술은 엔비디아 STX를 지원해 에이전트형 AI 팩토리에 고처리량 콘텍스트 메모리 스토리지를 제공하며, 세션, 도구 및 작업 전반에 걸쳐 장문 콘텍스트 추론을 원활하게 구현한다. NVIDIA Vera Rubin NVL72, NVIDIA BlueField-4, 그리고 NVIDIA Spectrum-X 이더넷을 활용한 엔비디아 STX 기반 뉴럴메시 솔루션은 콘텍스트 메모리에서 초당 토큰 수를 4~10배 향상시키는 동시에, AI 워크로드에 대해 초당 최소 320GB 읽기 및 150GB 쓰기 처리량을 지원할 것으로 예상되며, 이는 기존 AI 스토리지 플랫폼 처리량의 두 배 이상이다.

WEKA and NVIDIA unlock cost-efficient AI inference at scale
WEKA and NVIDIA unlock cost-efficient AI inference at scale

공유 KV 캐시 인프라로 추론 비용 문제 해결

에이전트형 시스템, 특히 소프트웨어 엔지니어링 애플리케이션의 확장은 냉혹한 진실을 드러낸다. 오늘날 AI 경제성은 메모리 인프라 계층에서 결정된다는 것이다. 모든 대규모 추론 플릿은 메모리 한계에 직면한다. GPU의 제한된 고대역폭 메모리(HBM)가 빠르게 소진되고, 키-값(KV) 캐시가 삭제되며, 콘텍스트가 손실되고, 시스템은 이미 완료한 작업을 반복하도록 강요받는다. 이러한 아키텍처적 비효율은 추론 비용을 급등시킨다. 해답은 에이전트, 사용자, 세션 전반에 걸쳐 콘텍스트를 유지하는 공유 KV 캐시 인프라다. 이는 중복 연산을 제거하고, 토큰 처리량을 유지하며, 예측 가능한 성능을 보장한다. 공유 KV 캐시 인프라 없이는 동시 사용자와 에이전트가 증가할수록 부담이 커진다. 비용은 오르고, 사용자 경험은 저하되며, 추론 플릿은 규모가 커질수록 운영하기 더 어려워진다. 엔비디아는 콘텍스트 메모리를 위한 STX를 통해 이러한 핵심 추론 병목 문제를 해결하기 위한 청사진을 제시하고 있다.

콘텍스트 메모리 스토리지: 에이전트형 AI 팩토리의 기반

엔비디아 STX 아키텍처 기반의 웨카 공동 설계 솔루션을 통해 AI 클라우드, 기업 및 AI 모델 개발사는 GPU를 최고 생산성으로 운영하고, 대용량 토큰 생산을 지속하며, 대규모 추론을 보다 에너지 및 비용 효율적으로 만드는 데 필요한 인프라 기반을 배포할 수 있다.

퍼머스(Firmus)와 같은 선도적인 AI 혁신 기업 및 클라우드 제공업체들은 이미 뉴럴메시의 증강 메모리 그리드로 추론 경제성을 혁신하고 있다.

퍼머스의 다니엘 커니(Daniel Kearney) 최고기술책임자는 "실제 AI는 연구실에서 구동되지 않는다. 전력 제약, 냉각 한계, 끊임없는 워크로드 수요가 존재한다. 퍼머스는 바로 그러한 환경을 위해 만들어졌다. 엔비디아 AI 인프라와 결합한 웨카 증강 메모리 그리드는 초당 최대 6.5배 높은 토큰 처리량과 4배 빠른 첫 번째 토큰 생성 시간(TTFT)을 대규모로 제공하며, 동일한 GPU 환경에서 더 높은 성능을 달성할 수 있음을 입증한다. 뉴럴메시와 증강 메모리 그리드를 엔비디아 기반의 AI 팩토리 및 엔비디아 STX 레퍼런스 아키텍처에 통합함으로써, 대규모의 예측 가능하고 효율적인 추론을 위한 가장 빠른 콘텍스트 메모리 네트워크를 제공할 수 있게 될 것"이라고 말했다.

뉴럴메시와 엔비디아 STX: 에이전트형 AI를 위한 전용 설계

뉴럴메시는 170개 이상의 특허를 기반으로 구축된 웨카의 지능형 적응형 스토리지 시스템이다. 풀스택 STX 레퍼런스 아키텍처 전반에서 구동되며, 조직이 고성능 AI 데이터 서비스를 표준화하고 에이전트형 AI 성과를 가속화하는 데 필요한 차세대 스토리지를 제공한다. 웨카의 증강 메모리 그리드는 GPU 메모리 외부에서 KV 캐시를 풀링하고 유지하는 전용 메모리 확장 계층으로, 추론 워크로드가 증가하더라도 장문 콘텍스트 세션을 안정적으로 유지하고 동시성을 높게 유지한다. GTC 2025에서 처음 공개되어 오늘 뉴럴메시 고객들에게 일반 출시된 증강 메모리 그리드는 NVIDIA Grace CPU와 BlueField-3 DPU 환경에서 슈퍼마이크로(Supermicro)와 함께 검증되어, AI 경제성을 개선하는 다양한 이점을 제공한다:

  • 더 빠른 사용자 경험: 뉴럴메시의 증강 메모리 그리드는 첫 번째 토큰 생성 시간을 최대 4~20배 단축해, 실제 부하 상황에서도 AI 에이전트와 애플리케이션의 응답성을 유지한다.
  • 동일한 하드웨어로 더 많은 수익: 인프라 추가 없이 GPU당 6.5배 더 많은 토큰을 처리한다.
  • 대규모에서의 지속적인 성능: 증강 메모리 그리드는 세션, 에이전트 및 콘텍스트 윈도우가 증가하더라도 높은 KV 캐시 적중률을 유지하며, DRAM 전용 아키텍처에서 발생하는 성능 급락을 방지한다.
  • GPU 네이티브 효율성: BlueField-4 통합은 CPU에서 스토리지 데이터 경로를 오프로드해 GPU의 완전한 생산성을 유지하고 I/O 병목을 제거한다.

웨카의 리란 즈비벨(Liran Zvibel) 공동 창업자 겸 최고경영자는 "코딩 LLM이 발전하면서 생산성이 100~1000배 증가하는 소프트웨어 엔지니어링 분야의 에이전트형 AI 사용 사례 도입이 전례 없이 확산되고 있다. 코딩 어시스턴트가 거의 변하지 않는 코드베이스와 프롬프트에 대해 반복적으로 호출할 때, 웨카의 증강 메모리 그리드는 콘텍스트 윈도우가 엄청난 길이로 늘어나더라도 중복 프리필을 강제하는 대신 캐싱된 콘텍스트를 재사용한다. 이는 응답 시간을 크게 단축하고 동일한 인프라에서 동시 실행 가능한 사용자 수를 대폭 늘린다"고 말했다. 이어 "웨카는 1년여 전 콘텍스트 메모리 스토리지의 필요성을 처음 파악하고 GTC 2025에서 증강 메모리 그리드를 출시했다. 이제 엔비디아 STX는 조직이 NVIDIA BlueField-4 및 NVIDIA Spectrum-X 이더넷을 포함한 최첨단 엔비디아 베라 루빈(NVIDIA Vera Rubin) 아키텍처에서 스토리지 및 메모리 확장 인프라를 운영할 수 있는 길을 열어준다. 엔비디아 STX용 뉴럴메시에서 증강 메모리 그리드를 구동하면 AI 경제성을 획기적으로 변화시키는 탁월한 성능과 효율성을 직접 실현할 수 있다"고 덧붙였다.

출시 정보

웨카의 증강 메모리 그리드는 현재 뉴럴메시와 함께 상업적으로 이용 가능하다.

오늘날 메모리 한계 문제를 해결하지 않는 조직은 이후 더 어렵고 비싼 방식으로 확장해야 할 것이다. 에이전트 워크로드가 증가하고 콘텍스트 윈도우가 확장됨에 따라, DRAM 전용 아키텍처는 복합적인 비용 문제에 직면한다. 동시 사용자나 세션이 추가될수록 재연산 오버헤드, GPU 유휴 시간, 운영 비용이 증가하기 때문이다. 지금 영구적 KV 캐시를 위한 아키텍처를 구축하는 조직은 기다리는 조직 대비 구조적인 비용 및 성능 우위를 갖게 될 것이다.

뉴럴메시에 관한 자세한 내용은 weka.io/NeuralMesh에서 확인할 수 있다.

증강 메모리 그리드에 관한 자세한 내용은 weka.io/augmented-memory-grid에서 확인할 수 있다.

weka.io/nvidia에서 자세한 내용을 확인하거나, GTC 2026 부스 #1034에서 웨카를 직접 방문할 수 있다.

웨카 소개

웨카는 지능형 적응형 메시 스토리지 시스템인 뉴럴메시™ 바이 웨카®(NeuralMesh™ by WEKA®)를 통해 조직이 AI 워크플로우를 구축, 운영 및 확장하는 방식을 혁신하고 있다. 워크로드가 확장될수록 느려지고 취약해지는 기존 데이터 인프라와 달리, 뉴럴메시는 확장할수록 더 빠르고 강력하며 효율적으로 변하면서 AI 환경에 동적으로 적응해 엔터프라이즈 AI 및 에이전트형 AI 혁신을 위한 유연한 기반을 제공한다. 포춘(FORTUNE) 50대 기업의 30%가 신뢰하는 뉴럴메시는 주요 기업, AI 클라우드 제공업체, AI 개발사가 GPU를 최적화하고 AI를 더 빠르게 확장하며 혁신 비용을 절감할 수 있도록 지원한다. 자세한 내용은 www.weka.io 또는 링크드인엑스(X)를 팔로우하여 확인할 수 있다.

WEKA와 W 로고는 WekaIO, Inc.의 등록 상표다. 본 문서에 포함된 기타 상호는 해당 소유자의 상표일 수 있다.

WEKA: The Foundation for Enterprise AI
WEKA: The Foundation for Enterprise AI

사진 - https://www.cinpnews.kr/data/photos/newswire/202603/art_712553_1.jpg
로고 - https://www.cinpnews.kr/data/photos/newswire/202603/art_712553_2.jpg



배너
배너
배너
배너
배너
배너
배너
배너
배너
배너
배너

PHOTO

더보기

배너
배너
배너
배너
배너
배너
배너
배너
배너
배너