AI 핵심 요약
beta- 아크릴이 7일 GPU 클러스터 최적화 기술 GPUBASE의 최대 25배 성능 개선을 확인했다.
- 미국 CSP 환경에서 수백 대 GPU 대상 K-Scale 평가로 7개 항목 검증을 완료했다.
- 부하 조건에서 성능 유지하며 학습·추론 속도 2~25배 향상과 장애 대응을 입증했다.
!AI가 자동 생성한 요약으로 정확하지 않을 수 있어요.
[서울=뉴스핌] 이나영 기자= AI 인프라 소프트웨어 전문기업 아크릴은 자사의 GPU 클러스터 최적화 기술 'JONATHAN GPUBASE(GPUBASE)'가 실제 GPU 클러스터 운영 환경에서 최대 25배의 성능 개선 효과를 확인했다고 7일 밝혔다.
이번 성과는 미국 소재 글로벌 탑티어 클라우드 서비스 제공사(CSP) 환경에서 수백 대 규모 GPU 클러스터를 대상으로 진행한 'K-Scale Evaluation' 사전 평가를 통해 확인됐다. 아크릴은 총 7개 시험 항목에 대한 정량 검증을 완료하며 실제 운영 환경에서의 성능 안정성과 운용 역량을 입증했다.
회사에 따르면 이번 평가는 다양한 학습·추론 워크로드가 동시에 작동하는 실제 AI 인프라 부하 환경에서 성능 유지 여부를 검증하는 데 초점을 맞췄다. 실제 AI 데이터센터에서는 네트워크 부하가 GPU 활용률을 떨어뜨리고 학습 시간을 늘리며 추론 응답 시간을 지연시키는 주요 원인으로 작용하는 만큼, 이를 제어하는 기술이 핵심 경쟁력으로 꼽힌다.

특히 아크릴은 학술 논문(ACM IMC'24, IEEE ICNP'18)을 바탕으로 정의한 4단계 부하 수준(없음·하·중·상)을 적용해 GPUBASE 비적용 환경과 적용 환경을 A/B 방식으로 비교했다. 그 결과 GPUBASE가 없는 환경은 부하가 높아질수록 성능이 급격히 저하돼 '상' 수준에서 최대 95%까지 성능이 떨어진 반면, GPUBASE 적용 환경은 모든 부하 조건에서 무부하 상태와 동일한 성능을 유지했다. 이에 따라 기준선 대비 최대 25배의 성능 향상 효과가 확인됐다.
이 같은 성과는 실제 파운데이션 모델 학습 환경에서도 재현됐다. 한국어 특화 대규모 언어모델(11B 파라미터)과 자사 의료 AI 모델(27B 파라미터)을 활용한 학습 벤치마크 결과, 부하 수준에 따라 2배에서 최대 25배까지 학습 속도 향상이 측정됐다.
또한 학습과 추론이 동시에 이뤄지는 혼합 부하 환경에서도 GPUBASE의 효과는 뚜렷했다. GPUBASE 적용 환경은 기준선 대비 6배 빠른 학습 속도를 기록하는 동시에 추론 응답 시간 SLA(서비스 수준 계약)도 충족했다. 반면 기준선 환경은 동일 기준을 만족하지 못했다. GPU 장애 대응 검증에서도 전 시나리오에 대한 자동 감지와 복구가 이뤄졌으며, 플랫폼 핵심 기능 8종에 대한 정확성 검증 역시 100% 통과했다.
아크릴은 이번 사전 평가 결과를 바탕으로 Horizontal K-Scale(복수 CSP에서 누적 1,000+GPU 검증)과 Vertical K-Scale(단일 CSP에서 1,000+GPU 단일 클러스터 검증)을 병행 추진할 계획이다. Phase 1(GPU 1,000장)은 2026년 상반기, Phase 2(GPU 3,000장+)는 연내 착수할 예정이다.
염익준 아크릴 CTO는 "대부분의 GPU 벤치마크는 트래픽이 없는 환경을 전제로 하지만 실제 데이터센터는 다양한 트래픽이 상시 발생하는 구조"라며 "GPUBASE는 이런 실제 운영 환경에서도 성능을 안정적으로 보장할 수 있음을 이번 평가를 통해 정량적으로 입증했다"고 전했다.
한편 JONATHAN GPUBASE는 아크릴이 독자 개발한 GPU 클러스터 최적화 소프트웨어다. 다중경로 전송, PeRF(트래픽 차등화), GPU 동적 할당, 멀티벤더 GPU 통합 관리 등 4대 핵심 기술을 기반으로 한다. InfiniBand에서 Ethernet/RoCEv2 중심으로 전환되는 AI GPU 클러스터 시장에서 성능 간극 해소를 지원하는 소프트웨어 솔루션으로 주목받고 있다.
nylee54@newspim.com












