AI 핵심 요약
beta- 노타가 11일 ICML 2026 워크샵에 MoE 양자화 논문 2편을 채택받았다.
- DREAM-MoE와 SRA-MoE는 전문가 선택 흔들림을 줄이고 핵심 입력을 보호했다.
- 두 논문은 기존 기법보다 성능이 높아 효율적 AI 최적화 가능성을 보였다.
!AI가 자동 생성한 요약으로 정확하지 않을 수 있어요.
[서울=뉴스핌] 이나영 기자= AI 모델 경량화 기업 노타가 세계적 머신러닝 학회 ICML 2026의 'Resource-Adaptive Foundation Model Inference(AdaptFM)' 워크샵에서 MoE(Mixture-of-Experts) 특화 양자화 알고리즘 논문 2편이 최종 채택됐다고 11일 밝혔다.
ICML은 머신러닝과 인공지능 분야를 대표하는 국제 학회로, 글로벌 빅테크와 주요 대학, 연구기관의 최신 AI 연구 성과가 발표되는 자리다. 이번 논문이 채택된 AdaptFM 워크샵은 대규모 AI 모델을 제한된 컴퓨팅 자원에서도 효율적으로 실행하는 기술을 다루며, 아마존, 메타 등 글로벌 기업과 주요 연구기관 연구자들이 조직위원회에 참여하고 있다.
회사에 따르면 이번 성과는 노타가 최근 대형 언어 모델의 핵심 구조로 주목받는 MoE 모델 최적화 분야에서 축적해온 기술력을 인정받은 것이다. MoE는 여러 전문가 모델 중 필요한 일부만 선택해 동작하는 방식으로, 대형 AI 모델의 성능과 효율을 동시에 높일 수 있어 최신 대형언어모델(LLM)에서 빠르게 확산되고 있다. 다만 모델 구조가 복잡한 만큼 이를 더 작고 가볍게 만드는 양자화 과정에서는 기존 일반 모델과는 다른 접근이 필요하다.

노타는 지난 엔비디아 네모트론 해커톤에서 데이터 기반 MoE 양자화 기법으로 트랙 우승과 종합우승을 차지한 데 이어 이번 워크샵에서도 MoE 구조에 특화된 연구 성과를 선보인다. 이번에 채택된 첫 번째 논문 'DREAM-MoE'는 대규모 AI 모델을 여러 구간으로 나누어 양자화할 때 발생할 수 있는 판단 흐름의 변화를 줄이는 방법을 제안한다. 앞쪽 구간에서 생긴 작은 오차가 뒤쪽 구간의 전문가 선택까지 바꿀 수 있다는 점에 주목해, 양자화 이후에도 모델이 원래와 유사한 방식으로 필요한 전문가를 선택할 수 있도록 했다.
두 번째 논문 'SRA-MoE'는 모델 결과에 더 큰 영향을 주는 중요한 입력을 선별해 우선적으로 보호하는 방법을 제안한다. 모든 입력을 동일하게 다루기보다 핵심 입력에서 전문가 선택이 크게 흔들리지 않도록 설계해, 제한된 자원으로도 모델 품질을 효과적으로 유지할 수 있도록 했다.
두 연구 모두 최신 MoE 특화 양자화 기법들과 비교해 더 높은 성능을 확인했다. 이는 대규모 AI 모델을 더 적은 메모리와 연산 자원으로 실행하면서도 품질 저하를 줄일 수 있음을 보여준다. 대형 AI 모델 운영에 필요한 비용과 전력, 하드웨어 부담이 커지고 있는 상황에서 MoE 특화 양자화 기술의 중요성이 높아지고 있다.
노타는 높은 메모리와 연산 자원을 요구하는 대형 AI 모델 최적화 분야에 연구개발 역량을 집중하고 있다. 업스테이지 컨소시엄의 독자 파운데이션 모델 과제에서 Solar MoE와 같은 대규모 모델 최적화를 추진하는 한편, 엔비디아 네모트론 3 나노 모델 양자화 경험을 네모트론 울트라 등 최신 대형 모델로 확장하며 기술 적용 범위를 넓혀가고 있다.
채명수 노타 대표는 "이번 논문 채택은 노타가 MoE에 특화된 양자화 기술을 꾸준히 고도화해온 성과"라며 "엔비디아 네모트론 해커톤 종합우승에 이어 ICML 2026 AdaptFM 워크샵에서도 연구 성과를 선보이게 된 만큼, 대규모 AI 모델을 더 효율적으로 활용할 수 있는 최적화 기술 개발을 이어가겠다"고 말했다.
한편 노타는 서울 삼성동 코엑스에서 열리는 ICML 2026 기간 중 'Nota AI - Korea Efficient Days'를 개최해 글로벌 연구자와 엔지니어, 기업 관계자들과 효율적 AI의 연구 흐름과 산업 적용 가능성을 공유할 예정이다.
nylee54@newspim.com












