전체기사 최신뉴스 GAM 라씨로
KYD 디데이
경제 과학기술

속보

더보기

KAIST, GPT-4 버전의 시각 멀티모달 성능 뛰어넘는 대형 언어모델 개발

기사입력 : 2024년06월20일 10:52

최종수정 : 2024년06월20일 10:52

공개형 멀티모달 LLM 'CoLLaVO'·'MoAI' 개발

[세종=뉴스핌] 이경태 기자 = 한국과학기술원(KAIST)은 전기및전자공학부 노용만 교수 연구팀이 오픈AI(OpenAI)의 GPT-4 등 기업에서 비공개하고 있는 상업 모델인 초대형 언어모델의 시각 성능을 뛰어넘는 공개형 멀티모달 대형 언어모델을 개발해 출시했다고 20일 밝혔다.

노용만 교수 연구팀은 단순히 모델의 크기를 키우거나 고품질의 시각적 지시 조정 데이터셋을 만들지 않고 멀티모달 대형언어모델의 시각 성능을 획기적으로 높인 콜라보(CoLLaVO), 모아이(MoAI) 2가지 기술을 연속적으로 개발했다.

MoAI 멀티모달 대형언어모델 성능 [자료=한국과학기술원] 2024.06.20 biggerthanseoul@newspim.com

연구팀이 개발한 첫번째 기술인 '콜라보(CoLLaVO)'는 현존하는 공개형 멀티모달 대형언어모델이 비공개형 모델의 성능에 비해 현저하게 낮은 이유를 일차적으로 물체 수준에 대한 이미지 이해 능력이 현저하게 떨어진다는 것을 먼저 검증했다.

해당 능력을 효율적으로 증가시켜 시각-언어 태스크에 대한 성능을 향상 하기 위해 연구팀은 이미지 내의 정보를 배경과 물체 단위로 분할하고 각 배경 및 물체에 대한 정보를 멀티모달 대형언어모델에 입력으로 직접 넣어주는 새로운 방법인 '크레용 프롬프트(Crayon Prompt)'라는 시각적 프롬프트를 새롭게 제안했다.

시각적 지시 조정 단계에서 크레용 프롬프트로 학습한 정보를 잃어버리지 않기 위해 연구팀은 물체 수준 이미지 이해 능력과 시각-언어 태스크 처리 능력을 서로 다른 파라미터로 학습해 서로 간의 정보를 잃지 않게 만드는 획기적인 학습 전략인 '듀얼 큐로라(Dual QLoRA)'를 제안했다.

연구팀은 이를 통해 콜라보(CoLLaVO) 멀티모달 대형언어모델은 이미지 내에서 배경 및 물체를 구분하는 능력이 뛰어나 일차원적인 시각 구분 능력이 크게 향상됐다고 전했다.

두 번째 대형언어모델인 '모아이(MoAI)'는 인간이 사물을 판단할 때 물체의 존재, 상태, 물체 간의 상호작용, 배경에 대한 이해, 텍스트에 대한 이해 등으로부터 상황을 판단하는 인지과학적인 요소에 영감을 받아서 만들었다는 게 연구팀의 설명이다.

기존 멀티모달 대형언어모델은 텍스트에 의미적으로 정렬된 시각 인코더(vision encoder)만을 사용한다. 이미지 픽셀 수준에서의 상세하고 종합적인 실세계 장면 이해가 부족하다는 점을 연구팀은 지적했다. 연구팀은 이런 컴퓨터 비전 모델들의 결과를 받으면 모두 인간이 이해할 수 있는 언어로 변환한 뒤에 멀티모달 대형언어모델에 입력으로 직접 사용했다.

노용만 교수는 "연구팀에서 개발한 공개형 멀티모달 대형언어모델이 허깅페이스 일간 화제의 논문(Huggingface Daily Papers)에 추천됐고, 각종 SNS를 통해 세계 연구자에게 알려지고 있다"며 "모든 모델을 공개형 대형언어모델로 출시 했기 때문에 이 연구모델이 멀티모달 대형언어모델 발전에 기여할 것"이라고 말했다.

biggerthanseoul@newspim.com

[뉴스핌 베스트 기사]

사진
SKT '유심 교체' 북새통...내 차례 올까 [인천=뉴스핌] 김학선 기자 = 가입자 유심(USIM) 정보를 해킹 당한 SK텔레콤이 유심 무료교체 서비스를 시작한 28일 인천의 한 대리점에서 고객들이 유심 교체를 위해 줄을 서 차례를 기다리고 있다. SKT는 사이버침해 피해를 막기 위해 이날 오전 10시부터 전국 2600여곳의 T월드 매장에서 희망 고객 대상 유심 무료교체 서비스를 진행한다. 2025.04.28 yooksa@newspim.com   2025-04-28 12:12
사진
"화웨이, 엔비디아 H100 능가 칩 개발" [서울=뉴스핌]박공식 기자 = 중국 화웨이가 미국이 수출 금지한 엔비디아 칩을 대체할 최신 인공지능(AI) 칩을 개발해 제품 시험을 앞두고 있다고 월스트리트저널(WSJ)이 현지 시간 27일 보도했다. 신문은 화웨이가 일부 중국 기술기업에 새로 개발한 '어센드(Ascend) 910D'의 시험을 의뢰했다고 전했다. 어센드 910D는 엔비디아의 H100보다 성능이 더 우수한 것으로 평가되고 있으며 이르면 5월 말 시제품이 나올 것으로 예상된다. 앞서 로이터통신은 21일 화웨이가 자체 개발한 AI칩 910C를 내달 초 중국 기업에 대량 출하할 계획이라고 보도한 바 있다. 화웨이를 비롯한 중국 기업들은 데이터를 알고리즘에 제공해 더 정확한 결정을 내리게 하는 훈련 모델용으로 엔비디아 칩에 필적하는 첨단 칩을 개발하는 데 주력해왔다. 미국은 중국의 기술 개발을 억제하기 위해 B200 등 최첨단 엔베디아 칩의 중국 수출을 금지하고 있다. H100의 경우 2022년 제품 출하 전에 중국 수출을 금지했다.  중국 베이징에 있는 화웨이 매장 [서울=뉴스핌]박공식 기자 = 2025.04.28 kongsikpark@newspim.com kongsikpark@newspim.com 2025-04-28 12:26
안다쇼핑
Top으로 이동