전체기사 최신뉴스 GAM
KYD 디데이
경제 과학기술

속보

더보기

서울과기대·테디썸, 라마3-70B 기반 한글 특화 LLM '블라썸' 세계최초 공개

기사입력 :

최종수정 :

※ 본문 글자 크기 조정

  • 더 작게
  • 작게
  • 보통
  • 크게
  • 더 크게

※ 번역할 언어 선택

라마3 70B 모델에 한국어 확장 첫 사례
업스테이지·솔트룩스·마음AI에 도전장
블라썸, 기본 모델 대비 89% 답변 향상

[세종=뉴스핌] 이경태 기자 = 국내 연구진과 인공지능(AI) 기업이 공동연구를 통해 메타의 오픈소스 거대언어모델(LLM)을 활용한 한국어 어휘 확장 대형 모델을 세계 최초로 개발했다. 

이미 오픈소스 기반 LLM 개발 업체인 업스테이지, 솔트룩스, 마음AI에 한발 앞선 기술력으로 도전장을 내민 셈이다.

서울과학기술대학교 다층퍼셉트론(MLP)연구실과 테디썸은 9일 오후께 한국어 최초 70B급 한국어-영어 초거대 언어모델 블라썸(Bllossom)을 완전 공개했다. 이는 현재 가장 좋은 성능으로 평가받는 공개 언어모델인 라마3(LLama3-70B) 기반 모델 중 어휘 확장 모델로는 전세계에서 최초로 꼽힌다.

메타는 지난달 18일(현지 시간) 자체 개발한 오픈소스 거대언어모델(LLM)인 라마(Llama)의 3세대 버전을 무료로 출시했다. 라마 3는 8B 및 70B 매개변수 두 모델로 우선 공개됐다. 라마3은 15조 개의 토큰으로 학습됐다. 

이 가운데 70B 모델은 오픈AI가 개발한 GPT-3.5보다 성능이 좋고 GPT4 성능에 근접한 수준이라는 평가를 일부 받는다. 라마3는 한국어에 특화돼 있는 모델로 평가된다.

테디썸이 라마3 70B 모델을 활용해 자체 개발한 한국어 특화 확장 거대언어모델인 '블라썸'을 허깅페이스에 9일 게재했다. 실제 전체 공개는 이날 오후께 진행된다. [사진=테디썸] 2024.05.09 biggerthanseoul@newspim.com

서울과기대와 테디썸은 라마3 70B모델에 추가적인 어휘확장을 했다.

어휘 확장은 특정 언어의 단어를 추가해 심층적인 표현이 가능하도록 하는 방법이다. 70B급 거대 언어모델은 어휘를 확장하면 새로운 어휘의 표현학습을 위해 엄청난 추가 학습시간 및 비용이 소요된다. 이렇다보니 70B급 모델에 어휘확장이 시도된 사례는 한국어에서는 아직 찾아볼 수 없다. 

이번 블라썸 모델은 서울과기대 슈퍼컴퓨팅센터의 컴퓨팅 지원을 토대로 대량의 GPU를 활용해 어휘확장 및 영어-한국어 지식 연결 학습이 가능했던 것으로 파악됐다.

임경태 서울과기대 인공지능응용학과 교수 연구팀은 이번 모델 개발을 위해 ▲한국어 표현력 강화를 위한 3만개가 넘는 한국어 어휘 추가 ▲한국어 어휘 표상 학습을 위한 대규모 사전학습 ▲한국어-영어 지식 연결을 위한 Parallel 학습 ▲한국어-영어 지식 표현을 위한 지시미세조정(Instruction Tuning) ▲사용자 피드백(feedback) 기반의 강화학습 등을 진행했다.

방대한 영어 지식을 한국어와 연결시키기 위해 직접 구축한 병렬(Parallel) 데이터 셋을 활용했다는 점과 언어학자들이 직접 구축한 정교한 지시미세조정 데이터가 성능을 크게 향상시켰다는 점이 이번 모델 개발에서 주목할 만한 요소다.

테디썸은 이번에 개발한 모델을 전체 공개해 개별적인 추가 학습과 상업적 이용이 가능하다는 점을 강조했다.

이번 모델은 한국어 토큰 확장으로 인해 25% 확장된 컨텍스트 활용이 가능하다. 인간평가와 GPT4 한국어 답변 선호도 평가 결과 GPT3.5와 유사하거나 약간 앞선 결과를 보인 바 있다. 라마3 70B 기본모델 대비 한국어 답변에 대해 89% 더 높은 답변 선호도 평가를 기록했다.

테디썸은 이미 8B 소형 모델은 전세계 기술 공유 플랫폼인 허깅페이스에 공개됐고 70B 거대모델도 이날 함께 공개했다. 개인 GPU에서 작동 가능한 4bit 양자화된 모델과 직접 활용해볼 수 있는 데모도 함께 내놓는다.

함영균 테디썸 대표는 "기존 빅테크에서만 연구개발하고 공개되지 않던 70B 거대 모델을 중소규모 회사 및 연구 그룹에서도 활용할 수 있도록 초거대 언어모델의 민주화에 기여했다는 점에서 의미있는 첫 발자국이라 생각한다"고 말했다.

한편 국내에서 라마3 소형 모델인 8B를 기반으로 자체 LLM 모델을 개발해 공개한 기업은 솔트룩스, 마음AI 등이다. AI 기업 데이터드리븐의 이준범 수석 AI 연구원도 개인적으로 8B 기반 모델을 공개한 바 있다.

biggerthanseoul@newspim.com

[뉴스핌 베스트 기사]

사진
7월까지 계란 2112만개 수입 [세종=뉴스핌] 김기랑 기자 = 계란 가격 상승세가 이어지는 가운데 정부가 미국산·태국산 신선란 2112만개를 추가 공급하는 등 수급 안정 대책을 확대한다. 또 계란 가공품 할당관세 물량을 두 배로 늘리고 적용 기간도 연말까지 연장할 예정이다. 농림축산식품부는 계란 생산 감소에 따른 가격 상승으로 소비자 부담이 커지고 있는 상황을 고려해 신선란 공급을 확대한다고 19일 밝혔다. 농식품부는 7월까지 미국산과 태국산 신선란 약 2112만개를 시장에 공급할 계획이다. 매주 448만개 이상을 순차적으로 도입해 이마트와 롯데마트 등 대형 유통업체에 우선 공급하고, 중소 유통업체를 통해 동네 빵집과 슈퍼마켓 등에도 공급할 예정이다. 9일 서울시내 한 대형마트를 찾은 소비자가 계란을 고르고 있다. [사진=뉴스핌DB] 우선 이번 주말부터 미국산 신선란 112만개를 이마트와 롯데마트에서 순차적으로 판매한다. 정부는 계란 가공품 수입 확대를 위해 할당관세 적용 기간을 기존 6월에서 12월까지로 연장하고, 적용 물량도 4000톤(t)에서 8000t으로 늘릴 방침이다. 농식품부는 지난해 겨울 발생한 고병원성 조류인플루엔자(HPAI)로 인한 산란계 살처분과 사육밀도 개선 등의 영향으로 계란 생산량이 감소하면서 가격 상승세가 이어지고 있다고 설명했다. 실제 계란 산지가격은 6월 중순 기준 특란 30구당 6263원으로 평년보다 24.1%, 지난해보다 8.5% 각각 높다. 소비자가격도 7506원으로 평년 대비 9.3%, 전년 대비 7.1% 각각 상승한 상태다. 다만 수급 여건은 점차 개선될 것으로 전망된다. 6월 산란계 사육 마릿수는 7879만수로 평년보다 4.6%, 지난해보다 0.4% 각각 증가했다. 1~5월 병아리 입식도 전년보다 12.8% 늘어 7월 일일 계란 생산량은 4900만개 수준까지 회복될 것으로 예상된다. 농식품부는 생산 회복 효과가 실제 시장 공급과 가격 안정으로 이어지기까지 시간이 필요한 만큼 할인 지원 사업 확대와 농협 납품단가 인하를 병행하고, 여름철 폭염에 따른 수급 불안에 대비해 신선란 수입 물량 추가 확대도 검토하고 있다. 이재식 농식품부 축산정책관은 "국내 산란계 마릿수는 꾸준히 증가하고 있으며 계란 생산도 점차 회복되고 있다"며 "국내 생산 기반 확충과 농가 경영 안정을 지원하는 한편, 소비자 물가 안정을 위해 수급 상황을 면밀히 점검하고 필요한 조치를 신속히 추진하겠다"고 강조했다. rang@newspim.com  2026-06-19 11:00
사진
'군기누설' 김용현 1심 징역 3년 [서울=뉴스핌] 박민경 기자 = 12·3 비상계엄 당시 노상원 전 국군정보사령관에게 정보사 명단을 전달한 혐의로 기소된 김용현 전 국방부 장관이 1심에서 징역 3년을 선고받았다. 서울중앙지법 형사합의21부(재판장 조순표)는 19일 김 전 장관의 군형법상 군기누설 및 개인정보보호법 위반 혐의 사건의 1심 선고기일을 열었다. 서울중앙지법 형사합의21부(재판장 조순표)는 19일 12·3 비상계엄 당시 노상원 전 국군정보사령관에게 정보사 명단을 전달한 혐의로 기소된 김용현 전 국방부 장관의 1심에서 징역 3년을 선고했다. 사진은 김 전 장관. [사진=뉴스핌 DB] 재판부는 양형이유에 대해 "피고인은 국방부 장관으로서 군사기밀과 군인의 개인정보를 보호할 책임이 있는 위치에 있었고, 누구보다 군사기밀과 특수임무 수행 인력의 신상정보 보호 필요성을 잘 알고 있었다"며 "그럼에도 민간인인 노상원이 관련 인적사항에 접근할 수 있도록 하는 데 결정적인 역할을 했다"고 지적했다. 그러면서 "이 사건 군기누설 범행에 대해 피고인에게 가장 엄중한 책임을 묻지 않을 수 없다"며 "나아가 아무런 실체적 요건을 갖추지 못한 계엄이 선포 단계에 이르는 동력 중 하나가 됐고, 단순한 군기누설이나 개인정보보호법 위반을 넘어 위헌·위법한 계엄 선포라는 중대한 결과를 초래했다"고 판시했다.  pmk1459@newspim.com 2026-06-19 15:00
기사 번역
결과물 출력을 준비하고 있어요.
종목 추적기

S&P 500 기업 중 기사 내용이 영향을 줄 종목 추적

결과물 출력을 준비하고 있어요.

긍정 영향 종목

  • Lockheed Martin Corp. Industrials
    우크라이나 안보 지원 강화 기대감으로 방산 수요 증가 직접적. 미·러 긴장 완화 불확실성 속에서도 방위산업 매출 안정성 강화 예상됨.

부정 영향 종목

  • Caterpillar Inc. Industrials
    우크라이나 전쟁 장기화 시 건설 및 중장비 수요 불확실성 직접적. 글로벌 인프라 투자 지연으로 매출 성장 둔화 가능성 있음.
이 내용에 포함된 데이터와 의견은 뉴스핌 AI가 분석한 결과입니다. 정보 제공 목적으로만 작성되었으며, 특정 종목 매매를 권유하지 않습니다. 투자 판단 및 결과에 대한 책임은 투자자 본인에게 있습니다. 주식 투자는 원금 손실 가능성이 있으므로, 투자 전 충분한 조사와 전문가 상담을 권장합니다.
안다쇼핑
Top으로 이동