[서울=뉴스핌] 이나영 기자= 미디어젠은 지난 11일부터 이틀간 열린 '한글 및 한국어 정보처리∙한국코퍼스언어학회 공동 학술대회(HCLT∙KACL)'에 참가했다고 14일 밝혔다.
HCLT∙KACL는 지난 1989년 10월 처음 개최된 후 매년 한글날 전후 열리는 학술대회다. 올해 행사 주관은 네이버가, 주최는 한국정보과학회가 맡아 진행된다.
미디어젠은 한국전자통신연구원(ETRI) 창업기업인 딥모달과 공동 연구한 대형언어모델(LLM) 관련 논문 2건을 발표했다. 논문은 생성 확률 기반 신뢰도 측정(불공정 약관 심사), 고품질 문서 생성을 위한 파인튜닝 및 디코딩 방법 연구에 대한 주제다. 발표는 미디어젠 인공지능(AI) 연구소의 최정윤 연구원이 진행했다.
한글 및 한국어 정보처리∙한국코퍼스언어학회 공동 학술대회에서 최정윤 미디어젠 연구원이 발표하고 있다. [사진=미디어젠] |
첫번째 연구는 과기정통부와 정보통신산업진흥원이 주관하고, 공정거래위원회에서 추진하는 '부처협업기반 AI확산사업(AI융합 약관심사 플랫폼 구축)'에 적용될 AI모델이 실무에 적용 가능한지에 대한 선행연구 성격이다. LLM을 활용해 새로운 방식으로 문서의 신뢰도를 측정하고, 약관 심사 플랫폼에서 심사 대상 문서를 자동으로 판별하는 시스템에 대해 연구했다. 연구에는 기공개된 공정위 약관심사 데이터를 활용했다.
회사 측은 기존 방식보다 투명한 신뢰도 계산을 통해 법률 등 민감한 분야에서의 약관 검토에 활용도가 높다고 설명했다. 또 적은 양의 도메인 데이터로도 높은 신뢰도의 분류가 가능해 견고한 약관 심사 시스템을 구축할 수 있다고 덧붙였다.
최정윤 연구원은 "이번 연구로 개발한 시스템은 민원인이 첨부한 문서 중 약관과 무관한 문서를 정확하게 판별한다"며 "관련 없는 민원 신청에 대해 적합하지 않은 부분을 발견하고 민원인에게 안내함으로써, 공정거래위원회 내의 민원 처리 효율성을 크게 향상시킬 수 있을 것"이라고 전했다.
이어 발표한 '파인튜닝 및 디코딩 방법 연구'를 통해 의료 영상 판독문 작성 시 진단 및 소견을 자동으로 생성하는 방법을 제시했다. 특히 대용량 데이터를 확보하기 어려운 의료 분야 상황을 고려해 적은 데이터로도 고품질 문서를 생성하는 최적의 방법을 탐색하고 평가했다.
회사 측은 "저순위 적응(LoRA) 훈련 방식과 창의성과 다양성을 결정하는 템퍼러처(temperature), 빔 서치 등의 디코딩 조정 실험을 통해 최적의 환경을 탐색하고 모델 성능을 개선했다"며 "이번 연구는 데이터가 제한된 의료 환경에 해당 시스템을 구축할 수 있다는 가능성을 제시하며 의료 AI 연구 및 실험에 중요한 기반이 될 것"이라고 강조했다.
nylee54@newspim.com