전체기사 최신뉴스 GAM 라씨로
KYD 디데이
문화·연예 문화·연예일반

속보

더보기

국립국어원, 인공지능 학습용 한국어 자료 13종 18억 어절 공개

기사입력 : 2020년08월25일 08:51

최종수정 : 2020년08월25일 08:51

인공지능 스피커 등 대화형 서비스 증가 추세 반영

[서울=뉴스핌] 이현경 기자 = 국립국어원(원장 소강춘)은 인공지능의 한국어 처리 능력 향상에 필수적인 한국어 학습 자료 13종 18억 어절 분량을 국립국어원 '모두의 말뭉치' 홈페이지에 공개한다고 25일 밝혔다.

국립국어원에서 이번에 공개한 자료는 한국어 분야의 빅데이터라고 할 수 있다. 이를 전문 분야에서는 '말뭉치'라고 한다. 챗봇이나 인공지능 비서가 한국어를 자연스럽게 알아듣고 분석해 말할 수 있으려면 반드시 다양한 한국어 말뭉치로 학습을 해야 하기 때문에 한국어 인공지능 기술의 성능 향상이 좋은 한국어 말뭉치 확보에 달려 있다.

[서울=뉴스핌] 이현경 기자 = '모두의 말뭉치' 홈페이지 [사진=국립국어원] 2020.08.25 89hklee@newspim.com

이에 국립국어원은 2018년부터 인공지능 산업계와 관련 연구 기관 등에서 공공재로 활용할 수 있는 대규모 한국어 학습 자료 구축 사업을 시작했다. 이번에 공개하는 자료는 지난해 구축한 18억 어절 규모의 말뭉치다. 공개 자료는 국립국어원에서 저작권 문제를 해결해 구축한 것이며 '모두의 말뭉치' 사이트에서 온라인 약정서를 작성하고 승인받으면 누구나 파일을 내려받아 이용할 수 있다.

문화체육관광부와 국립국어원은 지난 1998년에서 2007년까지 '21세기 세종계획'을 추진해 약 2억 어절의 자료를 구축, 공개한 바 있다. 10여 년이 지난 뒤 이번에 다시 공개하는 자료는 예전보다 9배 많은 것으로, 그동안 공개된 학습 자료의 부족으로 곤란을 겪던 한국어 처리 기술이 든든한 지원군을 만날 수 있게 됐다.

이번에 구축한 자료에서는 지난 '21세기 세종계획'보다 일상 대화, 메신저, 웹 문서 등 구어체 자료의 비중을 높였다. 이는 최근 인공지능 스피커, 챗봇 등의 대화형 서비스가 늘어나면서 구어체 대화에 대한 관심과 요구가 높아지고 있는 추세를 반영한 것이다. 특히 일상 대화 자료의 경우 표준어 위주의 수집에서 한 단계 더 나아가 지역별, 연령별로 다양한 대화 자료를 수집해 인공지능 기술에서 지역별 방언도 처리할 수 있는 발판을 마련했다.

'모두의 말뭉치'에서 받을 수 있는 자료에는 최근 10년간의 신문 기사와 서적 2만188종, 그리고 일상생활에서 음성 대화와 메신저 대화, 방송 자료, 대본 등이 포함됐고, 각종 인터넷 사이트의 블로그, 게시판의 자료 210만건도 포함돼 다양한 한국어 사용 양상을 볼 수 있다.

또한 컴퓨터가 한국어를 더 잘 분석하고 이해할 수 있도록 한국어 자료를 더욱 정밀하게 형태, 구문, 의미, 개체 등의 언어 단위별로 분석한 자료 1100만 어절과 한국어에 대한 사용자의 직관과 판단 정보를 분석한 문법성 판단과 어휘 관계 자료 30만 건도 포함됐다.

국립국어원 관계자는 "초기 구축에 많은 비용과 시간이 소요되는 한국어 말뭉치의 대규모 공개로 한국어 인공지능 서비스를 개발하는 중소기업과 새싹기업 등이 따로 시간과 비용을 들이지 않고도 한국어 처리 기술 개발에 쉽게 접근하게 됐다"고 밝혔다. 이어 "대기업이나 관련 연구 기관 등도 대규모의 기초 자원을 제공받게 돼 사양한 서비스 개발과 성능 향상에 많은 도움을 받게됐다"고 분석했다.

소강춘 원장은 "국립국어원은 앞으로도 국어 전문 기관의 이점을 살려 날로 변화하는 언어를 신속하게 반영한 말뭉치와 다양한 고품질의 언어 자료를 지속적으로 구축, 공개하여 한국어 인공지능 기술을 뒷받침하는 한국어 자원의 중심 기관으로 자리매김하도록 노력하겠다"고 강조했다.

한편 국립국어원은 이번에 공개한 자료의 의의와 활용을 주제로 한 온라인 전문가 토론회를 10월 초에 개최할 예정이다.

89hklee@newspim.com

CES 2025 참관단 모집

[뉴스핌 베스트 기사]

사진
모델 문가비 아들 친부는 정우성 [서울=뉴스핌] 양진영 기자 = 모델 문가비(35)가 출산한 아들의 친부가 배우 정우성(51)인 것으로 드러났다. 정우성 소속사 아티스트컴퍼니는 24일 "문가비가 소셜미디어를 통해 공개한 아이는 정우성의 친자가 맞다"며 "아이의 양육 방식에 대해서 최선의 방향으로 논의 중이다. 아버지로서 아이에 대해 끝까지 책임을 다할 것"이라고 밝혔다. 다만 "출산 시점과 두 사람의 교제 여부, 결혼 계획 등 사생활 관련 내용은 확인해 줄 수 없다"고 알렸다. 배우 정우성 [사진=에이스메이커무비웍스] 앞서 두 사람 사이의 득남 소식이 알려졌다. 두 사람은 2022년 한 모임에서의 만남 가까이 지냈으나 교제한 사이는 아니었고 결혼 계획도 없는 것으로 전해졌다. 작년 6월 문가비가 임신 사실을 알렸고 정우성은 양육의 책임을 약속했다고 한다. 문가비는 뷰티 예능 프로그램 '겟잇뷰티' 등으로 얼굴을 알린 한동안 활동을 중단했다가 지난 22일 인스타그램을 통해 아들 출산 사실을 고백했다. 그러나 결혼 여부나 아이 아버지에 관한 언급은 없어 궁금증을 샀다. 당시 문가비는 "너무 갑작스럽게 찾아온 소식에 아무 준비가 돼 있지 않았던 저는 임신의 기쁨이나 축하를 마음껏 누리기보다는 가족들의 축복 속에 조용히 임신 기간 대부분을 보냈다"며 "그렇게 하기로 선택한 건 오로지 태어날 아이를 위함이었다. 마음 한편에 늘 소중한 무언가를 지키기 위해서는 꽁꽁 숨겨야 한다고 생각했다"고 했다. [사진=문가비 인스타그램] 이어 "세상에 나온 아이를 앞에 두고 여전히 완벽한 준비가 되지 않은 엄마지만 그런 내 부족함과는 상관없이 존재 자체만으로 나의 마음을 사랑으로 채워주는 아이를 보며, 완벽함보다는 사랑과 행복으로 가득 찬 건강한 엄마가 돼야겠다고 다짐했다"며 "그러기 위해서는 용기를 내야 한다고 생각했다"고 말했다. 문가비는 1989년생으로 2017년 온스타일 예능 '매력티비'와 '겟잇뷰티'로 얼굴을 알렸다. 이후 SBS '정글의 법칙'과 KBS '볼빨간 당신' 등 각종 예능에 출연했다. 여러 광고와 헤라서울패션위크 등 패션쇼 무대에도 섰다. jyyang@newspim.com 2024-11-25 09:48
사진
이재명 '위증교사' 1심 김동현 판사 누구 [서울=뉴스핌] 배정원 기자 = 이재명 더불어민주당 대표의 위증교사 혐의 1심 선고를 맡은 서울중앙지법 형사합의33부 재판장에 대한 관심이 집중되고 있다. 서울중앙지법 형사합의33부(김동현 부장판사)는 25일 오후 2시 위증교사 혐의로 기소된 이 대표의 1심 선고공판을 진행한다.  전라남도 장성 출신의 김동현 부장판사는 고려대학교 법학과를 졸업하고 2001년 사법연수원을 30기로 수료했다. 김 부장판사는 2004년 광주지법 판사를 시작으로 인천지법, 서울동부지법, 서울고법 등을 거쳐 지난해부터 선거·부패 사건을 전담하는 서울중앙지법 형사합의33부 부장판사로 재직하고 있다. [서울=뉴스핌] 이형석 기자 = 이재명 더불어민주당 대표가 25일 오전 서울 여의도 국회에서 열린 최고위원회의에 자리하고 있다. 2024.11.25 leehs@newspim.com 김 부장판사는 이 대표의 위증교사 사건 외에도 '대장동·위례신도시·성남FC·백현동 의혹' 사건을 함께 심리하고 있는데, 해당 사건은 기록의 양이 방대하고 쟁점이 복잡해 1심 선고를 하기까지 몇 년이 더 걸릴 수 있다는 전망이 나온다. 당초 이 대표 측은 두 사건을 분리해서 진행할 경우 방어권 보장에 어려움을 겪게 된다며 병합 심리를 요구했으나, 김 부장판사는 두 사건을 병합하지 않고 별도로 진행하기로 결정했다. 또 김 부장판사는 이른바 '가짜 수산업자'에게 금품을 받은 혐의로 기소된 박영수 전 특별검사(특검)의 1심 사건을 맡으며 징역 4개월에 집행유예 1년을 선고하기도 했다. 당시 김 부장판사는 "이 사건 범행으로 공직자의 공정한 직무수행과 공공기관에 대한 국민의 신뢰가 크게 훼손됐다"며 "특히 박영수 피고인은 국정농단 규명을 위해 임명된 특별검사로 어느 공직자보다 공정성과 청렴성에서 모범을 보여야함에도 금품을 수수했다"고 질책했다. 박 전 특검 등에게 금품을 제공한 혐의로 기소된 가짜 수산업자 김모 씨에 대해서는 "다수의 공직자에게 긴 시간 금품을 제공한 점, 이종범죄로 처벌받은 전력이 있는 점 등을 고려했다"며 징역 6개월의 실형을 선고했다. 또 김 부장판사는 이명박 정부 시절 이른바 '스파르타팀'을 꾸려 정부에 우호적인 방향으로 온라인 여론을 조작한 혐의 등으로 기소된 전직 청와대 비서관들에게도 징역형 집행유예를 선고한 바 있다.  이런 가운데, 위증교사 혐의는 이 대표의 형사 사건 중 가장 불리한 판결이 나올 가능성이 높은 사건으로 꼽히고 있다. 검찰에 따르면 최근 6년간 유죄가 확정된 위증교사 사범 195명 중 실형(69명)이나 징역형 집행유예(114명)가 선고된 사례는 94.8%에 이르며 벌금형(12명) 선고 비율은 6.2%에 그쳤다. 이 대표가 만약 위증교사 혐의로 대법원에서 금고 이상의 형(집행유예 포함)을 확정받으면 공직선거법 제19조에 따라 피선거권이 박탈돼 형이 실효될 때까지 선거에 출마할 수 없게 된다.  jeongwon1026@newspim.com 2024-11-25 11:19
안다쇼핑
Top으로 이동