전체기사 최신뉴스 GAM
KYD 디데이
전국 대전·세종·충남

속보

더보기

내년 3천억원 들인다는 AI 데이터 구축사업...'품질검증' 시급

기사입력 :

최종수정 :

※ 본문 글자 크기 조정

  • 더 작게
  • 작게
  • 보통
  • 크게
  • 더 크게

※ 번역할 언어 선택

전수조사 불가해 사실상 '땜빵식 검증'…저품질 데이터 납품도
정부, 품질강화 나서…TTA '데이터밸런스' 표준 제정 주목

[서울=뉴스핌] 김수진 기자 = A씨는 얼마 전부터 한 회사에서 데이터 구축 아르바이트를 하고 있다. 대부분 이미지나 동영상을 기준에 맞춰 라벨링 하는 작업이어서 업무가 어렵지 않았다. 하지만 '적당한 자료를 찾아달라', '입력 시 특정 단어(그림)만 들어가게끔 해달라' 등 작업 기준이 불명확한 경우도 있어 당혹스러웠다고 한다.

A씨는 "지시를 내리는 담당자도 잘 모르는 것 같아 나만의 가이드를 만들어 작업했다"라며 "물론 회사 자체 검증을 거치긴 했지만 통과된 데이터가 제대로 AI에 활용될 수 있을지 걱정"이라고 토로했다.

인공지능(AI) 교육용 데이터의 철저한 품질 검증이 시급하다는 주장이 업계 안팎에서 제기되고 있다. 정부가 내년부터 본격적으로 관련 사업을 확대할 계획이고 중장기 사업으로 진행할 예정인 만큼 검증 시스템 확보가 시급하다는 지적이다.

현재 데이터 구축 사업 중 상당수가 AI 교육을 목적으로 한다. 과학기술정보통신부는 AI 개발을 위한 양질의 데이터를 구축하기 위해 20개의 'AI 학습용 데이터 구축 사업'을 지난 7월 확정했다.

텍스트와 영상, 이미지 등 다양한 분야의 AI 개발을 위해 총 21종 4650만 건에 이르는 AI 학습용 데이터를 구축하는 사업으로 국민 누구나 참여할 수 있다.

[서울=뉴스핌] 김수진 기자 = 과학기술정보통신부가 진행한 '데이터 주간' 데이터댐 구축 성과보고회에서 민기영 한국데이터산업진흥원장이 주요 혁신 성장 우수사례를 발표하고 있다. [사진=과학기술정보통신부 공식 유튜브 화면 캡쳐] 2020.12.22 nn0416@newspim.com

일단 정부의 적극적인 지원으로 짧은 시간에도 성과는 상당한 것으로 나타났다.

지난 15일 과기정통부가 주최한 '데이터 댐' 사업 성과보고회에 따르면, 올해 구축된 AI 학습용 데이터 종류와 누적 구축 수는 지난해 21종 4650만종에서 8배 증가한 170종 3억 7500만건에 달했다.

정부는 내년도 AI 학습용 데이터 구축 사업에 2925억원을 투입해 헬스케어 및 농·축·수산 등 주요 분야에서 AI 학습용 데이터 150종을 새롭게 개방한다. 다년도 중장기 프로젝트를 활성화하고 활용성 측면도 갖춘다.

문제는 이렇게 구축된 데이터를 제대로 검증하지 못한다는 것이다.

국회 우상호(더불어민주당) 의원실에 따르면 사업을 담당하는 한국지능정보사회진흥원 등이 데이터 품질 검증을 제대로 하지 못한 것으로 밝혀졌다.

지난 10월 국정감사에서 우 의원은 문용식 한국지능정보사회진흥원장에게 "저품질의 데이터가 납품되고 있어도 담당기관이 이에 대한 검증을 못하고 있다"라며 "제대로 된 데이터를 납품했는지를 확인하는 검증 시스템이 없다보니 질 낮은 데이터를 납품하고 다시 사업에 참여하는 경우도 발생하고 있는 걸로 아는데 대책이 필요하다"고 지적했다.

이에 문 원장은 "지금까지 데이터 품질 인증을 못한 건 사실"이라며 "향후 관련 기준을 세우겠다"고 입장을 밝혔다.

플랫폼 데이터 품질 저하도 문제로 지목되고 있다.

국회 윤영찬(더불어민주당) 의원실에 따르면 지난해 공공 데이터 품질관리 수준이 중앙행정기관은 76점, 지자체는 56점에 각각 그친 것으로 나타났다.

윤 의원은 "현 구축된 데이터를 보면 통계 등 정형 데이터가 대부분인데 공공 및 민간에서 필요로 하는 비정형(그림, 동영상 등) 데이터는 부족한 실정"이라며 "기관들이 일회성으로 데이터를 모으는 데만 집착하지 말고 실제 활용할 수 있는 질 높은 데이터를 확보할 수 있도록 품질 검증 및 향상에 힘써야 할 것"이라고 강조했다.

[서울=뉴스핌] 김수진 기자 = 인공지능 학습용 데이터 구축 시 검증이 필요하다는 목소리가 높아지고 있다. [사진=픽사베이] 2020.12.22 nn0416@newspim.com

업계는 데이터 품질 이슈가 언제든 수면 위로 올라올 수 있는 문제라고 보고 있다. 이미 전부터 관련 문제가 제기된 상황이다.

특히 올해 많은 사업들이 8월에서 10월 사이에 발표되면서 현장에서는 실제 데이터 구축 시간이 부족했다는 볼멘소리가 나왔다.

적게는 수천 개에서 많게는 수억 개의 제출된 데이터를 담당기관이 전수 조사하는 것은 사실상 불가능한 만큼 품질 이상이 발생할 가능성이 높을 수밖에 없다는 지적이다.

한 업계 관계자는 "'어느 회사가 대충 수집한 데이터를 납품했는데 문제없이 통과되고 거기에 더해 추가 사업까지 받았다더라'는 이야기가 시장에서 파다하다"라며 "구축 과정부터 검수 전반으로 품질 검증없이 사업을 계속 진행할 경우 세금낭비가 될 가능성이 높지 않겠느냐"고 꼬집었다.

문제는 낮은 품질 데이터로 인해 AI 정확성이 떨어질 수 있다는 점이다.

업계 한 연구원은 "관련 없는 정보(데이터)는 AI를 혼동하게 만들어 정확도를 떨어뜨릴 수 있고, 데이터가 누락되거나 중복된 데이터로 양을 채우고 정작 필요한 데이터는 수집하지 못할 경우 AI가 부정확하게 동작할 가능성이 높다"라며 "만약 처리해야 할 내용과 전혀 무관한 데이터가 입력될 경우 AI가 학습할 특징값이 희석되기 때문에 심할 경우 학습 자체가 되지 않을 가능성이 높다"고 설명했다.

또한 "데이터 품질을 검증하고 높이기 위해 빠르게 대안을 찾지 못하면 기하급수 속도로 구축되고 있는 AI 학습용 데이터들이 쓸모없는 '빅쓰레기'가 될 수도 있다"라고 지적했다.

정부 또한 데이터 품질 확보 중요성을 인지하고 이에 대한 대책 마련에 나서고 있다. 사실 AI 데이터 품질에 대한 가이드라인은 전 세계 어느 국가에서도 확립하지 못한 상황이다. 구글이나 마이크로소프트 등 세계적인 기업이 구축한 데이터 정확도도 43~83%에 불과한 것으로 알려졌다.

정부는 향후 구축될 데이터 품질을 확보하기 위해 지난 9월 AI 학습용 데이터 품질관리를 대폭 강화하는 내용을 발표했다.

하지만 "구축단계에서의 품질검증이 어려워 사후 활용단계에서 유지보수 및 업데이트를 한다"는 내용이 담기는데 그쳐 소극적 대응에 불과하다는 비판을 받고 있다.

이에 최근 데이터 구축 전 설계 단계에서부터 데이터 다양성을 확보하는 방법으로 품질 관리에 나서야 한다는 주장이 힘을 얻고 있다.

한국정보통신기술협회 로고 [사진=한국정보통신기술협회] 2020.12.22 nn0416@newspim.com

한국정보통신기술협회(TTA)는 데이터 검증 및 품질 확보를 위해 지난 10일 6가지 지표를 담은 '데이터밸런스' 기술을 단체표준으로 제정했다.

데이터 댐에 모인 데이터가 실제 현장에서 유용한지, 해당 데이터로 훈련받은 AI이 오작동 가능성이 있는지를 검증하는 프로그램이다.

설계 단계에서 데이터 수집 기준을 잡을 수 있는데 이는 사실상 국내 첫 데이터 가이드라인에 가깝다.

협회 측은 "정확하면서도 다양한 데이터를 통해 데이터 품질 저하를 막고 AI 정확성을 높이기 위해 해당 기술을 단체표준으로 제정했다"고 밝혔다.

기술을 개발한 씽크포비엘 박지환 대표는 "데이터 댐의 궁극적 목적은 다양성과 정확성을 바탕으로 구축된 AI를 실제 산업현장에서 활용하는 것인데 아직 다양성 수준을 평가하는 공인 기준이 없다보니 현장에서 어려움을 겪는 것이 현실"이라며 "데이터 댐 사업이야 말로 AI 기술 분야를 빠르게 성장할 수 있는 기회인만큼, 데이터 품질을 위한 다양성을 확보할 수 있는 가이드 마련 등 정부의 현실적인 정책 마련이 시급하다"고 강조했다.

nn0416@newspim.com

[뉴스핌 베스트 기사]

사진
의대까지 번진 '사탐런' [서울=뉴스핌] 송주원 기자 = 2027학년도 대학수학능력시험에서 이른바 '사탐런' 현상이 한층 더 뚜렷해질 것이란 전망이 나온다. 자연계열 수험생들 사이에서 과학탐구(과탐) 대신 사회탐구(사탐)를 택하는 흐름이 빠르게 확산하면서 올해 수능에서는 사회탐구 과목을 1개 이상 응시하는 비율이 80%에 육박할 수 있다는 관측도 제기된다. 다만 입시 전문가들은 사탐 선택이 단순히 탐구 성적만의 문제가 아니라 확보한 시간과 심리적 여유를 국어·수학·영어 등 다른 영역 성적 향상으로 연결할 수 있는지까지 따져 신중하게 판단해야 한다고 조언한다. 대학수학능력시험 사회·과학 탐구 응시 인원 비중 추이. [사진=김아랑 미술기자] 7일 교육계에 따르면 지난해 치러진 2026학년도 수능에서는 사·과탐 영역 응시자 53만 1951명 가운데 77.3%(41만 1259명)가 사탐 과목을 1개 이상 선택한 것으로 집계됐다. 이에 따라 올해 11월 실시되는 2027학년도 수능에서는 그 비율이 80%를 웃돌 가능성도 거론된다. 이 같은 변화는 전통적으로 미적분·기하와 과학탐구 선택 비중이 높았던 자연계 상위권 모집단위에서도 확인된다. 진학사가 정시 지원 대학을 공개한 수험생 자료를 분석한 결과 선택과목 제한이 없는 대학 지원자 가운데 사회탐구 응시자 비율은 의대 9.3%, 수의대 40.5%, 약대 23.8%로 나타났다. 자연계 최상위권에서도 사탐 선택이 더 이상 예외적인 사례만은 아니라는 방증이다. 배경에는 주요 대학의 자연계열 수능 지정과목 폐지가 있다. 주요 대학들이 2025학년도부터 자연계 모집단위에서 응시 지정 과목을 없애면서 사탐·과탐 혼합 응시가 빠르게 퍼졌다. 사탐 응시 비율은 2023학년도 53.3%, 2024학년도 52.2% 수준이었지만 자연계 학과에서 사회탐구를 인정하는 대학이 늘면서 2025학년도 62.2%, 2026학년도 77.3%로 급증했다. N수생 집단에서도 과탐에서 사탐으로의 이동은 뚜렷했다. 2025학년도와 2026학년도 수능에 연속 응시한 수험생을 보면, 과탐 2과목 응시자 중 19.7%는 이듬해 사탐 2과목으로 23.7%는 사탐+과탐으로 바꿨다. 전년도 사탐+과탐 응시자 가운데서도 62.2%가 올해 사탐 2과목으로 전환했다. 성적 상승 폭도 컸다. 탐구 2과목을 모두 과탐에서 사탐으로 바꾼 집단의 탐구 백분위는 평균 21.68점, 국어·수학·탐구 평균 백분위는 11.18점 올랐다. 과탐 2과목에서 사탐+과탐으로 바꾼 집단도 탐구 13.40점, 국수탐 평균 8.83점 상승했다. 사탐+과탐에서 사탐 2과목으로 전환한 집단 역시 탐구 16.26점, 국수탐 평균 10.92점 올랐다. 사탐 선택이 단순한 유행이 아니라 점수 안정성을 노린 전략적 선택으로 자리 잡고 있음을 보여주는 대목이다. 지난해 12월 13일 서울 성북구 고려대학교 인촌기념관에서 열린 2026 대입 정시모집 대비 진학지도 설명회에서 수험생과 학부모들이 강의를 듣고 있다. [사진=뉴스핌DB] 다만 대학별 반영 방식은 제각각이다. 상당수 대학이 자연계 지원자에게 미적분·기하나 과학탐구 응시 가산점을 주고 있어 지정 과목이 폐지됐다고 해서 유불리가 완전히 사라진 것은 아니다. 국민대·동국대·세종대는 자연계열 지원자가 수학 선택과목으로 미적분이나 기하를 택할 경우 3~5%의 가산점을 반영한다. 성균관대 역시 사회과학계열, 의상학과, 경영학과, 글로벌경영학과, 글로벌경제학과 지원자에게 미적분 선택 시 최대 3%의 가산점을 준다. 과탐 응시자에 대한 가산점도 적지 않다. 경희대·고려대·숙명여대 등은 자연계열 지원자가 과탐을 선택하면 가산점을 부여한다. 서울대의 경우 과탐Ⅱ를 1과목 응시하면 3점, 2과목 응시하면 5점을 추가 반영하며, 과탐Ⅰ만 선택했을 때는 가산점이 없다. 인문계열에서 사탐 선택자에게 가산점을 주는 대학도 있다. 서울시립대는 인문계열 지원자가 사탐 2과목을 응시하면 3%의 가산점을 부여하고, 중앙대는 인문대와 사범대 지원자의 사탐 응시에 5%를 더해 반영한다. 이에 따라 입시 전문가들은 사탐런이 대세처럼 보이더라도 무작정 따라가는 것은 위험하다고 지적한다. 김병진 이투스 교육연구소장은 "많은 학생이 사·과탐 선택에 따른 성적 변화에만 초점을 두지만 핵심은 선택으로 인해 생긴 시간적 여유나 심리적 안정감을 다른 영역 학습에 활용하는 데 있다"며 "사탐 선택으로 줄어든 학습 시간을 국어·수학·영어 등 다른 영역의 성적 향상으로 연결할 수 있는지까지 함께 따져봐야 한다"라고 말했다. 김 소장은 이어 "탐구 과목을 바꿨더라도 결국 같은 학습 시간을 들여야 한다면 입시 전체로 봤을 때 유리한 선택이라고 보기 어렵다"며 "단순히 유행을 좇기보다 자신의 학습 적합성과 대학별 반영 방식, 가산점 구조를 함께 고려해 전략적으로 판단해야 한다"라고 조언했다. 우연철 진학사 입시전략연구소장은 "사탐 응시자가 늘고 이들의 성적이 상승하면서 인문계열 모집단위의 경쟁이 치열해지고, 일부 응시자들은 자연계 모집단위로 눈을 돌릴 가능성이 있다"며 "올해 정시에서는 모집단위별 탐구 반영 방식과 지원 가능 집단의 변화를 함께 고려한 보다 정교한 합격선 예측이 필요하다"라고 강조했다. jane94@newspim.com 2026-03-07 06:00
사진
"유가 150달러까지 치솟을 것" 이 기사는 인공지능(AI) 번역을 통해 생성한 콘텐츠로 원문은 3월 6일자 파이낸셜타임스(FT) 기사입니다. [런던=뉴스핌] 장일현 특파원 = 사드 알카비 카타르 에너지장관은 6일(현지 시간) "전쟁이 중단되지 않으면 며칠 내에 걸프 지역 모든 산유국들이 불가항력을 선언할 것"이라고 말했다.  사드 알카비 카타르 에너지장관. [사진=로이터 뉴스핌] 그는 이날 영국 일간 파이낸셜타임스(FT)와 인터뷰에서 세계 최대 액화석유가스(LNG) 생산·수출 기지인 라스라판(Ras Laffan) 산업단지가 이란 공격으로 '불가항력'을 선언할 수밖에 없었다고 밝히면서 "아직 불가항력을 선언하지 않은 국가들도 며칠 내로 그렇게 할 것으로 예상한다"고 말했다. 알카비 장관은 카타르 국영기업인 카타르에너지의 최고경영자(CEO)를 겸직하고 있다. 불가항력은 지진 등 자연재해나 전쟁 등의 이유로 계약 이행이 불가능하다는 것을 선언하는 것이다. 책임이나 보상 등에서 면제받을 수 있다. 석유나 LNG 등의 계약에 필수적으로 포함되는 내용이다. 카타르는 미국, 호주 등과 함께 세계 3대 LNG 생산·수출국으로 꼽힌다. 현재 연 7700만톤 규모인 노스필드(North Field) 가스전의 생산능력을 오는 2027년까지 1억2600만톤으로 늘리는 프로젝트를 진행하고 있다. 이 프로젝트가 완성되면 LNG 생산과 수출이 세계 1위가 될 것이라는 평가를 받고 있다. 이 가스전의 첫 증산 물량은 올해 3분기에 시장에 나올 예정이었다.  알카비 장관은 "지금 벌어지고 있는 전쟁은 세계 경제를 무너뜨릴 수 있고, 며칠 내에 모든 걸프 지역 산유국들이 생산을 중단하게 되면 유가가 배럴 당 150달러까지 치솟을 수 있다"고 했다.  그는 현재 가동이 중단된 라스라판 LNG 시설에 대해 "지금 당장 전쟁이 끝난다해도 정상적인 사이클로 돌아가는 데 최소 몇 주에서 몇 달은 걸릴 것"이라고 했다.  유럽의 경우 카타르 수출에서 차지하는 비중은 크지 않지만 아시아 구매자들이 시장에서 더 높은 가격으로 가스를 사들이게 되면 덩달아 상당한 고통을 겪게 될 것이라고 전망했다.  FT는 "알카비 장관과의 인터뷰 기사가 나간 뒤 브렌트유는 5.5% 올라 배럴당 90.13 달러를 기록했다"며 "이는 이란 전쟁이 터진 이후 최고 수준"이라고 했다.  알카비 장관은 "이번 전쟁이 몇 주만 더 지속된다면 전 세계 국내총생산(GDP)이 타격을 받을 것"이라고 했다.  모든 국가의 에너지 가격이 상승하고 일부 제품은 부족해질 것이며 원자재 공급이 끊기면서 공장들이 생산을 멈추는 악순환이 펼쳐질 것이라고 전망했다.  중동 지역 국가 중 최대 미군 공군기지가 들어서 있는 카타르는 이란과도 전통적으로 우호적인 관계를 유지해 왔지만, 이번 전쟁의 포화를 벗어나지는 못했다.  라스라판 단지는 지난 2일 이란의 공격 드론의 공격을 받았고, 카타르 정부는 즉각 LNG 생산을 전면 중단했다. 이 단지는 전 세계 LNG 공급의 20%를 담당하는 대규모 시설이다.  알카비 장관은 "군으로부터 해상 시설에 대한 즉각적인 공격 위협이 있다는 통보를 받았고, 즉각 가동을 중단하고 24시간 안에 9000여명의 인력을 철수시켰다"고 했다.  그러면서 "전쟁이 완전히 끝나기 전까지 카타르의 생산은 재개되지 않을 것"이라고 말했다.  ihjang67@newspim.com   2026-03-07 00:20
기사 번역
결과물 출력을 준비하고 있어요.
종목 추적기

S&P 500 기업 중 기사 내용이 영향을 줄 종목 추적

결과물 출력을 준비하고 있어요.

긍정 영향 종목

  • Lockheed Martin Corp. Industrials
    우크라이나 안보 지원 강화 기대감으로 방산 수요 증가 직접적. 미·러 긴장 완화 불확실성 속에서도 방위산업 매출 안정성 강화 예상됨.

부정 영향 종목

  • Caterpillar Inc. Industrials
    우크라이나 전쟁 장기화 시 건설 및 중장비 수요 불확실성 직접적. 글로벌 인프라 투자 지연으로 매출 성장 둔화 가능성 있음.
이 내용에 포함된 데이터와 의견은 뉴스핌 AI가 분석한 결과입니다. 정보 제공 목적으로만 작성되었으며, 특정 종목 매매를 권유하지 않습니다. 투자 판단 및 결과에 대한 책임은 투자자 본인에게 있습니다. 주식 투자는 원금 손실 가능성이 있으므로, 투자 전 충분한 조사와 전문가 상담을 권장합니다.
안다쇼핑
Top으로 이동