전체기사 최신뉴스 GAM 라씨로
KYD 디데이
전국 대전·세종·충남

속보

더보기

"이제는 데이터"...AI시장, 데이터 신뢰성 확보 각축전

기사입력 : 2023년03월21일 17:21

최종수정 : 2023년03월21일 17:21

신뢰성 높아진 GPT-4로 데이터 시장 중요성 더 커져
유럽선 데이터 기준 엄격..."평가기술 표준화" 목소리

[서울·대전=뉴스핌] 김수진 기자 = '인공지능(AI)은 학습한 데이터만큼만 똑똑하다'

AI 편향성을 없애기 위한 연구가 활발하다. AI 편향성 문제는 상용화를 가로막는 큰 장벽이기 때문이다. 과거 AI가 흑인을 고릴라로 착각하거나, 성차별적인 발언을 하는 등 사회적 문제를 일으키면서 오히려 관련 산업발전이 잠시 후퇴하는 부작용을 일으킨 뼈 아픈 과거가 있다. 실제로 우리나라에서는 성차별적 발언한 '이루다'를 개발한 스캐터랩이 1억300만원의 과징금·과태료를 부과받으며 사회적으로 큰 비난받기도 했다.

하지만 지난해 연말 등장한 챗GPT가 전 세계적으로 큰 반향을 일으키면서 AI에 대중의 시선이 쏠렸다. 때문에 또 다시 불어온 AI에 대한 시장의 관심을 놓치지 않기 위해 시장에서는 편향성 제거에 열을 올리고 있다.

[사진 = 셔터스톡]

윤리성 '더' 확보한 GPT-4

미국 현지시각 지난 14일 오픈AI가 챗GPT를 넘어서는 GPT-4를 출시하면 뜨거운 관심을 받고 있다. GPT-4는 챗GPT(GPT-3.5)와 비교해 인식 및 추론능력이 향상됐으며 이미지 입력 인식 능력, 대화 메모리 향상 등의 기능을 탑재했다. 기존 GPT-3.5와 비교해 요구한 질의에 대한 문제를 보다 창의적이고 정확하게 작성하며 작문 능력이 크게 향상됐다.

오픈AI는 특히 GPT-4가 기존보다 신뢰성을 확보했다고 주장했다. 사용자의 악의적인 질의에 대한 대응훈련을 통해 기존보다 윤리적인 측면의 답변을 할 수 있도록 진화했다는 것이다. 오픈AI 샘 알트먼 CEO는 "GPT-4가 기존 대비 82% 더 윤리적으로 안전하고 40% 더 정확하다"며 설명했다.

소프트웨어정책연구소도 얼마 전 발간한 AI 브리프 특집호에서 "현재 챗봇은 사용자의 악의적인 이용에 의해 쉽게 오염되는데 GPT-4는 기존 대비 면역력이 강화됐다"며 "기존 제품에 비해 윤리성을 확보했다"고 평가했다.

뉴스핌 DB. 2022.08.24 nn0416@newspim.com

세계는 데이터 신뢰성 전쟁 중...한국은?

산업계에서는 GPT-4의 윤리성 확보가 이슈됨에 따라 데이터 시장 중요성이 더욱 커질 것으로 내다봤다. 미국 통신사 블룸버그는 현재 경기 전망리포트 콘텐츠 30%를 AI에 의존하고 있는데 26년에는 90%이상 늘어날 것으로 전망했다.

국내 한 AI기업 관련 연구원은 "그간 AI 데이터 중요성은 관련 업계 내에서나 이슈돼 왔는데 챗GPT가 전세계적으로 히트치면서 대중들까지도 질 좋은 데이터가 필요하다는 걸 알게 됐다"며 "지금이 데이터 관련 산업을 일으키기에 적기"라고 강조했다.

하지만 막상 국내 데이터 시장을 살펴보면 초라한 상황이다. 과학기술정보통신부가 발표한 현재 우리나라 데이터산업 시장 규모는 2021년 기준 20조 24억원 규모로, 미국의 7.0%, 유럽연합의 16.4%에 불과하다. 지난 문재인 정부 시절 데이터댐' 사업에 수 조원을 투입했지만 아쉬운 성적표다. 구축한 데이터도 대부분이 행정·공공데이터에 치우쳐 있고 제품 품질도 보장할 수 있는 수준이 아니라는 지적도 일고 있다.

AI를 현장에서 활용 중인 산업계에서 데이터 신뢰성 확보는 시급한 문제다. 충북 청주에서 드론 관련 벤처기업을 운영 중인 한영운(31) 대표는 "사실상 현재 정부가 축적한 데이터를 그대로 AI에 적용하기에는 아무래도 위험부담이 있다"며 "이제라도 AI 편향·오류를 최소화하는 표준 기술이나 제도 마련이 있어야 시장이 빠르게 성장할 것"이라고 말했다. 

의료계에서도 AI 데이터 품질 확보가 필수라고 입을 모은다. 지난달 16일 열린 빅데이터임상활용연구회 세미나에서 윤덕용 연세대 의과대학 의생명시스템정보학교실 교수는 "의료 AI 모델 성패는 양질의 데이터에 달렸다"며 "의료 AI모델이 특정 편향된 데이터만 학습할 경우 의료 불평등까지 야기할 수 있다"고 지적하기도 했다. 그는 "양질의 데이터 축적이 중요하다"며 "국민을 대표하는 양질의 표준화된 데이터 확보가 중요하다"고 강조했다.

이미 선진국에서는 AI 데이터 품질 확보에 발빠르게 나선 상태다. 현재 유럽의회가 2025년 제정 목표로 인공지능법 도입을 검토 중인데, 데이터 편향·오류 방지를 의무화하는 내용을 세세하게 규정하고 있다. 관련 법을 어기거나 금지된 분야에 AI기술을 접목할 경우 최대 3000만 유로, 또는 세계 매출액의 6%에 달하는 벌금을 물도록하고 있다.

하지만 국내 도입 준비 중인 AI 관련 법안은 데이터 품질이나 편향 방지에 대해 '언급만' 한 상태로 봐도 무방하다는 지적이다.

미국 워싱턴주 리치먼드의 마이크로소프트(MS) 본사에서 인공지능(AI) 챗봇이 탑재된 검색엔진 빙(Bing)을 체험해보는 시민. 2023.02.07 [사진=블룸버그]

"AI데이터 평가 기술 표준화 필요"

때문에 AI 편향을 막기 위해 AI학습 데이터 개발 및 활용에 정부가 적절히 나서야 한다는 주장이 힘을 얻고 있다. 시장이 폭발적으로 성장함에 따라 AI 기업과 개발자 '양심'에만 맡겨놓을 수 없다는 지적이다.

정부도 관련 산업 활성화를 위해 나서야 한다는데 공감하고 있다. 과기정통부는 AI 부작용 등 제도적 보완을 마련하는 내용으로 2024년부터 5년간 AI 연구에 3000억원을 투입한다는 계획이다. 엄열 과기정통부 인공지능기반정책관은 지난 7일 열린 2023 대한민국 AI토크 콘서트에서 "AI의 편향된 정보나 환각이 위험할 수 있다"며 "오류가 있는 언어 모델 한계를 뛰어넘는 AI 기술 발전을 위해 지원을 늘리겠다"고 말했다.

장진철 소프트웨어정책연구소 디지털통계센터 선임연구원도 "최근 AI는 모델 성능보다 데이터 역할을 강조하는 경향이 커졌다"며 "때문에 데이터관리 체계에 대한 지원이 중요하다"고 밝혔다. 장 선임연구원은 "AI에 활용되는 데이터 최적화와 관리 역량이 AI 시장 확산의 필수요건으로 대두되고 있다"며 "관련 인력 양성 방안이 정부-산업-교육계 협력을 통해 논의돼야 한다"고 강조했다.

산업계에서는 AI데이터 평가 기술 표준화가 필요하다는 목소리가 커지고 있다. AI 데이터를 평가할 기준을 바로 세워달라는 요구가 거세다. 소프트웨어 공학 전문기업 씽크포비엘 박지환 대표는 "객관적인 검증법 없이 단지 담당자의 경험이나 주관에 의존한 검사방법이 문제"라고 지적하며 "NIA가 자체 발간한 가이드가 있지만 '다양하게 수집한다'는 모호한 기준으로 현실적이지 못했다. 데이터의 질적 수준을 검증할 현실적이고 올바른 방법이 없는 상황"이라고 꼬집었다.

그러면서 박지환 대표는 "공공데이터 등 가치를 판단하고 개선점을 찾기 위한 AI 데이터 평가 기술 표준화가 필요하다"며 "지금같은 산업 전환기에 AI 데이터 신뢰성 기준을 빠르게 정립해 AI 시장에서 뒤처지지 않도록 정부와 산업, 학계 모두 힘을 합쳐야 할 시점"이라고 강조했다.

nn0416@newspim.com

[뉴스핌 베스트 기사]

사진
"3초안에 13가지 암 찾는다" [서울=뉴스핌] 김용석 기자 = 혈액 검사 데이터만으로 3초 안에 13가지 조기 암을 찾아내는 시대가 열렸다. 미국 식약청(FDA)은 12일(한국시간) AI를 활용한 의료 시범 사업을 성공적으로 완료하고, 전 부문으로 확장할 것이라고 발표했다. 마틴 A. 마카리 FDA 박사가 이끄는 이번 계획은 올 6월 30일까지 모든 FDA 센터에 AI를 도입하는 것을 목표로 하고 있다. [사진= 뉴스핌 DB] FDA에 따르면 AI의료 혁신은 단순히 진단만 하는 게 아니라, 유전자 수준에서 향후 5년간 암 발생 확률을 예측할수 있게 됐다. 이 시스템에는 '거짓말 필터'가 내장돼 있어, 환자가 숨긴 병력도 감지할 수 있을 정도다. 특히 혈액 검사 데이터만으로 3초 안에 13가지 조기 암을 찾아낼 수 있으며, 정확도는 대형병원 의사를 능가하는 수준으로 알려졌다. 진료 비용은 인간 의사의 1/20에 불과하며. 다만, 매년 999달러의 'AI 사용 연회비'를 내야 한다. 마카리 박사는 "AI 시범 사업 성공에 큰 감명을 받았다. 검토 과정에서 많은 부분을 차지했던 비생산적인 반복 작업을 줄일수 있다. AI혁신 의료 기술은 새로운 치료법 검토 시간을 가속화하는 데 큰 가능성을 지니고 있다"라고 밝혔다. FDA의 신약평가연구센터(CDER) 신약평가과학국 부국장인 진중(진) 리우는 "이는 게임 체인저 기술이다. 3일 걸리던 작업을 몇분 만에 수행할 수 있게 되었다"라고 말했다. 새 AI의료 혁신은 FDA의 패스트트랙(그린 채널)을 통과해 다음 주부터 뉴욕 장로회 병원에서 시험 운영된다. fineview@newspim.com 2025-05-12 11:48
사진
와이스 호투...한화 12연승 날다 [서울=뉴스핌] 박상욱 기자 = 독수리가 마침내 12연승까지 날아올랐다. 김광현은 양현종과의 '레전드 매치'에서 웃었지만 김도영에 솔로 홈런을 허용했다. 화장한 날씨를 보인 이날 더블헤더를 포함해 8경기에 총 14만7708명의 관중이 입장해 역대 일일 최다 관중 신기록을 세웠다. 종전 일일 최다 관중은 지난해 6월 23일 역시 8경기에서 기록한 14만 2660명이었다. 단독 선두 한화는 11일 고척스카이돔에서 열린 키움과의 방문 경기에서 라이언 와이스의 호투를 발판 삼아 8-0으로 승리했다. 와이스는 8이닝 동안 삼진 9개를 뽑으며 1안타 무실점으로 키움 타선을 봉쇄했다. 라이언 와이스(왼쪽)와 노시환. [사진=한화] 한화가 12연승을 거둔 것은 빙그레 시절이던 1992년 5월 이후 33년 만이다. 당시 빙그레는 14연승까지 거뒀다. 한화는 3회초 2사 1, 3루에서 키움 포수 김재현의 2루 악송구 때 3루 주자가 홈을 밟아 1-0으로 앞섰다. 5회에는 2사 2, 3루에서 키움 선발 김윤하의 폭투로 1점을 추가한 뒤 노시환이 유격수 강습 중전 적시타를 때려 3-0으로 달아났다. 6회에는 이진영의 솔로 홈런과 이도윤의 적시타로 2점을 추가해 5-0으로 점수 차를 벌렸다. 한화는 9회초에도 3점을 보태 쐐기를 박았다. 대구에서는 문성주가 혼자 4타점을 뽑은 LG가 삼성을 7-4로 꺾었다. LG는 전날 더블헤더 1, 2차전을 포함해 3연승을 달린 반면 삼성은 8연패의 늪에 빠졌다. 1-3으로 끌려가던 삼성은 6회말 선두타자 구자욱이 좌중간 2루타로 포문을 열자 김영웅이 좌월 투런 홈런을 쏘아 올려 3-3 동점을 만들었다. 이어 르윈 디아즈는 우측 외야 스탠드 상단에 꽂히는 백투백 홈런을 터뜨려 4-3으로 역전시켰다. 문성주. [사진=LG] 하지만 LG는 7회초 2사 만루에서 문성주가 좌측 펜스 상단을 때리는 3타점 2루타를 터뜨려 단숨에 6-4로 다시 뒤집었다. 8회초에는 2사 만루에서 홍창기가 밀어내기 볼넷으로 1점을 보태 승부를 결정지었다. 더블헤더가 펼쳐진 인천에서는 SSG가 1차전에서 KIA를 8-4로 꺾었다. SSG는 4-1로 앞선 4회말에는 조형우의 적시타와 최지훈의 3루타 등으로 3점을 추가해 7-1로 달아났다. KIA는 5회초 최형우가 투런홈런을 날렸으나 더는 추격하지 못했다. KIA 선발 제임스 네일은 4이닝 동안 개인 최다인 7실점하고 무너졌다. 김광현과 양현종이 선발 대결을 펼친 2차전에서도 SSG가 5-1로 승리했다. KIA는 4회초 김도영이 좌중월 솔로홈런을 날려 선취점을 뽑았다. SSG는 6회말 채현우의 3루타 등 4안타와 볼넷 4개를 묶어 대거 5점을 뽑아 전세를 뒤집었다. 7이닝 1안타 1실점으로 호투한 김광현은 승리투수가 됐고 5.1이닝 3안타와 볼넷 2개로 3실점 한 양현종은 패전투수가 됐다. 김광현. [사진=SSG] 잠실에서는 NC가 두산을 맞아 더블헤더 1차전을 11-5로 이긴 뒤 2차전마저 5-2로 승리했다. NC는 7연승을 달리며 4위로 뛰어올랐다. 두산은 1차전 1회말 상대 실책 속에 양석환의 2루타와 볼넷 3개를 묶어 먼저 4점을 뽑았다. 그러나 NC는 2회초 두산 선발 콜 어빈의 제구가 흔들리는 사이 3안타와 4사사구로 6점을 뽑아 전세를 뒤집었다. 3회에는 안중열의 2루타로 2점을 추가한 NC는 4회에도 1점을 보태 9-4로 달아나며 일찌감치 승기를 잡았다. 천재환. [사진=NC] 2차전에서 NC는 2회초 천재환이 선제 솔로홈런을 날렸으나 두산은 2회말 1사 만루에서 김기연이 2타점 우전안타를 날려 전세를 뒤집었다. 그러나 NC는 3회초 4안타와 볼넷 2개로 4점을 뽑아 5-2로 재역전했다. 수원구장 더블헤더 1차전은 롯데가 6-1로 승리했으나 2차전은 kt와 1-1로 비겼다. 롯데는 1차전 1회초 전준우의 투런홈런 등으로 먼저 3점을 뽑았다. kt가 1회말 실책을 틈타 1점을 만회했으나 롯데는 3회초 전준우가 희생플라이로 다시 1점을 보탰다. 박세웅. [사진=롯데] 승기를 잡은 롯데는 6회와 9회에도 1점씩 보태며 승부를 갈랐다. 롯데 선발 박세웅은 6.1이닝을 4안타 1실점(비자책)으로 막고 시즌 8승(1패)째를 거둬 다승 단독 선두로 나섰다. 2차전에서 kt는 1회 안현민의 적시타로 선취점을 뽑았으나 롯데는 4회초 안타 없이 사사구 4개로 동점을 만들었다. 이후 양 팀이 점수를 뽑지 못하면서 무승부가 됐다. psoq1337@newspim.com 2025-05-11 22:32
안다쇼핑
Top으로 이동