전체기사 최신뉴스 GAM 라씨로
KYD 디데이
산업 생활경제

속보

더보기

[김정호의 4차혁명 오딧세이] 아이에게서 배우는 AI 강화학습

기사입력 : 2019년04월22일 08:00

최종수정 : 2019년04월22일 08:00

우리는 어떻게 배우는가

필자가 처음 영어 공부를 시작한 것은 중학교 들어가기 전, 초등학교 6학년 때로 기억한다. 아마 공책에 a, b, c, d 알파벳을 필기체와 출판 서체로 연습한 기억이 난다. 그리고 영어로 배운 첫 문장이 “I am a boy,아니면 “You are a girl” 이 아닌가 생각한다.

        김정호 교수

본격적으로 영어를 공부한 시기는 고등학교 때이다. 그때 사용했던 영어 교재가 ‘성문종합영어’, ‘영어의 왕도’ , 그리고 ‘1200제’였다. 특히 그 중에 가장 어려운 교재가 ‘1200제”이었는데 아마도 일본 참고서를 번역한 책으로 기억한다.

그런데 이렇게 영어 공부를 시작할 때 재일 재미없었던 부분이 문법을 외우는 과정이었다. 명사, 대명사, 동사, 가정법 등 외우는 내용도 많고, 예외도 많았다. 그 규칙을 파악하고 외우고 이를 토대로 문장을 이해하고, 해석하고 작문하였다.

인공지능에서도 전통적으로 이와 비슷한 학습 방법을 써 왔다. 전통적 인공지능에서는 먼저 뇌와 지능의 동작 원리를 이해하고, 그에 맞추어 모델을 세우고 이를 컴퓨터 프로그램으로 구현하는 방법이다. 이 방법은 인간의 뇌의 동작을 인간의 논리로 파악하려 하는 방법이다. 영어 배울 때 문법으로 언어를 배우려는 시도와 같은 방법이다.

성문종합영어 참고서 내의 영어 문법과 작문 부분, [출처: tistory]


하지만 최근 딥뉴럴네트워크(DNN)으로 표현하는 인공지능은 빅데이터를 제공하고 그 데이터를 통해서 인공지능이 스스로 학습하는 방법이다. 이러한 방법을 ‘머신러닝' 인공지능이라고 한다. 여기서는 데이터를 믿고 학습한다. 이러한 머신러닝 학습 방법 중에서 인공지능 스스로 데이터를 만들어 내고 최적의 답을 만들어 내는 방법이 등장했는데, 이를 ‘강화학습(RL: Reinforcement Learning)’이라고 한다. 이를테면 컴퓨터 스스로가 자율학습을 해서 지능을 쌓아가는 방법이다.

아기가 처음 말을 배울 때 하는 말을 ‘옹알이’라고 한다. 옹알이를 통해서 엄마와 소통하면서 말을 배워나간다. 그때 처음 배우는 말이 ‘엄마’, ‘맘마’, ‘아빠’ 와 같은 단어들이다. 맘마라고 부르면 엄마가 우유를 주고, 엄마라고 부르면 엄마가 따뜻한 눈길을 주고 사랑으로 안아준다. 이처럼 아기가 언어를 배우는 과정에서는 아기가 주변 환경과 교류하면서 보상을 얻는 과정에서 말을 배운다. 우리처럼 문법을 통해서 배우지 않는다.

또한 아기가 걸음마를 배우는 과정도 비슷하다. 걷고, 넘어지고 다치면서, 시행착오를 거치면서 아장 아장 걷기를 배운다. 이때 환경은 거실 마루이고, 보상은 걷는 기쁨과 엄마의 웃음이다. 이처럼 주변환경 속에서 행동하고 보상 받으면서, 그 결과 최선의 결정과 행동을 하면서 학습하는 방법을 ‘강화학습’ 인공지능이라고 한다. 그래서 강화학습은 인간이 본능적으로 배우는 학습 방법이다.

아기가 옹알이를 하며 말을 배우고 있다. [출처: tistory]


시행착오 통한 강화학습, 로봇과 게임에도 적용 가능

강화학습에서는 주변 환경(Environment)이 있고 그 상태(State)를 벡터로 표현한다. 다양한 시도(Action)와 보상(Reward)를 얻으면서 스토리(Episode)를 만들고, 그 결과로 환경을 파악해 간다. 이렇게 시행착오를 거쳐서 학습하게 된다. 그리고 최적의 정책(Policy)을 찾아간다.

생쥐의 미로 찾기 게임이 강화학습의 좋은 한 예가 된다. 이 때 미로의 구조가 환경이 되고, 최종적으로 치즈를 먹게 되면 보상을 얻게 된다. 그렇지만 최단 시간 내에 찾아야 하는 조건이 붙게 된다. 이처럼 각 상태에 따라 미래를 정할 수 있고, 과거는 묻지 않는 조건을 강화학습에서는 마르코프(Markov) 조건이라고 한다. 강화학습을 적용하려면 마크코프 조건을 만족해야 한다. 과거는 묻지 않고, 현재 상태로만 그의 미래를 점치는 조건이다. 과거까지 따지면 너무 복잡해서 보상을 예측하기 어렵기 때문이다.

강화학습은 로봇의 걷기 제어에도 적용될 수 있다. 로봇이 넘어지고 걷기를 반복하면서 인간에게 가까운 최적의 보행 제어를 이러한 강화 학습 방법으로 찾을 수 있다. 마찬가지로 이러한 학습은 드론의 조종, 헬리콥터 조종, 항공기의 조종 제어에 사용할 수 있다. 더 나아가 자율주행 자동차의 자동 운전에 강화학습이 사용되어 주어진 조건(State) 에서 최적의 자율 운전을 할 수 있다. 이때 최종적으로 주어지는 보상이 연료비의 절약이나 사고율 저하, 안전성 향상 등이 될 수 있다.

이때 시행착오의 과정은 시간과 비용이 든다. 자동차를 부수기에는 비용이 비싸다. 경우에 따라 시행과 보상을 컴퓨터 시뮬레이션으로 대신 하기도 한다.

강화학습은 게임에 적용되기도 한다. 블록깨기(Atari Breakout)게임을 강화학습으로 하는 경우 금방 최적의 조건을 찾는 것을 볼 수 있었다. 돌이 블록 뒤로 들어가면 여러 번의 반사과정을 반복하면서 저절로 대부분의 블록이 격파되고 점수가 올라간다.

그래서 강화학습을 수행한 컴퓨터와의 인간과의 게임이 이제 더 이상 상대가 되지 않는다. 인공지능은 이런 경우뿐만 아니라 주식투자, 재고관리, 웹사이트의 광고 배치, 상품추천 등 다양한 분야에서 중요한 결정을 인간을 대신해서 할 수 있다. 인간처럼 이 때 보상은 경영상 이익이 된다. 컴퓨터는 졸거나, 피곤해 하거나, 술을 마시지도 불평하지도 않는다. 강화 학습으로 훈련한 보상 체계만 따를 뿐이다.

생쥐 미로게임에서 다양한 시도를 통해 치즈를 얻는 길을 찾는 인공지능 강화학습의 내부 구조, [출처: KAIST]
강화학습 인공지능으로 무장한 컴퓨터의 블록깨기(Atari Breakout) 게임, [출처:Ecosia]


강화학습은 인공지능의 '무기' 

이와 같이 강화학습은 데이터와 정답 없이 스스로 학습이 가능한 인공지능 알고리즘이다. 공부로 치면 자율학습 공부 방법이다. 인공지능이 데이터를 이용해서 학습하기 위해서는 데이터를 모으는 작업에서 많은 비용을 지불 해야 한다. 데이터 수거 장치, 전송 장치, 저장 장치에 투자해야 한다. 5G 무선 통신도 투자 비용이 크다. 그러면서도 데이터를 모으려면 개인의 허락을 받아야 하고, 개인 정보 보호 문제도 극복해야 한다. 그렇지만 강화학습은 데이터 없이 학습한다. 인공지능이 점점 강력해지는 또 다른 이유이기도 하다. 

 

joungho@kaist.ac.kr

[김정호 카이스트 전기 및 전자공학과 교수]

[뉴스핌 베스트 기사]

사진
'서부지법 난동' 첫 선고 2명 모두 실형 [서울=뉴스핌] 조승진 기자 = 윤석열 전 대통령의 구속영장 발부 전후인 지난 1월 18∼19일, 서부지법에서 발생한 난동 사건으로 구속기소된 95명 중 2명이 1심에서 실형을 선고받았다. 서울서부지법 형사6단독(재판장 김진성)은 14일 오전 특수건조물침입 등의 혐의로 기소된 김 모 씨와 소모 씨에 대한 선고 공판에서 김 모 씨에게 징역 1년 6개월, 소모 씨에게 징역 1년을 선고했다. 이날 선고는 서부지법 난동 사태 발생 4개월여 만에 나온 첫 선고다.  앞서 검찰은 김씨에게 징역 3년, 소씨에게 징역 2년을 구형했다. 지난 1월19일 오전 서울 마포구 서울서부지방법원 청사 유리창과 벽면이 파손되어 있다. 이날 윤석열 대통령 구속영장이 발부되자 윤 대통령 지지자들이 서울서부지법에 난입해 유리창을 깨고 집기를 훼손하는 등 난동을 부려 경찰이 강제진압에 나섰다. [사진=뉴스핌 DB] 선고는 김 씨부터 진행됐다. 재판부는 "이 사건은 특수건조물 침입, 공용 물건 손상, 특수 공무집행 방해"라며 "피고인이 증거에 관해서 자백하고 있고 보관 증거가 있어서 유죄로 인정된다"고 했다. 이어 "이 사건은 다중위력을 보인 범행이고, 범행 대상은 법원"이라며 "피고인을 포함해서 많은 사람들이 하나의 사건에 연관되었고, 당시 발생한 전체 범행의 결과는 참혹하다"고 설명했다. 그러면서 "대한민국 사법부의 영장 발부 여부를 정치적 음모로 해석 규정하고, 그에 대한 즉각적인 응징, 보복을 이뤄야 한다는 집념과 집착이 이뤄낸 범행"이라고 했다. 재판부는 "다만 이 사건은 공동 범행이 아니라 단독 범행이기 때문에 피고인의 행위에 대해서만 평가한다"면서도 "다중의 위력을 보였다는 부분은 범죄사실에 포함되므로 고려한다"고 말했다. 이어 "피고인은 벽돌 등을 던져, 법원 건물 외벽 타일을 깨뜨렸고, 법원 경내로 들어가 침입했다"며 "법원 내부 진입을 막고 있던 경찰관들을 몸으로 밀어 폭행했다"고 했다. 다만 "피고인이 진지한 반성 태도를 보이고, 우발적으로 범행에 이르게 된 점, 초범인 점, 그밖에 양형 제반 사항을 고려해 징역 1년 6개월에 처한다"고 밝혔다. 이어진 소 씨의 선고에서 재판부는 "피고인이 자백하고 있고 보관 증거 있어 유죄"라고 했다. 그러면서 "피고인은 법원 경내로 들어간 다음 당직실 유리창을 통해 건물 1층 로비까지 들어가 침입했다"며 "화분 물받이로 창고 플라스틱 문을 긁히게 하고, 부서진 타일 조각을 던져 법원 건물 외벽 타일을 손괴했다"고 말했다. 다만 "피고인이 진지한 반성으로 보이고, 우발적 범행에 이르게 된 점, 초범인 점, 그밖에 양형 제반 사항을 고려해 징역 1년에 처한다"고 밝혔다. 이번 선고에 앞서 재판부는 "어제 딸에게 산책하며 '아빠가 어려운 사건을 선고한다'고 했더니 '이재명 사건이냐, 윤석열 사건이냐?'고 묻더라"며 "더 어려운 사건이 있겠구나 싶었지만, 결단과 선고 순간에는 어렵고 쉬운 사건이 없다고 생각한다"고 말했다. 이어 "이 판결문을 머릿속으로 썼다가 지웠다 수없이 반복했다. 오늘 선고를 할지 말지도 많이 고민했다"고 했다. 그러면서 "오늘 선고가 정답이라고 생각지 않는다. 다만 결정과 결단의 문제라고 생각한다"며 "이 선고가 피고인의 남은 인생을 좌우하지 않는다고 생각하고, 남은 생은 피고인 본인답게 살아달라"고 당부했다. 또 "이 사건과 같은 날 있던 전체 사건을 포함해 법원, 경찰 모두 피해자라고 생각한다"며 "그날 직접 피해를 본 법원, 경찰 구성원분들과 지금도 피해를 수습할 관계자분들 노고에 감사하다. 기자들을 포함해 지금도 피해를 수습하는 과정인 거 같다"고 덧붙였다. 이어 "마지막으로 대한민국 어려운 시기에 시민들께서 사법부뿐 아니라 경찰, 검찰, 법원 전체에 지속적으로 관심을 가져주시길 바란다"고 강조했다. chogiza@newspim.com 2025-05-14 11:05
사진
최정, 500홈런…한화 12연승 끝 [서울=뉴스핌] 장환수 스포츠전문기자= SSG가 7연승 중이던 NC에 짜릿한 역전승을 거두며 간판타자 최정의 KBO리그 첫 통산 500홈런을 자축했다. SSG는 13일 NC와 인천 홈경기에서 6-3으로 승리했다. 11일 KIA와 더블헤더부터 3연승을 달린 SSG는 NC를 제치고 4위 삼성과 승차 없는 5위에 올라섰다. [서울=뉴스핌] 장환수 스포츠전문기자= SSG 최정이 13일 NC와 인천 홈경기에서 6회말 500호 홈런을 날린 뒤 포즈를 취했다. [사진=SSG] 2025.05.13 zangpabo@newspim.com 최정은 0-2로 뒤진 6회말 2사 1루에서 NC 선발 라일리 톰슨의 6구째 시속 135㎞ 슬라이더를 잡아당겨 왼쪽 펜스를 넘기는 시즌 5호 110m 동점 투런포를 쐈다. 500홈런이기에 앞서 삼진 10개를 잡으며 무실점으로 호투하던 톰슨에게 일격을 가한 귀중한 한 방이었다. SSG는 곧 이은 7회초 서재철에게 적시타를 허용해 2-3으로 뒤졌으나 8회말 대거 4점을 뽑으며 역전에 성공했다. 선두 박성한의 볼넷과 최정의 내야 안타로 만든 무사 1, 2루에서 한유섬의 2루타로 3-3 동점을 만들었다. 이어 라이언 맥브룸이 고의볼넷을 얻어 만든 무사 만루에서 최준우의 역전 2타점, 1사 후 정준재의 쐐기 1타점 적시타로 점수 차를 벌렸다. 류현진. [사진=한화] 한화는 두산과 대전 홈경기에서 연장 11회 접전 끝에 3-4로 졌다. 12연승이 중단된 한화는 이날 4연승한 LG에 공동 선두를 허용했다. 두산은 3-3으로 맞선 연장 11회초 강승호의 볼넷 후 대주자로 나간 전다민을 1루에 두고, '1할 타자' 임종성이 좌익선상에 떨어지는 2루타를 날려 귀중한 결승점을 뽑았다. 반면 한화 선발 류현진은 6이닝을 6탈삼진 6안타 1실점으로 막았지만 팀에 승리를 안기지 못했다. 한화는 1-1로 맞선 6회말 무사 만루에서 노시환이 투수 앞 병살타로 물러난 게 뼈아팠다. 연장 11회말에는 노시환의 안타 후 대주자로 나간 이상혁이 채은성의 삼진 때 2루 도루에 실패했다. 이날 두 팀은 한화가 8명, 두산이 6명의 필승조 투수를 모두 투입하는 총력전을 펼쳤다. [서울=뉴스핌] 장환수 스포츠전문기자= 삼성 르윈 디아즈가 13일 kt와 대구 홈경기에서 5회시즌 16호 투런홈런을 날린 뒤 다이아몬드를 돌고 있다. [사진=삼성] 2025.05.13 zangpabo@newspim.com 수석·투수·타격 코치를 교체한 삼성은 kt와 포항 홈경기에서 접전 끝에 5-3으로 승리, 최근 8연패에서 탈출했다. 삼성은 2회말 1사 만루에서 구자욱이 2타점 중전안타로 2-0을 만들었고, 5회말에는 홈런 선두 르윈 디아즈가 시즌 16호 우월 투런홈런을 날려 4-0으로 달아났다. 삼성 선발 이승현은 5이닝을 5안타 무실점으로 막아 시즌 5연패 뒤 첫 승을 신고했다. 반면 kt는 6연패에 빠졌다. 오스틴 딘. [사진 = LG] 잠실에선 LG가 키움을 9-6으로 따돌리고 4연승을 달렸다. 초반 6점 차 리드를 지키지 못하고 6-6으로 동점을 내준 LG는 7회말 오스틴 딘의 솔로 홈런으로 다시 리드를 잡았다. 오스틴은 1회에도 선제 솔로홈런을 날려 한 경기 2홈런을 기록했다. LG는 8회말에는 홍창기와 문성주의 연속 안타로 2점을 보태 승부를 갈랐다. 그러나 LG는 이날 시즌 첫 홈런을 신고하기도 한 붙박이 톱타자 홍창기가 9회초 수비 중 다리를 크게 다쳐 웃을 수 없는 하루가 됐다. 김도영. [사진 = KIA] 광주에선 KIA가 김도영의 결승 2루타를 앞세워 롯데를 4-1로 꺾었다. KIA는 5회말 한승택과 박찬호의 안타로 만든 2사 1,2루에서 김도영이 좌중간 2루타를 터뜨렸고, 최형우가 중전 적시타를 날려 3-0을 만들었다. 8회말에는 김도영의 좌전안타와 볼넷 2개로 만든 무사 만루에서 변우혁의 유격수 병살타 때 1점을 보태 승부를 갈랐다. KIA 선발 김도현은 5.1이닝을 4안타 1실점(비자책)으로 막아 2승(2패)를 올렸다. zangpabo@newspim.com 2025-05-13 22:59
안다쇼핑
Top으로 이동