전체기사 최신뉴스 GAM
KYD 디데이
산업 생활경제

속보

더보기

[김정호의 4차혁명 오딧세이] 아이에게서 배우는 AI 강화학습

기사입력 : 2019년04월22일 08:00

최종수정 : 2019년04월22일 08:00

※ 본문 글자 크기 조정

  • 더 작게
  • 작게
  • 보통
  • 크게
  • 더 크게

※ 번역할 언어 선택

우리는 어떻게 배우는가

필자가 처음 영어 공부를 시작한 것은 중학교 들어가기 전, 초등학교 6학년 때로 기억한다. 아마 공책에 a, b, c, d 알파벳을 필기체와 출판 서체로 연습한 기억이 난다. 그리고 영어로 배운 첫 문장이 “I am a boy,아니면 “You are a girl” 이 아닌가 생각한다.

        김정호 교수

본격적으로 영어를 공부한 시기는 고등학교 때이다. 그때 사용했던 영어 교재가 ‘성문종합영어’, ‘영어의 왕도’ , 그리고 ‘1200제’였다. 특히 그 중에 가장 어려운 교재가 ‘1200제”이었는데 아마도 일본 참고서를 번역한 책으로 기억한다.

그런데 이렇게 영어 공부를 시작할 때 재일 재미없었던 부분이 문법을 외우는 과정이었다. 명사, 대명사, 동사, 가정법 등 외우는 내용도 많고, 예외도 많았다. 그 규칙을 파악하고 외우고 이를 토대로 문장을 이해하고, 해석하고 작문하였다.

인공지능에서도 전통적으로 이와 비슷한 학습 방법을 써 왔다. 전통적 인공지능에서는 먼저 뇌와 지능의 동작 원리를 이해하고, 그에 맞추어 모델을 세우고 이를 컴퓨터 프로그램으로 구현하는 방법이다. 이 방법은 인간의 뇌의 동작을 인간의 논리로 파악하려 하는 방법이다. 영어 배울 때 문법으로 언어를 배우려는 시도와 같은 방법이다.

성문종합영어 참고서 내의 영어 문법과 작문 부분, [출처: tistory]


하지만 최근 딥뉴럴네트워크(DNN)으로 표현하는 인공지능은 빅데이터를 제공하고 그 데이터를 통해서 인공지능이 스스로 학습하는 방법이다. 이러한 방법을 ‘머신러닝' 인공지능이라고 한다. 여기서는 데이터를 믿고 학습한다. 이러한 머신러닝 학습 방법 중에서 인공지능 스스로 데이터를 만들어 내고 최적의 답을 만들어 내는 방법이 등장했는데, 이를 ‘강화학습(RL: Reinforcement Learning)’이라고 한다. 이를테면 컴퓨터 스스로가 자율학습을 해서 지능을 쌓아가는 방법이다.

아기가 처음 말을 배울 때 하는 말을 ‘옹알이’라고 한다. 옹알이를 통해서 엄마와 소통하면서 말을 배워나간다. 그때 처음 배우는 말이 ‘엄마’, ‘맘마’, ‘아빠’ 와 같은 단어들이다. 맘마라고 부르면 엄마가 우유를 주고, 엄마라고 부르면 엄마가 따뜻한 눈길을 주고 사랑으로 안아준다. 이처럼 아기가 언어를 배우는 과정에서는 아기가 주변 환경과 교류하면서 보상을 얻는 과정에서 말을 배운다. 우리처럼 문법을 통해서 배우지 않는다.

또한 아기가 걸음마를 배우는 과정도 비슷하다. 걷고, 넘어지고 다치면서, 시행착오를 거치면서 아장 아장 걷기를 배운다. 이때 환경은 거실 마루이고, 보상은 걷는 기쁨과 엄마의 웃음이다. 이처럼 주변환경 속에서 행동하고 보상 받으면서, 그 결과 최선의 결정과 행동을 하면서 학습하는 방법을 ‘강화학습’ 인공지능이라고 한다. 그래서 강화학습은 인간이 본능적으로 배우는 학습 방법이다.

아기가 옹알이를 하며 말을 배우고 있다. [출처: tistory]


시행착오 통한 강화학습, 로봇과 게임에도 적용 가능

강화학습에서는 주변 환경(Environment)이 있고 그 상태(State)를 벡터로 표현한다. 다양한 시도(Action)와 보상(Reward)를 얻으면서 스토리(Episode)를 만들고, 그 결과로 환경을 파악해 간다. 이렇게 시행착오를 거쳐서 학습하게 된다. 그리고 최적의 정책(Policy)을 찾아간다.

생쥐의 미로 찾기 게임이 강화학습의 좋은 한 예가 된다. 이 때 미로의 구조가 환경이 되고, 최종적으로 치즈를 먹게 되면 보상을 얻게 된다. 그렇지만 최단 시간 내에 찾아야 하는 조건이 붙게 된다. 이처럼 각 상태에 따라 미래를 정할 수 있고, 과거는 묻지 않는 조건을 강화학습에서는 마르코프(Markov) 조건이라고 한다. 강화학습을 적용하려면 마크코프 조건을 만족해야 한다. 과거는 묻지 않고, 현재 상태로만 그의 미래를 점치는 조건이다. 과거까지 따지면 너무 복잡해서 보상을 예측하기 어렵기 때문이다.

강화학습은 로봇의 걷기 제어에도 적용될 수 있다. 로봇이 넘어지고 걷기를 반복하면서 인간에게 가까운 최적의 보행 제어를 이러한 강화 학습 방법으로 찾을 수 있다. 마찬가지로 이러한 학습은 드론의 조종, 헬리콥터 조종, 항공기의 조종 제어에 사용할 수 있다. 더 나아가 자율주행 자동차의 자동 운전에 강화학습이 사용되어 주어진 조건(State) 에서 최적의 자율 운전을 할 수 있다. 이때 최종적으로 주어지는 보상이 연료비의 절약이나 사고율 저하, 안전성 향상 등이 될 수 있다.

이때 시행착오의 과정은 시간과 비용이 든다. 자동차를 부수기에는 비용이 비싸다. 경우에 따라 시행과 보상을 컴퓨터 시뮬레이션으로 대신 하기도 한다.

강화학습은 게임에 적용되기도 한다. 블록깨기(Atari Breakout)게임을 강화학습으로 하는 경우 금방 최적의 조건을 찾는 것을 볼 수 있었다. 돌이 블록 뒤로 들어가면 여러 번의 반사과정을 반복하면서 저절로 대부분의 블록이 격파되고 점수가 올라간다.

그래서 강화학습을 수행한 컴퓨터와의 인간과의 게임이 이제 더 이상 상대가 되지 않는다. 인공지능은 이런 경우뿐만 아니라 주식투자, 재고관리, 웹사이트의 광고 배치, 상품추천 등 다양한 분야에서 중요한 결정을 인간을 대신해서 할 수 있다. 인간처럼 이 때 보상은 경영상 이익이 된다. 컴퓨터는 졸거나, 피곤해 하거나, 술을 마시지도 불평하지도 않는다. 강화 학습으로 훈련한 보상 체계만 따를 뿐이다.

생쥐 미로게임에서 다양한 시도를 통해 치즈를 얻는 길을 찾는 인공지능 강화학습의 내부 구조, [출처: KAIST]
강화학습 인공지능으로 무장한 컴퓨터의 블록깨기(Atari Breakout) 게임, [출처:Ecosia]


강화학습은 인공지능의 '무기' 

이와 같이 강화학습은 데이터와 정답 없이 스스로 학습이 가능한 인공지능 알고리즘이다. 공부로 치면 자율학습 공부 방법이다. 인공지능이 데이터를 이용해서 학습하기 위해서는 데이터를 모으는 작업에서 많은 비용을 지불 해야 한다. 데이터 수거 장치, 전송 장치, 저장 장치에 투자해야 한다. 5G 무선 통신도 투자 비용이 크다. 그러면서도 데이터를 모으려면 개인의 허락을 받아야 하고, 개인 정보 보호 문제도 극복해야 한다. 그렇지만 강화학습은 데이터 없이 학습한다. 인공지능이 점점 강력해지는 또 다른 이유이기도 하다. 

 

joungho@kaist.ac.kr

[김정호 카이스트 전기 및 전자공학과 교수]

[뉴스핌 베스트 기사]

사진
"'각설이 타령'은 광복군의 희로애락" [서울=뉴스핌] 이지은 기자 = 신개념 국악 방송 '최한이·변상문의 작금작금' 제4편이 26일 종합뉴스통신사 뉴스핌 유튜브 채널 '뉴스핌TV'와 'K스팟(K·SPOT)'을 통해 공개됐다. '최한이·변상문의 작금작금'은 국악이라는 전통 예술 분야에 새로운 활력을 불어넣고, 대중에게 더욱 가깝게 다가가려는 시도이다. 젊은 국악인들의 시선으로 전통음악을 재해석하고 현대사회 속 국악의 의미를 재조명하며, 소리꾼 최한이와 변상문 국방국악문화진흥회 이사장, 팝페라 가수 오윤석과 소리꾼 박나현, 김보성, 가야금 병창 박혜정 등이 출연한다. '최한이·변상문의 작금작금'의 제목 속 '작금(昨今)'은 역사적 사건과 역사적 인물 이야기를 국악으로 풀어 간다는 의미를 담고 있다. 또한 '작금(作金)'은 '금을 캐 부자가 된다'는 뜻도 포함돼 있다. [서울=뉴스핌] 이지은 기자 = '최한이·변상문의 작금작금' 제4편 '광복군'이 공개됐다. 본편은 종합뉴스통신사 뉴스핌TV의 유튜브 채널 '뉴스핌TV'와 'K·SPOT'에서 확인할 수 있다. 맨 왼쪽부터 최한이, 김보성, 변상문. 2025.09.25 alice09@newspim.com 이날 제4편 '광복군'에서는 가야금 병창 박나현과 경기소리꾼 김보성이 함께했다. 4편 '광복군'에서는 의병들에 대한 이야기로 시작했다. 변 이사장은 "의병은 1907년 8월 대한제국 군대가 해산된 후, 1919년 9월 상해 임시정부가 세워질 때까지 개인 신분으로 일제와 싸운 분들"이라고 설명했다. 이어 "이 광복군은 1948년 8월 15일 대한민국 정부수립과 함꼐 국군이 됐다"고 부연했다. 당시 독립군이자 광복군 출신으로 초대 국방부 장관을 맡은 사람은 이범석이며, 초대 국방부 차관은 최용덕이 맡았다. 제4편 '광복군'의 시대적 배경은 1944년 겨울이다. 변 이사장은 "평안도 출신 김준엽을 비롯한 1500여 명의 청춘은 평양에 주둔하고 있던 일본군 제20사단에서 4주간 훈련을 받고, 당시 중국군과 전쟁 중인 일본군에 배치됐다. 그런데 이들 중 40여 명이 일본군영을 탈영하게 된다. 대표적 인물이 전 고려대 총장 김준엽, 창작과 비평 출판사를 운영했던 장준하, 임시정부 초대 군무총장 노백린 장군의 아들 노능서"라고 말했다. 최한이 소리꾼은 장준하의 '돌베개' 책 부분을 읽으며 "흥이 오르자 안익태 씨가 작곡한 애국가를 불랐다. 회식을 주관한 김주임은 사발가를 불렀다"고 말했다. 이어 "여기서 나오는 '사발가'는 1900년대 초부터 1910년 한일병탄 무렵까지 우리 민족의 울분을 노래한 곡"이라고 소개했고, 김보성 소리꾼은 가창을 시작했다. [서울=뉴스핌] 이지은 기자 = '최한이·변상문의 작금작금' 제4편 '광복군'이 공개됐다. 본편은 종합뉴스통신사 뉴스핌TV의 유튜브 채널 '뉴스핌TV'와 'K·SPOT'에서 확인할 수 있다. 사진은 김보성 소리꾼. 2025.09.25 alice09@newspim.com [서울=뉴스핌] 이지은 기자 = '최한이·변상문의 작금작금' 제4편 '광복군'이 공개됐다. 본편은 종합뉴스통신사 뉴스핌TV의 유튜브 채널 '뉴스핌TV'와 'K·SPOT'에서 확인할 수 있다. 사진은 박나현 가야금 병창. 2025.09.25 alice09@newspim.com 탈영한 이들은 중국 국민당 정부 중앙육군군관학교를 마치고 중경에 있는 임시정부를 찾아갔다. 그리고 그곳에서 김구 선생을 만나게 된다. 해당 자리에서 김성근이라는 청년은 '각설이 타령'을 부르게 된다. 박나현 소리꾼은 '품바'라는 가사가 들어간 '광복군 환영가'를 가창했다. 최한이 소리꾼은 이를 들은 후 "지금으로 말하면 타령은 강한 수능금지송이 됐을 것 같다"고 말했다. 이후 변상문 이사장과 최한이는 오늘의 '금맥'으로 "각설이 타령은 광복군의 희로애락 그 자체였고, 국악은 곧 군악이었다"고 정의를 내렸다. 올해 8월 15일 광복 80주년을 맞아 선보이는 특집 프로그램인 '최한이·변상문의 작금작금' 제1화 '광복'은 총 4개로 나뉘어 방송됐다. 제1편은 '작금', 2편 '김구, 판소리 배우다', 3편 '이승만과 아리랑', 4편 '광복군'이다. [서울=뉴스핌] 이지은 기자 = '최한이·변상문의 작금작금' 제4편 '광복군'이 공개됐다. 본편은 종합뉴스통신사 뉴스핌TV의 유튜브 채널 '뉴스핌TV'와 'K·SPOT'에서 확인할 수 있다. 맨 왼쪽부터 최한이, 김보성, 변상문. 2025.09.25 alice09@newspim.com 앞서 제1편 '작금'에서는 성악가 오윤석이 참석해 한국 가곡 '선구자'를 가창했다. 변사로 나선 변상문 이사장은 '가곡'에 대해 "표준국어대사전에서 '가곡'을 우리나라 전통 성악곡의 하나로, 피리나 거문고, 해금 따위의 관현악 반주에 맞춰 부르는 노래라고 정의하고 있다"고 설명하면서 "광복 80주년을 맞이해 뒤죽박죽 돼 있고 뒤섞인 개념을 정리해보고자 한다"고 밝혔다. 그러면서 "가곡은 국악"이라는 답을 힘주어 말했다. 이어 제2편 '김구, 판소리 배우다'에서는 김구 선생이 왜인을 살해한 후 옥중 생활을 하며 만난 조덕근으로부터 시조와 여창 가곡, 남창 가곡, '경기 12잡가', '선유가', 판소리 '적벽가'와 '춘향가'를 배운 내용이 담겼다. 변상문 이사장은 "백범 김구는 판소리 '춘향가'를 배웠고, 판소리 '농부가'와 '갈까부다'를 즐겨 불렀다"고 말했다. 이에 최한이 소리꾼은 "판소리는 원조 K팝"이라고 정의했다. '이승만과 아리랑'이라는 제목의 제3편에서는 이승만 전 대통령이 1993년 2월 24일 스위스 제네바에서 국제연맹 본회의에 참석한 후 식사 자리에서 초대 대통령의 영부인인 프란체스카 여사를 만난 내용이 담겼다. 이 전 대통령은 프란체스카 여사에게 힘들고 외로울 때마다 '아리랑'을 불러줬다. 이에 최한이 소리꾼은 "아리랑은 2012년 유네스코 세계유산에 등재된 우리의 소리이다. '아리랑'은 한민족 DNA이다. 슬플 때는 발라드로, 기쁠 때는 찬가로, 힘들 때는 떼창으로, 인생사 희로애락의 뮤지컬로 시류를 편승하는 살아있는 맥"이라고 강조했다.   alice09@newspim.com 2025-09-26 16:05
사진
두나무·네이버 '슈퍼 플랫폼' 시동 [서울=뉴스핌] 전미옥 기자 = 두나무와 네이버가 가상자산 '슈퍼플랫폼' 탄생을 예고했다. 네이버페이에서 스테이블코인으로 상품을 결제하고 예치금은 업비트 계좌와 연동해 이자이익을 꾀하는 등 원화 스테이블코인 확장 가능성을 제시, 시장을 선점하겠다는 구상이다.  26일 업계에 따르면 네이버파이낸셜과 두나무가 추진하는 포괄적 주식교환 거래 체결 시 양사는 원화 스테이블 코인의 발행과 유통, 활용을 잇는 삼각편대를 단숨에 완성할 수 있다. 네이버페이가 발행한 원화 스테이블코인을 두나무의 가상자산거래소 업비트에 유통하고 해당 코인을 네이버페이가 보유한 막대한 온·오프라인 결제처에서 지불 수단으로 활용하는 방향이다. 달러 스테이블코인 대비 원화스테이블 코인의 활용 가능성에 대한 의구심이 지속되고 있는 가운데 네이버페이와 두나무가 원화 스테이블코인의 구체적인 활용처와 확장 가능성을 제시, 시장을 선점할 수 있는 점도 기회요인이다. 오동환 삼성증권 연구원은 "두나무의 블록체인 플랫폼 '기와체인'으로 스테이블 코인을 발행하고, 이를 네이버페이의 결제처에서 결제 수단으로 활용이 가능하다"라며 "또 업비트에서 거래하며 탈중앙화 금융의 기초 자산으로 활용할 수도 있다"고 내다봤다. 네이버와 두나무의 업비트 로고.[사진=각 사] 특히 네이버페이는 최근 결제 뿐 아니라 대출, 보험 증권, 자산관리 등을 연계해 종합금융서비스로 도약을 꾀하고 있다. 두나무를 품게 되면 가상자산으로 사업영역을 넓힐 수 있는 셈이다. 구체적으로 네이버페이, 업비트 고객들은 원화 스테이블코인 또는 가상자산으로 네이버페이에서 물건을 구매·결제할 수 있고 네이버페이와 업비트 계좌가 상호 연동되면 기존 네이버페이 예치금을 업비트 계좌에 보관, 고객들이 이자수익을 꾀할 수도 있다. 이같은 가상자산 활용이 보편화되면 자연히 네이버-업비트 생태계에 고객을 묶는 '록인' 효과가 극대화된다. 이효진 메리츠증권 연구원은 "네이버의 두나무 연결 편입은 단순 가상자산 거래대금에 대한 수익이 인식되는 것이 아닌 실물자산토큰(RWA), 스테이블 코인 등 디지털 자산 사업의 확대로 활용될 수 있음에 주목해야 한다"고 짚었다.  전문가들은 이번 네이버와 두나무의 합병 신호를 시장에 일종의 '선전포고'로 관측했다. 스테이블코인을 비롯한 가상자산 시장을 선점하겠다는 의지라는 것이다. 김형중 한국핀테크학회 회장은(고려대 교수)는 "네이버와 두나무가 힘을 합치면 스테이블코인의 쓸모를 만들어낼 수 있고 여러 가능성을 기반으로 주도권을 쥐겠다는 강력한 의지를 시장과 정부에 표현한 것"라며 "시그널을 던졌으니 시장 반응을 보고 세부사안을 정립해나갈 것으로 보인다"고 말했다. [사진=게티이미지] 임병화 성균관대 경영학과 교수는 "원화 스테이블코인 법제화가 빠르게 추진되고 있는 만큼 카카오, 토스를 비롯해 은행 등 관련 기업들도 분명 컨소시엄 등 다양한 물밑 논의를 진행하고 있을 것"이라고 짚었다. 그러면서 "미국, 유럽, 일본 등 해외에 비해 한국은 많이 뒤처져있기 때문에 당장의 규제보다는 산업육성이 우선되는 것이 바람직하다"고 피력했다. 다만 제도적 걸림돌도 적지 않다. 더불어민주당 안도걸 의원이 대표 발의한 스테이블코인 관련 법안에서 이용자 보호를 위해 발행과 유통이 분리돼야 한다는 점을 명시했기 때문이다. 이때 발행, 유통의 의미가 구체적으로 규정된 것은 아니지만 단순 해석하면 네이버에서 만든 원화 스테이블코인을 손자회사인 업비트에 상장, 거래로 이뤄지기는 쉽지만은 않을 전망이다.  금융당국이 네이버와 두나무의 결합을 어떻게 평가할지도 변수로 꼽힌다. 가상자산 분야에서 금융당국은 소비자 보호와 산업혁신의 균형을 중시하며, 투자자 보호 중심의 규율체계 마련 등에 나서고 있다. 심원태 금융위원회 가상자산과 사무관은 최근 가상자산 관련 세미나에서 "국제금융안정위원회(FSB) 등은 미국의 가상자산거래소 FTX의 파산 사례를 들며 이해상충 방지, 경업 제한 등 대응방안 마련을 강조한 바 있다"며 "국내 가상자산 시장은 개인만 참여한다는 특수성이 있어 이용자 보호 측면을 보다 중요하게 다루고 있다"고 했다.  한편 전날 네이버와 두나무는 양사 간 포괄적 주식교환을 논의하고 있다고 밝혔다. 네이버 계열사 네이버파이낸셜에 두나무가 편입되는 방안 등을 놓고 검토에 들어간 것이다. 포괄적 주식교환은 한 회사가 다른 회사의 주식 전부를 취득해 100% 지분을 확보하는 절차다. 구체적으로 두나무 주주들이 보유한 두나무 주식 전부를 네이버파이낸셜에 넘기고, 네이버파이낸셜은 신주를 발행해 두나무 주주들에게 제공한다.  네이버는 "두나무와 스테이블 코인, 비상장주식 거래 외 주식 교환을 포함한 다양한 협력을 논의하고 있다"고 밝혔다. 두나무 측도 "네이버페이와 스테이블 코인, 비상장주식 거래 외에도 다양한 협력을 논의하고 있다"고 했다. 양사는 조만간 각각 이사회에서 주식 교환 안건을 의결할 것으로 알려진다. romeok@newspim.com 2025-09-26 17:18
기사 번역
결과물 출력을 준비하고 있어요.
기사제목
기사가 번역된 내용입니다.
종목 추적기

S&P 500 기업 중 기사 내용이 영향을 줄 종목 추적

결과물 출력을 준비하고 있어요.

긍정 영향 종목

  • Lockheed Martin Corp. Industrials
    우크라이나 안보 지원 강화 기대감으로 방산 수요 증가 직접적. 미·러 긴장 완화 불확실성 속에서도 방위산업 매출 안정성 강화 예상됨.

부정 영향 종목

  • Caterpillar Inc. Industrials
    우크라이나 전쟁 장기화 시 건설 및 중장비 수요 불확실성 직접적. 글로벌 인프라 투자 지연으로 매출 성장 둔화 가능성 있음.
이 내용에 포함된 데이터와 의견은 뉴스핌 AI가 분석한 결과입니다. 정보 제공 목적으로만 작성되었으며, 특정 종목 매매를 권유하지 않습니다. 투자 판단 및 결과에 대한 책임은 투자자 본인에게 있습니다. 주식 투자는 원금 손실 가능성이 있으므로, 투자 전 충분한 조사와 전문가 상담을 권장합니다.
안다쇼핑
Top으로 이동