낙서장

Science - 인공지능도 빅데이터 시대

도일 남건욱 2013. 9. 9. 11:29


Science - 인공지능도 빅데이터 시대
인공지능의 신천지
조현욱 중앙일보 객원 과학전문기자·코메디닷컴 편집주간
빅데이터 활용해 의학적 진단도 내려 … 컴퓨터 스스로 추론하는 기계 학습법

지난해 11월 8일 국내에서 열린 지식콘서트 테크플러스(tech+) 포럼. 인공지능의 권위자인 대니얼 리 미국 펜실베이니아대 교수가 소리를 인식해 움직이는 강아지 로봇을 설명하고 있다.


지난해 10월 마이크로소프트 연구소의 라시드 수석부 회장은 중국 톈진(天津)에서 놀라운 번역기를 선보였다. 그는 200 여명의 컴퓨터 전문가와 학생들 앞에서 영어로 말했다. “사람들 사이의 언어 장벽은 사라질 것입니다. 불과 몇 년 지나지 않아 그렇게 될 것이라는 희망이 있습니다.” 2초 간의 침묵 후에 그의 목소리 그대로 매끄러운 만다린(공식 중국어)이 스피커에서 흘러나왔다. 장소는 ‘마이크로소프트 리서치 아시아의 21세기 컴퓨팅’ 행사장이었다.

인공지능은 사람의 정신과정을 복제한다는 원대한 계획 하에 개발됐다. 인간을 이해하고 식별하고, 인간의 의사결정을 돕는 그런 기계…. 최근 몇 년 새 우리는 이 같은 목표를 달성했다. 하지만 그 방식은 선구자들이 상상한 것과는 엄청난 차이가 있다. 과거엔 논리적 공리에 뿌리를 둔, 사전에 프로그램 된 규칙을 통해 인간의 사고과정을 흉내 내려고 했다. 충분히 많은 수의 규칙을 만들어내면 성공으로 향할 수 있을 줄 알았다.

영어 스피치가 수초만에 중국말로

하지만 그렇지 않았다. 언어를 이해하고 다른 언어로 번역하고 이미지를 인식하고 인간의 의사결정 능력을 복제하는 인공지능은 나오지 않았다. 1958년 영국 에딩턴에서 열린 ‘사고 과정의 기계화’ 회의 이래 줄곧 그랬다. 그러다 몇 년 전부터 달라진 것이다.

무엇이 달라졌을까? 사전에 프로그램 된 규칙을 버리고 ‘기계 학습’을 받아들인 것이 차이다. “우리는 포기했다. 하지만 그것이 돌파구였다. 우리는 정신적·심리적 속성을 만들어내려는 시도를 포기하자마자 성공을 이루기 시작했다.” 영국 브리스톨대의 인공지능 개발역사 전문가 넬로 크리스티아니의 말이다.

‘우리는 완전히 새로운 형태의 인공지능을 창조했다. 그것이 어떻게 생각하고 추론하는 지를 인간은 헤아릴 수 없다’. 8월 8일 과학전문지 뉴사이언티스트에 실린 심층분석 기사의 주제다. 제목은 ‘우리와 같지 않다: 우리가 이해할 수 없는 인공적 마음’. 이에 따르면 근래 성공하는 인공지능 시스템에는 특징이 있다. 충분히 많은 양의 정보, 즉 빅데이터를 주고 기계가 추리 통계적 기법으로 스스로 학습하게 만드는 것이다. 

빅데이터란 인터넷 시대에 빠른 속도로 축적되는 방대한 양의 전자데이터를 말한다. 여기에 앞서의 기계 학습이 가세한다. 컴퓨터가 스스로 학습해서 데이터로 부터 패턴을 알아내게 만드는 기술이 기계학습이다. 충분히 방대한 양의 정보가 있으면 당신은 기계로 하여금 똑똑한 일을 하도록 학습을 하게 만들 수 있다. 목소리 인식, 언어 번역, 얼굴 인식, 뭐든지 말이다.

성공적인 기계학습 시스템 중 많은 수가 베이즈 통계 기법에 기반을 뒀다. 베이즈 통계 기법이란 가능성을 측정하게 해주는 수학적 틀이다. 이것은 현재 주어진 맥락, 그리고 과거 이와 유사한 맥락에서 관찰된 상관관계를 고려해 특정 결과가 나타날 가능성을 숫자로 표시한다. 베이즈 기법은 표본에서 얻은 정보뿐만 아니라, 연구자가 갖고 있는 사전 지식이나 주관적 의견 같은 정보도 포함시키는 추리 통계라는 것이 특징이다.

이를 이용하는 구글 번역기는 앞서의 마이크로소프트 번역기와 마찬가지로 언어에 대해서는 전혀 모른다. 오로지 단어에 단어가 이어지는 무수한 사례와 그중 어떤 사례가 상대적으로 많은가를 알 뿐이다. 이들 인공지능은 이 단어 다음에는 어떤 단어가 이어질 가능성이 큰 지를 한 단어씩 계산해나간다. 프로그램의 입장에서 이는 확률의 문제 일뿐이다.

이런 기본원리는 어느 정도 직관적으로 이해할 수 있다. 문제가 복잡해지는 것은 거대한 분량의 데이터 내에서 무수히 많은 숫자의 상관관계가 나타나기 때문이다. 구글의 자동 운전 차량을 생각해보자. 이 차량이 주변 환경을 예측하려면 매초 거의 1기가바이트의 정보를 수집해야 한다. 아마존이 사람들에게 더 많은 것을 구매하게 만들 수 있는 이유도 마찬가지다. 이들의 추천 아이템은 수백만 건의 다른 거래에서 추출한 수십억 건의 상관관계를 기초로 한 것이다.

지능적 알고리듬은 삶의 모든 영역에 영향을 미치기 시작했다. 라시드의 연설 다음날 네덜란드과학수사연구소는 보나파르트라는 이름의 기계학습 시스템을 채용했다. 방대한 양의 DNA 표본을 비교 분석하는 이 프로그램은 13년 된 살인사건의 범인을 체포하는 데 기여했다. IBM의 ‘왓슨’ 프로그램은 의학적 진단까지 내린다. 최신 인공지능은 빅데이터 덕분에 가능해졌다. 

“엄청난 양의 데이터에 대한 통계를 단지 들여보는 것만으로 우리가 얼마나 많은 것을 얻을 수 있는지에 대해서 우리는 계속해서 놀라는 중이다.” 마이크로소프트 연구소의 크리스 비숍의 말이다. “빅데이터 분석은 우리가 놓치는 것을 볼 수 있다. 우리가 스스로에 대해 알 수 있는 것보다 우리를 더 잘 알 수 있다. “영국 옥스포드 대학 부설 ‘옥스포드 인터넷 연구소’의 빅터 메이어숀버거의 말이다. 하지만 이를 받아들이려면 사고방식을 바꿔야 한다.

확률 예측 남용과 프라이버시 침해 우려

인공지능의 초창기에는 설명 가능성을 귀중히 여겼다. 기계가 어떤 선택을 하면 사람이 그 이유를 추적할 수 있었다. 하지만 오늘날 데이터 기반 인공지능이 추론한 내용은 그렇지 않다. 엄청난 양의 데이터 요소를 가지고 극도로 복잡한 통계분석을 수행하기 때문이다. 이 말은 우리가 결과를 얻기 위해 이유를 포기했다는 뜻이다. 설사 전문가가 컴퓨터의 수학적 계산을 추적한다 해도 그것은 무의미할 수 있다. 

이 프로그램의 결정은 인간이 해석할 수 있는 일련의 규칙에 따라 내려진 것이 아니기 때문이다. 초기의 인공지능은 설명이 가능했고 투명했다. 하지만 실패했다. 과거의 프로그래밍은 확실한 것에 대한 것이었다. 하지만 오늘날의 기계 학습은 불확실성의 정도에 대한 것이다.

이에 따른 위험은 우리가 질문을 제기하는 것을 포기할 지 모른다는 것이다. 우리는 우리를 위해 기계가 내리는 결정에 너무나 익숙해진 나머지 이를 무의식적으로 받아들이게 될 지도 모른다. 이것은 중대한 문제다. 인공지능이 주택대출 이자율, 의학 진단, 유·무죄 여부에 대해 우리가 살펴보아도 알 수 없는 결정을 내리는 시대가 임박했기 때문이다. 

예컨대 의학 분야에서 어떤 기계가 당신에 대해 몇 년 지나지 않아 술꾼이 될 것이라는 결론을 내린다고 생각해보자. 이 때 의사가 장기이식을 보류하면 이런 선택이 정당화될 것인가. 어떻게 해서 이런 결론이 나왔는지를 아무도 모른다면 당신을 변호하기가 쉽지 않을 것이다. 사람들은 어떤 알고 리듬이 알아낸 것이라면 너무나 기꺼이 받아들이려 한다. “컴퓨터가 ‘노’라고 말한다. 그게 문제다.”

지금도 어딘가에 인공지능 시스템이 있어서 당신이 어떤 사람이며 앞으로 어떤 사람이 될 것인가를 판단하고 있을 수 있다. 하버드대의 학생인 라타냐 스위니에게 일어난 일을 생각해보라. 어느 날 구글 검색 결과 다음과 같은 동반광고가 떴다. “한번이라도 경찰에 체포된 일이 있나요?” 백인 학생들에게는 뜨지 않은 광고였다. 조사 결과 구글 검색의 배후에 있는 기계학습이 인종차별적이라는 사실이 드러났다. 흑인에게 좀 더 많이 붙여지는 이름은 체포 기록과 관련된 광고와 연관된 것이다.

여기에는 심원한 윤리적 딜레마가 존재한다. “많은 사람이 빅데이터 시대의 프라이버시를 걱정한다. 솔직히 말해 그보다는 확률적 예측의 남용이 나는 더욱 걱정스럽다.” 옥스포드 인터넷 연구소의 빅터 메이어숀버거의 말이다.

이런 사태를 피할 길은 없다는 것이 뉴사이언티스트의 결론이다. “그저 받아들이는 수밖에 없다. 어떻게 해서 이런 결정이 내려졌는지를 우리가 알 수 없다는 사실을 말이다. 사람들의 꿈은 자신을 닮은 인공지능을 만드는 것이었다. 하지만 결국 인공지능은 외계지능으로 결착돼버렸다. 예전에 결코 만나보지 못한 형태의 지능으로 말이다.”