'이루다'는 왜 본래의 뜻 이루지 못하고 사라졌나

대화형 AI의 개인정보 유출과 윤리에 관한 문제

[인사이트코리아=이원섭 한국문화 플랫폼‧코리아인사이트 운영자] 글쓴이가 IT전문지 기자를 하던 1987년 경 ‘음성인식시스템’이라는 것을 처음 접했었다. 음성 인식(Speech Recognition)은 사람의 말을 컴퓨터가 이해해 그 내용을 문자 데이터로 전환하는 처리를 말한다. 당시에는 사람이 일일이 키보드를 쳐서 컴퓨터에 입력하고 이를 컴퓨터가 처리하는 방식이었는데 자판을 치지 않고 말로 하니 여간 편안한, 획기적인 기술이 아닐 수 없었다.

IBM코리아 홍보실을 통해 왓슨연구소가 그 프로젝트를수행한다고 들었었는데 그로부터 30년도 훨씬 지난 오늘날 사람의 말을 알아듣는 각종 인공지능 스피커들이 나오기 시작했다. 더군다나 최근에는 사람의 말을 알아듣고 텍스트로 변환해 주는 단순 단계를 넘어 말하는 단어와 목소리 톤 등을 분석해 감정까지도 알아내는 AI(인공지능)가 결합된 음성인식 기술도 나왔다고 하니 어디까지 발전할지 기대된다. 이렇게 초보 음성인식시스템에서 인공지능형 음성인식으로 상용화가 되기까지 30년 이상이라는 긴 시간이 필요했다. 하지만 아직도 음성인식률이 90% 정도 밖에 안 된다는 전문가들의 말을 들으니 AI가 여간 어려운 분야가 아닌 모양이다.

이렇게 어려운 AI 분야에서 스타트업 기업인 스캐터랩(대표 김종윤)이 세계 최고 수준의 언어능력을 보유한 인공지능 챗봇(chatter robot, 문자 또는 음성으로 대화하는기능이 있는 컴퓨터 프로그램, 인공지능) ‘이루다’를 2020년 12월 정식으로 출시해 많은 관심을 받았다.

스캐터랩 김종윤 대표는 2013년 카카오톡 대화를 통한 감정분석 ‘텍스트앳’을 출시했으며 2015년에는 사랑을 이해하는 인공지능 ‘진저’를 출시했고 2016년에는 심리학 기반의 연애 분석을 제공하는 ‘연애의 과학’을 출시하기도 한 전문가다. 또한 2018년에는 NCSOFT, 소프트뱅크벤처스 등으로부터 투자를 받아 기술력을 인정받고 2017, 2018년 포브스 코리아 ‘2030 Power Leader’로 선정된 촉망받는 우수 스타트업이다.

이런 스캐터랩이 선보인 이루다는 페이스북 메신저를 통해 일상적인 대화를 나눌 수 있는 대화형 AI다. 단순히 명령을 수행하는 AI들과는 다르게 사람과 같은 어투로 생동감 있는 대화, 그리고 귀여운 캐릭터로 2020년 6월부터 약 1500명의 베타 테스터와의 시험 대화과정을 거친 후 6개월 만에 정식으로 출시했다. 정식 서비스는 베타 버전보다 30% 이상 향상된 대화능력을 보였다고 한다.

이루다는 2020년 초 구글의 오픈 도메인 챗봇 미나(Meena)를 뛰어 넘는 우수한 성능의 한국어를 기반으로 한 대화형 AI 기술이었다는 게 스카이랩의 발표였다(오픈 도메인(Open-domain). 대화기술 성능 평가 지표 SSA(Sensibleness and Specificity Average)가 사람의 경우는 86%의 점수를, 구글 미나는 76~78%를, 이루다는 78%를 기록했다고 한다.

이런 각고의 과정을 거쳐 발표된 이루다는 김 대표의 “사람들의 대화상대가 되어줄 친근한 AI를 만들겠다. 이루다가 많은 사람들에게 즐겁고 신뢰할 수 있는 친구가 되기 바란다”라는 바람과는 달리 안타깝게도 서비스 시작 두 달만에 각종 논란을 일으키며 2021년 1월 11일 서비스를 중단한다고 발표했다. 2020년 12월 22일 정식 오픈해 한 달만에 사용자 수 약 40만 명, 페이스북 페이지 팔로워 10만 명을 기록하는 등 큰 인기를 끌었으나 운영을 잠정 중단한 것이다.

대화형 AI ‘이루다’의 실패

문자 채팅 기반의 열린 주제 대화형 인공지능(Opendomain Conversational AI) 챗봇으로 인공지능 기술을 어느 정도 갖추었다는 의미로 ‘이루다’라는 이름을 지었지만 본래의 뜻을 이루지 못하고 안타깝게도 짧은 시간에 사라지고 만 것이다. 스캐터랩의 서비스 중단 공식 발표문에 따르면 이루다는 출시된 지 2주 남짓의 시간 동안 75만명에 가까운 이용자들이 루다와 대화를 나누었는데 이 과정에서 일부 혐오와 차별에 대한 대화 사례와 개인정보 활용에 대한 문제가 있었다고 밝혔다.

먼저 혐오와 차별에 관한 부적절한 대화에 관해서는 차별적 발언에 동의하지 않으며 그러한 발언은 회사의 생각을 반영하지 않고 있지만 특정 소수집단에 대해 차별적인 발언을 한 사례가 생긴 것에 대해 진심으로 사과한다고 했다. 그러면서 이루다는 이제 막 사람과의 대화를 시작한 어린아이 같은 인공지능이라며 학습자와의 대화를 그대로 습득하는 것이 아니라 적절한 답변이 무엇인지, 더 좋은 답변은 무엇인지에 대한 판단을 함께 학습하도록 해 추후 한국어 AI 대화 연구와 AI 제품, 그리고 AI 윤리 발전에 유용하게 쓰일 수 있도록 하겠다고 했다.

다음으로 개인정보 활용에 대해서는 이루다를 개발하는 과정에서 본사가 제공하고 있는 서비스 연애의 과학으로 수집한 메시지를 데이터로 활용한 바 있다며 사전에 동의 범위 내에서 활용했지만 연애의 과학 사용자들이 이점을 명확히 인지할 수 있도록 충분히 소통하지 못한 점에 대해 책임을 통감하며 진심으로 사과했다. 향후에는 데이터 사용 동의 절차를 명확하게 하고 식별이 불가능한 정보라도 민감해 보일 수 있는 내용에 대해서는 지속적인 알고리즘 개선을 통해 보완하겠다고도 했다.

글쓴이는 이번 사태를 보면서 두 가지 문제에 주목해야 한다고 생각했다. 개인정보 유출문제는 추후 기술적 보완으로 해결할 수 있다고 보고 첫 번째 문제는 AI 커뮤니케이션에 관한 것이고 두 번째는 AI 윤리에 관한 문제다. 이는 기술적으로 쉽게 해결될 문제가 아니기 때문이다. 한국인공지능윤리협회 인공지능 윤리헌장 1장 1조에는 “인공지능은 인간을 편리하고 행복하게 하기 위한 도구”라고 명문화돼 있다. 스캐터랩터사 김 대표가 이루다를 출시하면서 밝힌 포부, 사람들의 대화상대가 되어줄 친근한 AI 친구를 만들겠다라는 의도에서 보듯이 AI 이루다의 출발은 지금 일어난 논란을 의도하지는 않았을 것이다. 소위 말하는 X류의 서비스가 아니고 개인정보 무단 복제나 사용의 불법 사이트도 아니었다.

스캐터랩은 한국어 자연어 이해 기술을 활용한 인공지능이 있는 건전한 청년 스타트업이다. 인간 수준에 가까운 대화를 하는 AI를 만들고, 친구가 되고, 인간과 의미 있는 관계를 맺고, 인간과 자유롭게 대화하는 AI를 만들어 가는 따뜻한 대화 상대가 되는 똑똑한 시스템을 만들어 가는 과정의 산물이다. 엄격히 말해 윤리적이고 사리판단을 할 줄 아는 인간같은 수준의 지능과 지혜를 갖출 순 없다.

어쩌면 음성인식 시스템처럼 30년이 지나도 100%의 AI는 영영 불가능할 수도 있다. 인공지능은 기계를 지능적으로 만드는 기술이다. 지능적이란 의미는 기존 컴퓨터 알고리즘은 사람(개발자)이 정의하는 지시받은 특정 규칙을 설정하는 반면에 AI 알고리즘은 자체 규칙 시스템을 구축한다는 차이가 있다. 이는 컴퓨터가 사람에게 전적으로 의존했던 작업들을 스스로 해결할 수 있다는 의미다.

인공지능 바둑머신 알파고도 이런 자체 규칙 시스템 AI 알고리즘을 통해 머신 러닝단계를 거쳐 딥러닝을 한 시스템이다. 머신 러닝은 기본적 알고리즘을 이용해 빅데이터를 분석해 학습하고 그 내용을 기반으로 판단, 예측을 한다. 이 머신러닝에서 진일보 한 것이 딥러닝이다. 딥 러닝은 뇌의 뉴런과 유사한 정보 입출력 계층을 활용해 데이터를 학습한다. 슈퍼컴 퓨터를 기반으로 알고리즘을 병렬화하고 일반 컴퓨터의 CPU(Central Processing Unit)를 뛰어 넘는, 병렬 연산에 최적화된 GPU로 딥 러닝 기반의 인공지능이 되는 것이다. 머신 러닝은 학습 데이터를 수동으로 제공해야하지만 딥러닝은 스스로 학습할 수 있다는 점에서 비교가 안 된다.

알파고는 바둑 딥러닝으로 훈련된 시스템의 이미지 인식능력은 이미 인간을 앞서는 것을 증명해 냈다. 딥러닝으로 인공지능 영역은 더욱 발전해 자율주행 자동차, 암 진단, AI 기자, AI 소설가, 이루다 처럼 우리 일상에서 이미 사용되고 있다. 앞으로 이런 인공지능이 어디까지 진화할지는 상상 그 이상이 될 것이다.

“인간의 편견이 인공지능으로 까지…

이루다는 이런 배경으로 탄생한 인간과 커뮤니케이션이 가능한 챗봇에 불과하다. 이루다의 기초가 된 빅데이터들, 딥러닝을 한 배경에는 이전의 연애의 과학 유료 서비스 ‘카톡으로 보는 속마음’ 등을 통해 특정 기간 동안 이용자들이 나눈 대화 전체 파일 100억 건이 있다. 스캐터랩에 따르면 이 중 1억 건이 챗봇 ‘이루다’ 데이터로 활용됐다고 한다.(이용자들은 이 사적인 데이터가 오직 카카오톡 분석에만 사용되니까 안심해 달라, 평생 약속 드린다는 것을 어겨 이번의 사태가 유발되었다고 한다)

이렇게 탄생한 이루다는 쉽게 말해 1억 건의 데이터 범주에서의 커뮤니케이션이면 별 문제가 없었을지도 모른다. 성희롱과 소수자 혐오 논란은 채팅 로봇(챗봇)이 감당하기에는 불가능한 범주였을 것이다. 그에 대한 딥러닝이 아직 안 되었을 것이다. AI 챗봇 이루다의 대화과정에서 동성애, 장애인 등 사회적 약자, 소수자를 대상으로 혐오와 차별을 말한 것이 문제였는데 75만 명의 사용자 중에는 이성적으로 미성숙한 청소년들도 다수였다고 하니 분명 문제는 문제다.

그렇다면 이 문제는 어떻게 고쳐나가게 딥러닝을 시킬 것인가? 혐오와 차별적인 대화를 한 원인은 찾아 개선하면 되는 문제일까? 어찌 보면 카톡에서 사적으로 주고 받은 데이터를 사용한 자체가 문제일 수도 있다. 딥러닝을 위한 대화 로데이터들이 자기 주관적이고, 편향되고 편견이 들어간 사용자들의 데이터도 포함되어 있었음을 인간(개발자)이 간과한 것이다. 그 빅데이터를 가지고 딥러닝을 배웠기 때문에 그렇게 대화한 것이다.

컴퓨터 데이터 활용에 유명한 말이 있다. GIGO(Garbage in garbage out)는 컴퓨터가 논리 프로세스에 의해 운영되기 때문에 결함이 있는, 심지어는 터무니없는 입력 데이터라도 그대로 처리해 쓰레기와 같은 결과물을 만들어 낸다는 것이다. 이 말은 ‘전제에 결함이 있으면 논증은 오류가 있을 수 있다’는 점에서 일반적인 교훈이다.

따라서 이번 문제도 챗봇을 대상으로 그런 대화를 한 인간과 사회의 구조이고 단지 이루다의 편향성 문제가 아니라는 점에서 풀어가야 한다. 그래서 AI 윤리가 중요한 것이다. 이번 문제는 비단 우리나라, 이루다 만의 문제는 아니다. AI 원조 격인 왓슨을 개발한 IBM은 AI 모델들을 실시간 모니터링해 편향성 발견 시 관리자에게 알려주는 기술을 연구하는 등 인간이 AI의 편향, 혐오 문제 해결을 위해 노력하고 있다.

김경일 아주대학교 심리학과 교수는 ‘인간의 오감을 연결하는 AI’를 주제로 한 강연에서 “AI가 분석가라면 인간은 에디터”라며 AI와 인간의 차이에 대해 다음과 같이 말했다. “인간은 욕구가 있어야 생각하고 동기에 따라 움직인다. 인간은 창의성, 유추, 통찰 등을 통해 기존에 없던 새로운 것을 만들어 낸다. 반면에 AI는 주어진 데이터 이외에 새로운 것을 생성해 내지는 못한다. 세상이 차가워졌을 때 인간은 따뜻함을 갈구하지만 AI는 할 수 없다. 인간은 윤리를 생각할 수 있지만 AI는 할 수 없다. 이처럼 인간과 AI는 누가 더 우월한 것이 아니라, ‘차이’가 존재하는 것뿐이다.”

이희은 조선대 신문방송학과교수도 ‘제2차 성평등 포럼’에서 발표한 ‘인공지능 음성인식장치와 포스트휴먼의 젠더화에 대한 비판적 검토’에서 “시장의 목적과 소비자의 편리에 맞게 인공지능 상품을 설계한다는 것은 곧 기존의 편견을 그대로 안고 간다는 의미”라고 했다. 이미 편견을 가진 인간과 그 편견에 따라 입력된 기계(AI) 사이의 관계가 이어지다 보면 더 큰 편견으로 딥러닝 된다는 것이다.

AI 챗봇 이루다는 사용자로부터 배울 수밖에 없었다. 사용자의 윤리가 중요한 이유가 여기에 있다. 개발자뿐만 아니라 사용자의 윤리 책임도 있다는 것이다. 김효은 한밭대 교수는 ‘인공지능과 윤리’라는 책에서 자율 시스템으로서 인공지능에는 정보 보안을 넘어선 윤리적 문제들이 있다며 윤리적 문제들을 미리 예측하고 논의해 방향을 설정하지 않으면 사회적 문제가 발생할 수 있다고 한 것처럼 이루다가 야기한 논란이 어쩌면 아픈 예방주사가 될 수도 있다.

앞으로도 딥러닝이 더욱 발전해 인간지능을 넘어서면 영화 ‘아이 로봇(I Robot, Irobot)’에서 처럼 상상하기는 싫지만 인간 사회를 통제하고 인간에 대한 폭력 행사까지 하는 세상이 올 지도 모른다. AI는 더 이상 단순 기계가 아니라 의사결정도 할 수 있는 자율 시스템으로 스스로 학습해 패턴을 인식하고 결정을 내릴 수 있기 때문이다.

이루다는 상업용 AI 챗봇이다. 게임처럼 대화를 하거나, 특정 메시지를 전송하거나, 대화한 메시지의 양이 일정 수준을 달성하면 친밀도 포인트가 쌓이고 누적되면 레벨도 올라가게 철저히 재미와 상업성을 지녔다. 스캐터랩은 상업화에 몰두해 가장 중요한 AI 윤리를 간과했다. 이용자들은 20살 여성성의 이루다에게 소화할 수 없는 지나친 대화와 기대를 요구했다. 어린아이 같은 챗봇은 챗봇이라는 관점에서 더욱 딥러닝을 시킬 순 없었을까.

AI 챗봇 이루다는 사라졌지만 더 큰 진보라는 큰 교훈과 숙제를 남겼다. 개발사의 윤리, 사용자의 윤리 그리고 사회적 윤리가 통합을 이루어 우리나라 AI 발전의 시금석이 되길 바란다.

인사이트코리아, INSIGHTKOREA

이원섭 한국문화 플랫폼‧코리아인사이트 운영자 다른기사 보기