‘음성대화형 알고리즘 기술’ 개발 주역 최영상 삼성전자 종합기술원 상무

기계가 인간의 감정 읽으면 어떤 세상이 올까

IT 음성인식 시장이 빠르게 성장하고 있다. 음성인식 기술은 스마트폰을 시작으로 ‘AI 스피커’, 최근에는 주요 가전제품까지 확대 적용되고 있다. 사람이 손으로 직접 버튼을 조작하지 않고도 말로 편리하게 기기 조작이 가능해진 것이다. 일상적인 대화나 날씨· 뉴스·맛집 등의 정보도 직접 검색하지 않고도 알 수 있게 됐다. 삼성이 미국 인공지능 플랫폼 개발 기업 비브랩스를 인수하는 등 글로벌 기업들은 인공지능 기반 음성인식 기술 연구에 박차를 가하고 있다.

그러나 과거 SF영화 속에 등장한 음성 로봇이 사람과의 대화에서 순탄한 대답을 이어가는 것과 달리, 우리 일상 속 음성 로봇은 사람과의 대화에 많은 한계가 있다. 사용자가 빨리 말하거나, 불분명한 어조로 말을 할 경우 엉뚱한 대답을 내놓는다. 사용자의 말을 잘 알 아듣지 못해 대화가 끊기기도 한다. 인간의 자연어를 온전하고 정확하게 알아듣고 구현하기엔 아직 갈 길이 먼 것이다.

지난 11월 19일 수원시 통구에 위치한 삼성전자 종합기술원 연구실에서 만난 최상 Machine Learning 랩장(상무)은 음성 인식 기술이 상용화되는데 큰 힘을 보탰다. 최 랩장은 음성인 식·기계번역·대화엔진 등의 기술개발로 삼성전자 스마트폰 Galaxy Note5, Galaxy S6, Galaxy S7, Galaxy Note7을 비롯해 무선사, VD사, 생활가전 등 SET 전 분야에 확대 적 용시킨 주역이다. ‘자랑스런 삼성인상 기술상 본심입상’을 대표 수상하기도 했다. 2015년에는 TV프로그램 ‘세상을 바꾸는 시간’에서 ‘기계가 인간의 마음을 이해하다’라는 주 제로 강연해 깊은 인상을 남겼다. 최 랩장은 “기계가 사람의 말을 이해하고 표현하는 능력을 갖추게 됐다”며 “앞으로는 마음까지 이해하게 되는 날이 오 면 사람에게 더 많은 혜택을 가져다 줄 것”이라고 강조했다.

-개발하신 ‘음성대화형 알고리즘 기술’이란 무엇인가요?

“사람의 말을 스마트폰과 같은 기계가 이해하기 위한 기술입니다. 음성대화형 알고리즘은 크게 5가지 단계로 구성됩니다. 음성을 텍스트로 바꾸는 음성인식 기술, 텍스트에서 사람의 의도를 파악하는 자연어이해 기술, 대화를 이어가도록 결정하는 대화관리 기술, 어떤 문장(답)을 만들어야 할지 계산하는 자연어 생성 기술, 답을 다시 음성으로 바꾸는 음성합성 기술입니다.”

-자연어이해 기술에 대한 부연 설명 부탁드립니다.

“음성대화형 알고리즘에서는 사용자가 무얼 원하는지 의도를 파악하는 것이 매우 중요합니다. 사용자가 말한 게 기능을 실행하고자 하는 건지, 농담을 하고자 하는지, 웹사이트에서 정보를 얻고자 하는지 등 뭘 원하는지 알아내고자 하는 기술을 ‘자연어 이해’라고 부릅니다. 일반적으로 자연어 이해라고 하면, 사람이 말을 한 배경 등 모든 말을 알아들어야 할 것 같지만 지금의 기술에서는 자연어 이해의 범위가 좁게 사용되고 있습니다. 시스템이 정해놓은 가능과 어떤 것이 매치가 될지 찾아주는 것만 할 수 있습니다. 가령 ‘레스토랑 예약 해줘”라고 한다면 레스토랑의 장소나 시간 등을 찾아주는 정도인 것이죠. 아직 진정한 자연어 이해라고는 하기 어려운 수준입니다.”

-음성인식과 음성합성은 비슷한 기술이라고 볼 수 있나요?

“입력과 출력이 바뀌는 것으로, 맥락은 같지만 실제로 사용되는 기술은 많이 다릅니다. 원래 방식은 많이 달랐으나 딥러닝을 적용함으로써 구조가 입출력만 바꾸는 방식으로 비슷해지고 있습니다. 아직까지 괴리는 있습니다.”

-위에서 설명하신 모든 기술을 연구하셨나요?

“음성합성을 제외하고 모든 기술을 연구했습니다. 음성인식 기술을 가장 중점적으로 연구했고 현재는 발전이 더딘 기술들에 대한 연구에 좀 더 집중하고 있습니다. 또 위 기술들과 별도로 기계번역 기술에 대한 연구도 진행하고 있습니다. 번역 기술은 위 기술들과 연관성이 많고 음성대화형 알고리즘 사용자들에게도 많이 필요하다고 판단돼 함께 연구 하고 있습니다.”

-음성대화형 알고리즘 기술에서 핵심이 되는 기술은 무엇인가요?

“뉴럴네트워크를 사용하는 딥러닝 모델을 설계하고 이 모델을 통해 음성과 텍스트를 학습하는 소프트웨어 기술이 핵심입니다.”

-이해를 돕기 위해 딥러닝 기술에 대한 설명 부탁드립니다.

“딥러닝은 사람의 두뇌가 복잡한 뉴런으로 구성되어 있는 것처럼, 데이터를 받아들여 처리하는 계산단위인 인공 뉴런을 여러 단계로 만든 딥 뉴럴 네트워크를 사용합니다. 딥 뉴럴 네트워크는 일종의 아주 커다란 수학 방정식으로 생각할 수 있는데요, 이 방정식에 들어가는 수식을 만들 때 데이터를 학습해서 만들 수 있습니다. 이 딥 뉴럴 네트워크를 사용하면 그림을 보고 어떤 물체인지를 알아맞추거나 소리를 듣고 무슨 문장을 말했는지를 맞추는 등 문제 해결이 가능합니다.”

-딥러닝 기술이 바탕이 되는 기술이라고 보면 되나요?

“각 단계에서 답을 풀기위해 적합한 딥러닝 모델들을 만들어가는 과정이라고 볼 수 있습니다. 딥러닝이 정답이 아닐 수도 있지만, 딥러닝을 적용했을 때 문제 해결에 많이 가까워지고 있기 때문에 딥러닝을 툴로 가져다 쓰는 것입니다. 모든 단계에 적용되고 있습니다.”

-그동안 인간은 시각과 인식 측면에서 기계와 구분이 됐습니다. 딥러닝 기술을 이용하면 기계도 이 영역에 있게 되나요?

“딥러닝 기술은 시각, 음성 등 패턴 인식 문제에 적용돼 많은 경우 사람의 인식 능력에 가까운 성능을 보이고 있습니다. 특정한 경우에는 사람보다 더 정확한 인식을 할 수 있게 되었습니다. 예컨대 의료영상을 보고 암인지 아닌지를 판단하는 경우에는 훈련된 의사보다도 높은 정확도를 보이고 있습니다.”

-기계가 인간의 언어를 이해하고 표현하는 능력을 갖추기 시작했습니다. 어떤 원리를 통해 사람의 음성을 인식할 수 있는 것인가요?

“음성인식도 기본적인 원리는 데이터와 정답을 미리 알려줘서 딥러닝 모델이라는 수학 방정식을 통해 안 배웠던 데이터에서도 정답을 맞추게 되는 기계학습의 원리에서부터 출발합니다. 다만 입력 데이터가 길이가 정해져 있지 않은 음성이고, 정답이 여러 개의 복잡한 단어들로 표현되는 문장이기 때문에 단어들의 후보들을 만들고 이 중에서 확률이 높은 것들을 찾아 문장을 만들어내는 기술이 좀 더 필요합니다.”

-음성대화형 기술을 연구한 이유가 있나요?

“처음 회사에 들어왔을 때부터 사람이 기계와 서로 소통을 하는 인터랙션(interactrion) 기술에 대해 관심을 갖고 있었고, 박사과정에서는 로봇과 사람의 인터랙션에 대해 연구를 했습니다. 사람이라면 누구나 말로 대화를 할 수 있기 때문에 이 인터랙션 기술에서 음성을 이해하고 대화하는 기술이 가장 중요하다고 생각했습니다.”

-왜 로봇과 사람 간에 소통이 필요하다고 생각하셨나요?

“단순하게 사람이 시키는 일을 잘 하게 하기 위해서입니다. 로봇은 기본적으로 사람이 원하는 일을 해야 하는데, 로봇이 하는 일은 정의하기가 어려울 때가 많습니다. 로봇이 사람이 원하는 일을 하려면, 사람이 원하는 것을 잘 이해해야 하고, 일을 잘 시키려면 말부터 알아듣는 것이 필요하다고 생각했습니다.”

-개발하신 기술은 어떤 제품에 적용되었나요?

“갤럭시 노트5를 시작으로 지금까지 나오고 있는 삼성의 주요 스마트폰 제품들, 손목시계형 웨어러블, 스마트 TV, 그리고 냉장고와 같은 가전제품들의 음성 비서 기능 빅스비에 적용됐습니다.”

-현재 국내 음성대화형 기술 개발 단계는 어디쯤 이라고 보시나요?

“현재의 시스템이 각각의 요소별로 제한점이 있습니다. 먼저 음성인식과 음성합성 기술은 많이 발달했습니다. 음성합성도 자연스러운 음성이 나오고 음성인식의 경우도 알아듣는 성공률이 많이 높아졌으며, 대충 발음이 틀려도 시끄러운 상황에서도 인식이 되고, 완벽하지 않아도 성능이 올라갔기 때문에 AI스피커를 중심으로 사용이 크게 늘어나고 있습니다. 하지만 대화 기술은 정해져 있는 시나리오에서만 동작하는 초보적인 단계입니다.”

-대화 기술에 한계가 있나요?

“대화관리와 자연어 생성 기술이 옛날 방식에서 혁신이 이뤄지지 못하고 발전이 더딘 상황입니다. 사용자들의 기대에 비해 만족스럽지 않은 수준인데요. 사용자들은 대답을 해 줄 때도 좀 더 재밌고 다양한 방식을 원합니다. 그러나 현재 상용화된 대부분의 기술 수준에서는 규칙적으로 만들어 놓은 것에서만 움직이게 돼 있어서 사용자들의 기대보다는 범위가 좁은 것입니다. 예를 들어, 알람 세팅 기능을 만들 때 사람마다 알람을 세팅하고자 하는 표현방식이 다른데, 그런 방식들을 디자인한 사람들의 사고로 다 커버하기는 힘들죠. 이런 부분에 기술을 어떻게 적절하게 적용해야 하는지에 대한 실마리가 없는 상황입니다. 대화 기술에 있어 혁신이 필요합니다.”

-해외 기술 수준과 비교했을 때 어떤 경쟁력이 있다고 보시나요?

“삼성의 음성인식 기술은 주요 경쟁자에 비해서 동등 수준에 있고 계속해서 경쟁하고 있습니다. 응용 면에서는 앞으로 삼성이 가진 다양한 제품군에서 다양한 응용을 발굴할 때 경쟁력을 가질 수 있지 않을까 생각합니다.”

-최근에 많이 상용화된 AI스피커를 떠올려본다면, 화자의 소리와 TV 등의 잡음을 잘 구분하지 못하는 한계가 있어 보입니다.

“TV소리를 구분하기 위해서는 첫 번째로 TV 쪽에서 나오는 소리와 반대 방향에 있는 사람의 목소리를 분리해서 TV 소리를 억제하는 전처리 기술이 있고, 두 번째는 주로 말하는 사람의 목소리만을 선택해서 인식하는 화자인식·화자분리 기술에 대한 연구가 필요합니다.”

-화자의 음성을 기억하게 해서 그 사람에게만 대답을 하도록 할 순 없나요?

“가능합니다. 그런 방식을 화자 인식 기술이라고 부르는데요, 특정 사람이 갖는 목소리의 특징을 찾아내서 그 특징들이 맞는지 아닌지 구분해 낼 수는 있습니다. 그러나 사람의 목소리는 미묘한 차이들이 있어 쉽게 구분이 되지 않고 변화가 심하기 때문에 정확도를 높이기는 어렵습니다. 특정 음성에만 반응하게 하는 것은 곧 가능해 질 것으로 보입니다. 기본적으로 화자를 구분하기 위해서는 딥러닝을 사용해 기본적인 학습에 의한 머신러닝 방법으로도 가능할 것으로 보입니다.”

-목소리의 억양이나 어조를 인지할 수도 있나요? 사투리는요?

“감정 상태에 대해서는 데이터가 충분히 없으며 어렵습니다. 왜냐하면 그 사람의 감정 상태는 객관화시키기가 어렵기 때문입니다. 본인 스스로도 자신의 감정 상태를 알기 어려울 때가 있죠. 어떤 방법으로도 데이터를 모으기는 어렵습니다. 정확하지 않은 데이터를 가지고 학습을 하면 정확한 결과가 나올 수 없기 때문에 아직은 한계가 있는 것입니다. 사투리의 경우에는 어느 정도 커버가 될 수 있습니다. 사투리는 데이터가 모아지면 알아서 해결될 수 있는 문제입니다.”

-기계 번역 기술은 사람이 번역하는 것보다 어떤 강점이 있나요?

“사람이 번역하는 것보다 비교가 되지 않게 빠르게 할 수 있고, 아주 적은 비용으로 번역을 할 수 있습니다. 번역의 성능도 일반인 수준보다는 이미 높아져 있습니다.”

-기계 번역도 ‘딥러닝’ 방식으로 하는 건가요?

“번역이 가장 많이 정립돼 있는 분야입니다. 그 이유는 사람들이 번역해놓은 데이터로 쓰기 때문입니다. 학습하지 않은 다른 문장이 나오더라도 다른 정보들을 모아서 답을 낼 수가 있습니다. 정확도가 상당히 높습니다. 실제로 서비스되고 있는 번역 기술들에 딥러닝 방식을 적용해서 많이 좋아졌습니다.”

-TV프로그램 ‘세바시(세상을바꾸는시간)’에서 ‘기계가 인간의 마음을 이해하다’라는 주제로 강연하셨습니다. 기계가 어떤 수준까지 도달 할 수 있을 것이라고 보나요?

“언어를 이해하고 표현하는 기술은 지금보다 더 많은 혁신적인 기술이 필요하지만 궁극적으로는 기술의 벽을 넘어설 수 있을 것으로 생각합니다. 정확한 시점을 예측하기는 힘듭니다만, 이 혁신이 일어난 후에는 사람과 이야기하는 것과 차이를 찾기 어려울 만큼 자연스러운 대화도 가능할 것입니다. 사람의 감정을 분류해 내고 그에 따라서 디자인한 패턴에 따라 대응할 수 있도록 배우는 것도 충분히 가능할 것이라고 봅니다.”

-가령 사람이 ‘슬프다’ 등의 감정을 나타내는 단어를 표현하지 않고도, 기계가 사람의 감정을 파악하는 것이 기술개발로 가능할까요?

“데이터 취득의 장애가 매우 크지만, 감정인식의 방향이 될 것입니다. 감정인식 부분은 한 가지 정보로 확인이 안 되는 경우가 많습니다. 목소리로 인식하는 것과 얼굴로 인식하는 것도 정확도가 낮습니다. 따라서 전체적인 맥락을 이해하는 것이 필요할 것으로 보입니다. 상황에 대한 정보와 말, 얼굴 표정 등을 종합해서 판단한 후 액션을 취할 수 있도록 할 수 있겠죠. 단순한 정보로 판단할 수 없고, 여러 가지 정보 등을 종합적으로 판단해야 감정에 대한 이해가 될 것 같습니다.”

-사람의 감정을 이해하는 것이 궁극적인 목표가 될까요?

“궁극적으로는 거기까지 가야한다고 보지만 당장 선행되어야할 것들이 있기 때문에 현재 주력할 부분은 아니라고 생각합니다. 사람이 뭘 원하는지 객관적으로 알아보는 것이 잘 돼야 다음 단계로 갈 수 있습니다. 나아가 SF처럼 기계가 감정을 갖는 문제는 또 다음 문제라고 보이는데, 그것은 궁극적인 목표에서는 벗어납니다. 사람이 특정한 혜택을 갖게 하는 것이 이 기술의 목표인데, 기계가 감정을 갖게 되는 것이 사람에게 도움이 될 것인지에 대한 부분은 고민이 필요한 것 같습니다.”

-미래 100대 기술로서 앞으로 어떻게 발전할 가능성을 가지고 있다고 생각하나요?

“사람의 지능을 생각해 보면 몸을 움직이고 균형을 잡는 운동 지능, 눈으로 세상을 보고 이해하는 시각 지능, 그리고 언어 지능 등 세 가지가 중심이 됩니다. 이 중에서 음성 대화형 알고리즘은 언어 지능을 기계에 구현하기 위한 기술이라고 생각할 수 있습니다. 사람은 언어만으로 생각하지는 않고 모든 감각의 경험과 언어가 결합된 생각을 통해서 사고하기 때문에 앞으로는 음성 대화 기술도 텍스트 데이터에만 머무르지 않고 시각적 경험과 함께 처리되는 방향으로 발전할 것으로 봅니다. 기계가 정말로 지능을 갖게 되려면 언어 이해와 표현은 가장 핵심적인 기술로 계속 연구되고 발전할 것으로 생각합니다.”

-기술 발달로 기계가 언어를 잘 이해하고 표현하게 된다면, 우리의 생활은 어떻게 변화될까요?

“높은 사람들은 비서가 있어 일을 시키잖아요. 기계가 사람을 도와주는 일들이 점점 많아질 것이고, 사람에게 기대하는 커뮤니케이션을 기계가 해줄 수 있는 시대가 올 것입니다. 요즘 AI를 어시스턴트, 인공지능 비서라고 표현하는데 기계가 대신 해줌으로써 사람은 더 창조적인 일을 할 수 있게 될 것이고, 시간 활용도 좀 더 효율적일 것으로 기대됩니다.”

-----------------------------------------------------------------------------------------------------------

최영상 삼성전자 종합기술원 랩장

2018~ 삼성전자 종합기술원 Machine Learning 랩장

2017~ 삼성전자 종합기술원 연구임원 상무

2013~ Project Leader, 차세대 음성인식 과제

2009 Georgia Institute of Technology 박사(Industrial and Systems Engineering)

2004~ 2009 Research Assistant, Georgia Institute of Technology

1999~ 2004 삼성전자 연구원

1999 서울대학교 산업공학 석사

1997 서울대학교 산업공학 학사

인사이트코리아, INSIGHTKOREA

이경원 기자 다른기사 보기