[제243호 과학학술: 인공지능 번역] 인공지능 번역의 트렌드

 외국어를 배우지 않는 세상을 상상한 지는 벌써 오랜 시간이 흘렀다. 번역의 기술도 점차 발전해 왔다. 그러나 언어를 섬세하게 번역하는 것은 아직까지도 온전히 사람의 몫이다. ‘완벽한’ 번역의 세계는 도래할 수 있을 것인가? 현재, 번역 기술은 어디까지 왔을까?

 인공지능 번역 분야에서 가장 주목을 받는 것은 신경망 기계번역(Neural Machine Translation) 모델이다. ‘ NMT’로 불리는 신경망 기계번역은 기존의 규칙기반 모델(Rule- based MT)이나 통계기반 모델(Statistical MT)과는 다르게 인간의 뉴런 네트워크를 모방한 새로운 방식으로 작동된다. 이 번역 모델은 대량의 번역 코퍼스에 대한 전면적인 학습을 통해 최적의 번역어를 찾는 소위 심층학습(Deep learning)에 기반한 방식을 취한다. 하드웨어 성능이 개선되면서 이 번역 모델을 적용한 시스템은 처리속도가 획기적으로 빨라졌으며 범용적인 알고리즘 덕분에 다국어 번역에도 잘 적용된다. 많은 학자들은 당분간 신경망 모델이 기계번역 분야를 주도할 것이라고 주장한다.
 신경망 기계번역은 2015년부터 중국의 바이두(百度翻译  : BaiduMT)와 미국의 구글(GNMT)이 일반인에게 공개한 이래로 큰 주목을 받았다. 한국에서도 네이버 신경망 번역 모델 (Naver Papago)이 공개 되면서 다운로드 횟수만 2,000만 회가 넘었다. 구글에 따르면 현재 구글 신경망 기계번역 프로그램을 사용하는 사람은 5억명이 넘는다. 매일 5억명의 사용자가 번역하는 문장은 10억 개에 달한다. 어휘로 환산하면 매일 1,400억 개의 단어가 번역되는 셈이다. 이러한 번역 결과는 계속 구글 데이터베이스에 저장되고 학습된다. 그 결과 최근 1 ∼2년 사이에 번역의 정확률은 과거 10년간의 통계기반 기계 번역 수준을 능가한다.
 현재 전세계 디지털 데이터의 50%는 영어를 기반으로 한다. 그런데 세계 인구중에 영어를 이해할 수 있는 비율은 20%에 불과하다. 나머지 80%의 사람들이 영어로 된 정보를 이해하려면 번역이 필요하다. 더욱이 중국어, 일본어, 한국어, 아랍어, 힌디어 등의 비영어권 데이터도 50%를 차지하므로 이를 위해서는 여러 언어의 교차번역도 필요하다. 전 세계 언어는 7,000개가 넘는다고 알려져 있다. 이러한 언어의 장벽을 허무는것은 매우 어려운 과제로서 지난 수백 년 동안 시도해 왔지만 여전히 미해결 상태이다.
 인공지능 번역기는 언어 간의 장벽을 넘어서기 위해 시도 했던 용감한 도전의 결과물이다. 그 결과 현재 구글 번역기는 108개의 언어에 대해 상당한 수준의 통번역 기능을 제공한다. 중국의 바이두 번역기는 최근 200개의 언어를 번역할 수 있는 수준까지 이르렀다. 물론 아직 전 세계 언어를 모두 번역하는 단계에는 이르지 못했지만 10년 전과 비교하면 획기적인 발전이라고 할 수 있다. 우리나라의 네이버는 인공지능 통번역 프로그램인 ‘파파고’를 선보였는데 영어, 중국어, 일본어, 베트남어 등의 언어 번역을 필요로 하는 많은 이용자들에게 편리한 기능을 제공하고 있다. 2019년 기준으로 네이버 파파고 앱 다운로드 횟수는 2,000만 회를 넘어섰고 월간 이용자도 1,000 만 명에 이른다. 다음은 인공지능 번역기로 코로나 바이러스 관련 문구를 번역한 실례이다.

[그림1] 통계기반 기계번역(PBMT)
[그림2] 신경망 기계번역(NMT)

인공지능 번역의 원리 – 신경망 기계번역

 신경망 기계번역은 컴퓨터가 원문을 문장 단위로 읽어 들인 다음 심층학습으로 획득된 매개변수(parameter)를 활용 하여 해당 문장에 대응되는 최적의 번역문을 통째로 생성해 내는 과정으로 이루어진다. 이에 대한 직관적인 이해를 돕기 위해 구글 신경망 기계번역(GNMT) 개발자인 존슨(John- son)<2017>이 스탠포드 대학교 세미나에서 소개했던 모나리 자 그림을 제시해 보겠다.
 위의 그림에서 좌측은 구글이 기존에 추구했던 통계기반 번역 방식이고 우측은 신경망 기계번역 방식을 나타낸다. <그림 1>은 퍼즐 맞추기 방식으로 모나리자 그림을 완성하는 것을 나타낸다. 이러한 퍼즐 맞추기 방식은 통계 기반 기계번역을 상징한다. 2000년대부터 유행한 통계기반 번역 방식은 문장을 단어 또는 구(phrase) 단위의 퍼즐 조각으로 나누어 적절한 대역어를 찾은 다음 목표 언어에 맞게 재구조화하는 과정으로 진행된다. 이에 비해 <그림 2>에서 보이듯이 신경망 기계번역(NMT)은 퍼즐로 쪼개지 않고 붓으로 모나리자 그림을 그리는 것처럼 번역을 진행한다. 전자는 불연속적(dis- crete)이고 국부적인 판단(local decision)을 중시하지만 후자는 연속적(continuous)이고 전체적인 판단(global deci- sion)을 중시한다. 전자는 언어 단위를 분할하고 병렬 코퍼스에서 대역어를 찾는 과정으로 번역이 진행된다. 이에 비해 신경망 기계번역은 문장 전체를 통째로 읽어들여 연속적이고 통합적인 추론을 통해 번역을 진행한다. 구<Gu><2019) 가 연구한 제로샷(Zero-shot) 신경망 번역 과정은 러시아어를 중국어로 변환하는 기계 학습과정이 반복되면서 번역의 정확성을 높인다. 컴퓨터는 수만 번의 붓칠을 거치면서 번역 이라는 정교한 그림을 완성하게 되는 것이다.
 신경망 기계번역 시스템에서 입력 언어(X)를 해석하는 것 은 일반적으로 ‘인코더(Encoder)’라고 불리고 출력 언어(Y) 를 처리하는 것은 ‘디코더(Decoder)’라고 불린다. 인코더는 원문을 읽어 들이는 부분이고 디코더는 번역문을 생성하는 부분으로 이해할 수 있다. <그림 3>은 구글에서 제시한 신경망 기계번역(GNMT)의 구조이다.
 <그림 3>에서 보이듯이 구글 신경망 기계번역은 3가지 영역으로 나뉜다. 왼쪽은 인코더 네트워크이고 오른쪽은 디코더 네트워크이다. 그리고 중간에 주의(Attention) 모듈이 결합 되어 있다. 인코더 네트워크와 디코더 네트워크에는 8개의 층 (layer)이 존재한다. 인공 신경망 이론의 핵심 중의 하나가 은닉층(hidden layer)을 설계하는 것인데 층을 얼마나 많이 둘 것인지에 대해서는 여러 주장이 존재하지만 대체적으로 층이 깊을수록 성능이 좋다고 알려져 있다. 또한 신경망 기계번역은 대량의 병렬 코퍼스를 학습하는 시간을 줄이기 위해 여러 개의 GPU를 결합하여 사용한다.

[표1] 코로나 바이러스 관련 문구에 대한 인공지능 번역 실례
[그림3] 구글 신경망 기계번역 시스템의 구조
[그림4] 바이두 기계번역의 신경망 학습 과정

다국어 번역을 위한 또 하나의 도약: Zero-shot NMT와 Multi-Tasking NMT

 최신의 신경망 모델에서는 여러 언어의 번역을 위한 새로운 방법이 제시되었다. 구글의 ‘제로샷 번역(Zero-shot NMT)’과 바이두의 ‘다중 작업 학습(Multi-task learning)’ 모델이 그것이다. 이러한 방법을 통해 구글은 108개 언어의 다국어 번역을 지원하고, 바이두는 200개 언어에 대한 번역 기능을 제공한다.
 구글과 바이두의 번역 모델은 여러 언어의 번역쌍을 하나로 모아 학습하는 것이다. 예를 들어 영어-일본어, 영어-한국어, 영어-프랑스어, 영어-스페인어, 영어-포르투갈어, 영어- 독일어, 영어-네델란드어 번역 코퍼스를 하나로 합쳐 학습하는 것이다. <그림 4>는 구글과 바이두에서 제시한 다국어 신경망 학습 과정을 간략하게 보여준다.
 언어 종류가 다른 여러 번역쌍을 다층적으로 학습하면 언어의 보편적인 구조와 의미정보가 귀납된다. 그 결과 입력 언어를 처리하는 인코딩 단계에서 하나의 네트워크를 공유하게 된다. 예를 들어 영어→한국어, 영어→일본어, 한국어→일본어 번역 문장을 하나로 합쳐 보면 유사한 문장간의 공통점이 드러난다. 구글에서 발표한 ‘제로 샷(Zero-shot)’ 기계번역 모델을 살펴보면, 영어, 한국어, 일본어의 특정 문장이 2차원의 특정 공간에 분포하는것을 알 수 있다.
 2016년 구글에서는 신경망 기계번역 시스템의 번역 품질이 기존에 비해 획기적으로 좋아졌다는 결과를 논문과 블로그를 통해 공개하였다. 분석 결과에 따르면 신경망 기계번역 시스템의 번역 품질은 기존의 통계 기반의 번역 시스템에 비해 오류가 60% 이상 줄어들었다. 이러한 주장을 뒷받침하는 자료로 구글 번역 개발팀에서는 번역 정확률 비교 분석 결과를 제시하였다.
 번역의 정확률 비교 분석은 세 종류의 언어쌍을 중심으로 진행되었다. 평가 대상으로 삼은 언어쌍은 영어↔중국어, 영어↔프랑스어, 영어↔스페인어이다. 그래프에서 보이듯이 번역의 정확률은 ‘인간번역(Human) > 구글신경망번역 (GNMT) > 통계기반번역(PBMT)’ 순서로 배열된다. 번역 언어쌍 중에는 영어↔프랑스어, 영어↔스페인어의 번역의 정확률이 높은 편이다. 그 중에서 프랑스어→영어, 스페인어→ 영어, 영어→스페인어에 대한 신경망 번역은 인간번역자에 근접한 정확률을 보인다. 그러나 영어↔중국어의 번역 품질은 상대적으로 낮은 편이다.
 네이버 신경망 기계번역 시스템도 기존의 통계 기반 번역에 비해 번역의 품질이 좋아졌다는 평가를 받는다. 네이버도 2016년부터 ‘파파고’라는 인공 신경망 번역 시스템을 공개하였다. 네이버 번역팀 자체 조사 결과에 따르면 한국어↔영어 번역은 기존의 통계기반 번역보다 정확률이 2배 정도 향상되었다. 한국어→중국어 번역의 정확률도 160% 향상되었고 중국어→한국어 번역의 정확률도 233%까지 향상되었다고 한다.
 신경망 기계번역의 장점을 들자면 무엇보다 기존 모델에 비해서 간단하면서도 범용적이고 좋은 성능을 낸다는 것이다. 신경망 기계번역 모델은 규칙 기반 기계번역처럼 일일이 번역 규칙을 만들 필요도 없고 통계기반 기계번역처럼 번역 단위를 분할하거나 어순을 조정할 필요도 없다. 신경망 기계번역 모델은 컴퓨터가 입력된 문장을 통째로 학습하여 가장 적절한 번역어의 조합을 스스로 예측하도록 설계되어 있다. 이 모델은 언어의 종류에 큰 구애를 받지 않고 범용적으로 적용될 수 있다. 충분한 양의 병렬 코퍼스만 있으면 기존 모델보다 훨씬 자연스럽고 정확한 번역 결과를 얻을 수 있는 장점이 있다.
 그러나 신경망 기계번역은 몇 가지 측면에서 단점이 있다.
 첫째, 신경망 기계번역은 학습과 추론에 많은 시간이 소요 된다. 기존의 통계 기반의 번역 방식은 기계학습을 하는데 소요되는 시간이 짧지만 신경망 기계번역은 고려할 변수가 너무 많아 컴퓨터 연산량이 크게 증가한다. 기계번역을 상용화하려면 정확률도 중요하지만 속도가 빨라야 하는데 느린 학습 속도와 추론 속도는 걸림돌이 될 수밖에 없다.
 둘째, 신경망 기계번역은 고도의 유지 비용이 필요하다. 신경망 기계번역 시스템을 가동하려면 고가의 전산 장비가 있어야 한다. 네이버 관계자의 인터뷰에 따르면 신경망 기계번역 시스템은 기존의 통계 기반 번역 방식보다 10배의 장비 유지 비용이 든다. 이윤 추구가 목적인 기업으로서는 고가의 장비 비용은 부담이 될 수밖에 없다.
 셋째, 신경망 기계번역은 적은 양의 코퍼스 자료로는 좋은 번역을 하기가 쉽지 않다. 범용적인 신경망 기계번역이 원활하게 작동하려면 적어도 수백만 개의 문장이 필요하다. 신경망 기계번역 시스템은 빅데이터 수준의 번역 자료가 확보된 환경에서 좋은 성능이 발휘된다. 개인이나 소규모 연구기관에 서는 양질의 번역문을 수백만 개나 확보하기가 쉽지 않다.
 넷째, 신경망 기계번역은 번역과정에서 인간의 개입을 허용하지 않고는 오류 수정이 불가능하다. 신경망 번역 과정에서는 입력과 출력 사이에 은닉층이 존재하는데 벡터로 변환된 많은 정보들이 은닉층에서 어떻게 상호작용하는지는 여전히 미지수이다. 컴퓨터가 수많은 데이터를 학습하여 은닉층에서 매개변수를 개선하는 과정에서 무슨 일이 일어나는지는 알기가 힘들다. 주어진 데이터에서 스스로 패턴을 찾는 신경망 기계번역 시스템에서 인간이 할 수 있는 일은 입력값과 출력값을 확인하는 것이다. 설령 번역의 오류가 있더라도 원인을 찾기 어렵다.

인공지능 번역 모델의 효과적인 활용 방안

 신경망 기계번역 모델은 기존의 규칙 기반 또는 통계 기반 모델보다 번역의 품질이 향상된 것은 사실이다. 그러나 아직까지 ‘고품질의 완전 자동번역(Fully Automatic High Quality Translation)’의 수준에는 미치지 못한다. 기계번역 프로그램 개발자들도 고품질의 완전 자동번역이 현실화되려면 더 많은 시간이 필요하다고 본다. 언어를 번역하는 작업은 생각만큼 규칙적이지 않고 복잡하기 때문이다. 이러한 상황에서 우리는 기계번역 프로그램을 번역의 보조 도구로 활용하는 방법을 생각해 볼 수 있다.
 (1) 범용적 번역 시스템과 특화된 번역 시스템의 개발
 현재의 인공지능 번역기는 범용적인 프로그램이다. 구어체, 문어체, 일반 문서, 전문 분야 문서에 상관없이 일관된 번역문을 생성하도록 설계되어 있다. 그러나 번역은 텍스트의 유형에 따라 그 방식과 난이도가 다르다. 신경망 기계번역 프로그램을 이용한 번역도 텍스트 유형에 따라 번역의 정확률면에서 큰 차이가 난다. 예컨대 구글 번역기는 구어체 문장 번역을 잘하지 못하지만 문어체의 신문기사는 비교적 잘 번역해 낸다. 한편 특정 전문 분야로 한정된 문서는 번역 코퍼스만 잘 구축하면 비교적 정확한 번역문을 얻을 수 있다.
 (2) 신경망 기계번역 모델을 활용한 다원적 설계 방안
신경망 기계번역 모델은 ‘end-to-end’ 방식이므로 번역 데이터만 확보되면 시스템 개발이 훨씬 효율적으로 이루어질 수 있다. 특화된 영역으로의 확장도 수월하다.
 텍스트 유형에 특화된 다원적 번역 시스템은 구글의 ‘제로 샷(Zero-shot)’ 번역 모델과 바이두의 다중 작업 모델을 응용하면 범용성과 확장성 확보가 가능하다. 즉 하나의 범용적인 신경망 번역 모델을 만들고 그. 위에 특화된 모듈을 결합하는 것이다. 예컨대 간단하고 일반적인 번역은 범용 신경망 모델로 처리하고 전문적인 번역은 특화된 모듈을 사용하여 처리하는 것이다.이러한 과정은 다음과 같이 나타낼 수 있다.

 이러한 방법은 최근 구글의 AutoML Translation에서 시도되고 있다. 이 프로그램은 범용적인 번역 기능과 특화된 번역 기능이 분리되어 필요에 따라 운영된다. 사용자는 자신이 필요로 하는 특정 분야에 맞춰 번역 데이터를 학습시켜 번역의 성능을 높일 수 있다. 즉 기존에 입력된 번역 데이터를 기반으로 번역 프로그램이 특화된 영역에 맞게 스스로 학습하고 가중치를 조정하여 최적화된 번역문을 생성하는 것이다. 만약 동일한 텍스트 유형의 번역 데이터가 계속 축적된다면 번역의 정확성과 효율을모두 높일 수 있게 된다.
 (3) 번역가들의 공동 번역 플랫폼 구축
 신경망 기계번역의 시대에 번역 작업은 이전보다 언어 간의 장벽이 낮아지고 폭넓은 방향으로 변화될 것이다. 번역 공동체를 형성할 수 있는 플랫폼도 수월하게 구축될 것이다. 공동의 번역 작업 공간을 통하여 상호작용이 활발해지고 번역 데이터가 공유된다면 번역의 품질과 효율성도 그만큼 높아진다.
 이를 위해서는 언어 번역에 능통한 전공자들이 다양한 기계번역 시스템을 과감히 다룰 필요가 있다. 더 나아가 번역 공동체를 조직하여 시중에 공개된 번역 프로그램 및 오픈소스 소프트웨어를 통해 맞춤형 번역 플랫폼을 구축하는 것도 시도해 볼 수 있다. 이렇게 되면 기존에는 불가능했던 새로운 인공 지능 번역의 돌파구가 마련될 수 있으리라 판단된다.

강 병 규 / 서강대학교 중국문화학 전공 교수

*** tip
*􏰁 순환신경망(Recurrent Neural Network) : ‘RNN’이라고 약칭 되는 알고리즘으로 선형적인 순서를 가지는 데이터에 많이 활용 되는 신경망 학습방법이다. 인공지능 번역에서도 많이 활용되었다. 인공지능 번역에서 처리하고자 하는 언어도 일종의 선형적인 순서를 가지는 데이터이므로 RNN 모델을 적용하는 것이 선호되어 왔다.􏰁

* 제로샷(Zero-shot) 번역 모델 : 구글에서 제안한 다국어 번역 모델로서 여러 언어의 데이터를 통합하여 학습한 다음, 특정한 언어에 대한 추가적인 데이터를 학습시켜 번역의 효율을 높이는 방식으로 작동된다. 이는 전이학습(transfer learning) 모델과도 연관이 있다. 전이학습은 하나의 데이터를 가지고 학습을 한 이후에 새롭게 구축된 데이터를 재사용하여 효율을 높이는 딥러닝 학습 기법이다. 전이학습은 일반적으로 대규모 데이터에서 풍부한 정보를 학습한 다음 특정 목적에 맞게 정밀하게 가공된 데이터를 다시 학습하여 효율성과 정확성을 높이는 방식으로 진행된다.􏰁

* 자동기계학습 번역(AutoML Translation) : 일반인들도 쉽게 자신에 맞는 번역 데이터를 학습시켜 번역할 수 있는 모델이다. 구글 클라우드에서 제공하는 것으로서 사용자는 자신이 필요로 하는 특정 분야에 맞춰 번역 데이터를 학습시켜 특화된 영역에 맞춰 최적화된 번역문을 생성할 수 있다. 동일한 텍스트 유형의 번역 데이터가 계속 축적된다면 번역의 정확성과 효율을 높일 수 있다.