기계번역이 연 디지털 불교학의 지평
- 번역기계를 쫒아 주워 담고 청소하는 불교학 -
· 발행인 : 김찬완 / 편집인 : 양영순 / 발행일 : 2023년 2월 28일 / 발행처 : 한국외국어대학교 인도연구소 인문한국플러스(HK+) 사업단 / ISSN 2671-9967(Online) ISSN 2671-9959(Print)
인도인문포커스 바로가기 바로가기
대장경 번역기계의 출현
전 세계 불교학자들의 최대 온라인 네트워크인 H-Buddhism은 보통 학술행사와 채용공고 등의 정보를 일방적으로 구독자에게 전달하는 창구로 사용되고 있지만, 작년 7월 11일 템플대학교(Temple University) 빙겐하이머 (Marcus Bingenheimer) 교수가 발송한 공지사항은 오랜만에 H-Buddhism을 열띤 토론의 장으로 바꾸어 놓았다. 공지의 제목은 “CBETA 말뭉치에 대한 기계번역”(Machinetranslations of the CBETA corpus)이었다. 1) 나는 드디어 올 것이 왔구나하는 생각으로 메일을 열어보았다. 길고 긴 메시지가 전달하고자 한 요지는 《대정신수대장경》 전체에 대한 기계번역이 이루어졌다는 것이었다. 빙겐하이머 교수는 불교학 전통에서 빨리어, 산스크리트, 티벳어, 한문 등의 불교고전어 학습과 이를 통한 번역행위가 갖는 일차적이고 근본적인 중요성을 언급하며, 기계번역이 향후 불교학계에 가져올 파장에 대해서도 짧게 논하였다. 그런데 그의 예측 가운데 유독 다른 연구자들의 심기를 건드린 것은 바로 다음의 한 문장이었다. “우리는 번역하는 기계들 뒤를 쫓으며 주워 모으고 청소하는 사람들이 될 것이다.”(We will be gleaners and cleaners following behind the translating machines.) 여기서 ‘우리’란H-Buddhism을 구독하고 있는 전문 불교학자들을 지칭하며, 빙겐하이머는 결국 학자들이 기계가 생산해내는 재활용쓰레기와 폐기물쓰레기 처리를 전문적으로 담당하는 청소부가 될 것이라 예언한 것이다. 그의 공지는 기계번역된 문장의 품질을 높이기 위해 기계를 훈련시킬 한문과 영어가 짝지어진 문장을 제공해달라는 요청으로 끝맺는데, 불교학자들이 과연 자신을 청소부로 만들어 버릴 번역기계를 위해 데이터를 제공할것인지, 제공한다면 어떤 마음으로 건네게 될 것인지 궁금하다.
1) 빙겐하이머의 공지와 그에 대한 반응들은 다음의 링크를 통해 열람가능하다. 이후 인용하는 연구자들의 의견들도 모두 다음 링크에서 열람할 수 있다. https://networks.h-net.org/node/6060/discussions/10365735/machinetranslations-cbeta-corpus
학자들의 목소리를 지우는 번역기계
매스컴이 연일 인공지능에 의해 대체되고 없어지게 될 직업들을 나열하며 공포심을 조장하는 시대에 불교학자가 청소부가 될 것이라는 이야기는 그리 새로운 소식도 아니다. 일상적으로 구글 번역과 파파고를 사용하는 마당에 대장경을 그런 식으로 읽지 말라는 법도 없는 것이다. 기계가 불교학 분야에서 인간을 넘어서는 성능을 발휘한다고 해서 인류의 기계에 대한 무력감이 심대하게 증폭되는 것도 아니다. 알파고와 이세돌의 대국을 지켜보며 생겨난 무력감은 이미 내면화되고 만성화되어 버린지 오래다. H-Buddhism이 보내온 메일을 읽고 나는 그저 나의 삶이 끝나기 전에 내가 사랑하는 문헌들을 기계가 나보다 잘 읽게 되지 않기를 기대하면서 내가 해야 할 일을, 내가 하고 싶은 일을 계속 해 나가는 수밖에 없다고 생각했다. 내가 아직삶의 한 가운데 있는데 내가 하고 싶은 일을 기계가 나보다 더 잘해버리게 된다면 어떤 마음가짐으로 살아야 할까? 생각하지 않기로 했다. 1999년도에 밀레니엄이 오면 모든 시스템이 멈추어 버릴 것이라 진심으로 믿었던 사람들은 2000년 1월 1일 아침 어떤 마음이었을까? 나는 1999년 12월 31일 저녁 핑크씨티 자이푸르(Jaipur)의 한 호텔 옥상에서 럼주를 마셨고, 다음날 아침 일어나 새해의 목표를 일기장에 적었다. 레이 커즈와일(Ray Kurzweil)처럼 2045년이나 2050년에 특이점(the singularity)이 온다고 호들갑하며 영원한 삶을 희구하는 것은 왠지 미심쩍다. 다수가 덩달아 나서서 특이점을 외쳐대니 더욱 미심쩍다.
빙겐하이머의 공지도 조금만 따져보면 미심쩍은 부분이 한두 가지가 아니다. 기계가 만약 불경을 번역한다면 학자들은 번역가에서 독자로 변신해야 마땅할 터인데, 그들이 왜 기계가 만들어내는 문장들을 주워 담고(glean) 청소(clean)하는 사람이 되어야 하는 것일까? 학자들이 청소부라면, 그들이 마주하는 대상은 쓰레기일텐데, 기계번역된 문장들이 쓰레기라는 이야기인가? 게다가 CBETA에 대한 기계번역은 한 명의 학자가 그리고 학계 전체가 대장경 전체를 번역할 수 없다는 사실을 마주하며 시도된 것이 아닌가? 그야말로 인간이 처리해낼 수 없는 분량의 원문 빅데이터를 가공하여 비슷한 분량의 (쓰레기) 번역 빅데이터를 내놓은 셈인데, 2) 과연 이 번역된 빅데이터는 인간이 읽을 수 있는 분량이라고 생각하는지 의심스럽다. SuttaCentral의 포럼에서 수자토(Sujato) 스님이 지적한 대로 기계로 번역된 문장의 첨삭은 도대체 누가 담당해야 할 일이 며, “이것이 우리가 우리의 시간을 들여 하고자 선택한 일인가”(Is this what we choose to do with our time?)라고 되물을 수밖에 없다.3)
기계번역은 앞선 세대 학자들의 번역노동에 기반하여 성립하며, 후속 세대 학자들의 번역노동력을 동원하여 완성된다. 하지만 번역기계 속에서 학자들의 모습은 지워진다. 빙겐하이머 팀이 만든 인공지능 모델은 불교원전어로 된 문장과 그와 짝지어진 영어문장으로 훈련되었고, 이 때문에 빙겐하이머는 학자들에게 더많은 짝(pair)들을 보내 달라 요청한다. 그의 팀이 만들어내는 기계는 기존 번역을 문장단위, 단어단위로 쪼개고 이를 뒤섞고 합성하여 원문에 대응하는 번역문장을 내놓는다. 노엄 촘스키(Noam Chomsky)가 최근 챗GPT를 ‘첨단 기술이 동원된 표절’(high-tech plagiarism)이라 폄하하였듯 이는 기본적으로 표절행위이다. 이는 이미 번역된 경전 속에서 번역자의 목소리를 지워버리고, 그 목소리의 파편을 맥락에 맞지도 않는 곳에까지 확률적으로 재배치하는 행위이다. 번역자에게서 문장과 문단, 한 텍스트 전체에 대한 이해를 빼앗는 행위이며, 궁극적으로 한 학자, 더 나아가 학계로 하여금 해당 텍스트에 대한 이해를 대변하지 못하게 한다는 점에서 학자들의 학문적인 주권을 빼앗는 행위이다. 더욱 심각한 것은 학계에서 주권행사는 고사하고 최소한의 방어권도 행사하지 못하게 된다는 사실이다. 자신도 모르는 사이에 자신의 번역이 자신이 알아볼 수 없는 형태로 쓰이게 될 것이기 때문이다. 우리가 신호등이 있는 사진을 고르며 구글 인공지능을 훈련시키고, 시리, 기가지니와의 대화를 시도하며 그것들을 훈련시키는 것처럼 학계는 의도치 않게 불경번역기계를 학습시키게 될 것이기 때문이다
2) 빙겐하이머와 그가 이끄는 팀은 대장경 기계번역 프로젝트를 “Linguae Dharmae”라 명명하였고, 그들의 첫 번째 결과물은 다음 깃허브(Github) 저장소에서 열람할 수 있다. https://github.com/Linguae-Dharmae/chn-machine-translations
3) SuttaCentral에서 이어진 논쟁은 다음 링크를 참조하기 바란다. https://discourse.suttacentral.net/t/machine-translations-of-the-cbetacorpus-discussion-on-h-buddhism/25195
3) SuttaCentral에서 이어진 논쟁은 다음 링크를 참조하기 바란다. https://discourse.suttacentral.net/t/machine-translations-of-the-cbetacorpus-discussion-on-h-buddhism/25195
대장경의 언어가 하나라는 착각
불교학에 입문하여 불교원전언어를 번역해본 경험이 있는 사람들은 번역이 단순히 불교고전어로 되어있는 문장을 현대어로 바꾸는 행위가 아님을 이해할 것이다. 번역자가 이해한 문장의 의미는 번역된 문장에 온전히 담기지 않는다. 원문에 대응하는 한 문장 속에 담기지 않는 이해를 표현하기 위해 학자들은 번역에 각주를 달고, 서문을 쓰고, 논문을 쓴다. 원문을 이해하는 데 동원되는 지식은 그 한 문장 속에, 혹은 해당문장과 이웃하는 문장들, 그것이 속한 문단과 텍스트 전체에도 담겨있지만, 그것을 넘어선 곳에도 담겨있다. 같은 시대에 속한 문헌들과 유적들, 그 시대의 문화와 같은 보편화 될 수 있는 곳에도, 그리고 해당 문헌을 작성한 저자와 그 문헌을 번역한 학자의 성격과 같이 보편화 될 수 없는 곳에도 담겨있다. 한 문장에 대한 번역은 다층적인 정보에 대한 다차원적인 해석행위이다. 그런데 빙겐하이머 팀의 번역기계는 원문과 번역문의 짝맞추기를 통해 번역을 1차원적인 행위로 축소시켜버린다. 붐바허(Stephan Peter Bumbacher) 교수가 H-Buddhism을 통해 지적하였듯 우리는 원전의 시대와 장르, 그리고 주제와 저자 등의 요소가 고려된 번역을 원하는 것이지 한 단어에 대해 가장 많이 쓰인 번역어를 알고자 하는 것이 아니다.
빅데이터 분석은 귀납적인 지식 도출 방법이라 알려져 있다. 어떠한 전제도 하지 않고 데이터에만 기반하여 두 항 간의 상관관계를 알아내는 것이다. 예를 들어 맥주가 팔릴 때 함께 팔린 품목들의 빈도를 연산하여 맥주와 기저귀의 매출은 서로 상관관계가 있다는 지식을 얻는 식이다. 기저귀가 맥주와 함께 팔리는 것이 과연 윤리적으로 올바른 일인지를 물을 필요가 없는 마트의 입장에서는 이 지식에 근거하여 기저귀를 양옆으로 진열하면 될 일이다. 하지만 불경번역의 경우는 문제가 다르다. 한 단어에 대해 특정 단어가 번역어로 가장 많이 쓰였다는 사실에만 근거하여 아무런 반성 없이 새로운 맥락 속에서도 그 단어를 사용하는 것은 독자에게 무책임한 지식을 전달하는 것이고, 이는 학적으로도 윤리적으로도 올바르지 않다.
기계번역을 포함한 일반적인 빅데이터 분석은 이중적으로 비윤리적인데, 그것은 이와 같은 번역방식이 귀납추론에 근거하고 있다고 독자를 기만하기 때문이다. 데이터 주도로(data-driven) 지식을 도출한다고 생각하지만, 데이터에 기반한 연구는 실상 일정 수준 이상의 동시출현 빈도를 보이는 두 항목 간의 관계를 법칙화 할 수 있다는 믿음을 대전제로 삼기 때문이다. 이러한 믿음을 토대로 결론을 내리기 때문에 데이터 주도 연구는 언제나 ‘이미 일어난 일은 옳다’는 세계관을 함께 팔며, 수적으로 다수일 뿐인 사례를 정상의 사례로 규범화(normalize)하고 자연화(naturalize)한다. 빙겐하이머 팀의 기계번역은 연역추론이다. 출현빈도가 높은 것이 올바른 번역이라는 대전제에 기반한 추론이기 때문이다. 오히려 자신의 경험에 의거하여 번역어를 결정하는 전통적인 번역이야말로 귀납추론의 결과물이라 할 수 있다.
붐바허 교수는 《홍명집弘明集》(T2102) 속에 포함된 《모자이혹론牟子理惑論》의 기존 번역들과 빙겐하이머 팀의 프로젝트인 Linguae Dharmae 프로젝트의 모태가 되었던 DeepL사의 번역을 대조해 보여주며 기계번역이 아직 ‘번역’이라 할 만한 수준이 못됨을 보여주었다. 이에 실크(Jonathan Silk) 교수는 DeepL사의 기계가 ‘말할 운’(云)자를 ‘구름 운’(雲)자로 번역한 것이 특이하다는 지적을 덧붙였는데, 이는 현대어 기계번역 전문 업체인 DeepL사의 알고리즘이 해당문헌의 특수성에 대한 아무런 고려 없이 적용되었기 때문일 것이다. 《대정신수대장경》 전체에 대한 기계번역은 ‘언어는 균일하다’는 DeepL사의 대전제, 그리고 형태가 같으면 내용도 동일하다는 그들의 세계관으로부터 연역적으로 추론된 결과물이다. 번역기계는 《대정신수대장경》을 처리하는데 어려움을 겪고 있고, 이는 번역기계를 만든 사람의 인식론적 한계에서 비롯한다. 그들은 번역기계를 만든 사람이 보지 못하는 풍경을 볼 수 있는 ‘기계 속의 귀신’(ghost in the machine)을 믿는 것일까?
인공지능을 둘러싼 은유적 수사법
우리가 컴퓨터로 하는 행위를 표현하는 언어들은 은유로 가득 차 있다. 열고 밖을 내다볼 수 없는 창인데도 컴퓨터로 ‘창’(window)을 연다하고, 복사하여 가위로 잘라 풀칠해 붙이는 것도 아니면서 ‘복(사해)붙(여넣기)’한다 말한다. 종이를 넣을 수 없는 곳을 ‘폴더’라 하고, 쓰레기를 버릴 수 없는 곳을 ‘휴지통’이라 부른다. 물론 이런 은유적인 표현들은 유도된 것이다. 컴퓨터 상의 폴더는 파일철의 모양을 휴지통은 쓰레기통의 모양을 시각적으로 모사하고 있다. 하지만 그러한 표현들이 실제로 컴퓨터 내부에서 일어나는 일을 묘사하지는 않는다. 컴퓨터에서 일어나는 일은 궁극적으로 연산(calculation)일 뿐이다.
빙겐하이머의 도발적인 서신 이후 나온 다양한 반응 속에서 연구자들은 자신도 다른 디지털 도구들을 많이 사용하고 있고, 유용한 디지털 도구들의 출현 자체를 반대하지 않는다는 입장을 표출하기도 하였다. 빙겐하이머가 이끄는 팀에서 실질적으로 엔지니어 역할을 하는 네어디히(Sebastian Nehrdich) 또한 SuttaCentral에서 이어진 논쟁을 통해 본인들이 개발한 번역기계 역시 도구(tool)에 불과할 뿐임을 강조하였다. 불교학자들에게는 연구를 돕는 디지털 도구에 대한 거부감이 없고, 빙겐하이머 팀이 만들어 낸 번역기계는 일종의 도구일 뿐이라면, 논쟁은 애초에 왜 일어난 것인가? 논쟁이 일어난 까닭은 번역을 돕는 도구가 보여주는 결과물을 번역 그 자체라 표현해서 일어난 것이 아닐까? 다시 말해, ‘기계번역’이라는 복합어 속의 ‘번역’이라는 단어가 하나의 은유이기 때문이 아닐까? 실제로 논란이 되어야 하는 일은 기계를 통해 대장경 자료를 처리한 행위가 아니라 연산일 뿐인 컴퓨팅 작업을 인간의 작업에 빗대어 표현한 행위가 아닐까?
빙겐하이머의 팀이나 그들의 프로젝트에 우려를 표명하고 있는 학자들 모두 컴퓨터를 의인화 하고 있다.
대장경의 문장과 그에 대응하는 영어 문장을 모아놓은 데이터셋을 ‘기계가 읽을 수 있는’(machine readable)자료라고 일컬으며 기계가 실제로 ‘독서’(reading)라는 행위를 한다고 믿는 것은 아닌지, 이와 더불어 본질적으로 번역이 아닌 행위를 ‘번역’(translation)이라고 명명한 뒤 컴퓨터의 연산을 인간의 번역행위와 동일시하는 것은 아닌지 생각해보아야 한다. 우리는 빅테크(big-tech) 업계의 말하기가 은유로 가득 차 있다는 사실을 이해하지 못하고 있으며, 그들의 은유적인 화법에 속고 있다.
은유를 이해하지 못해서 일어나는 파급효과는 이미 진행중이다. 소비쉬(Jan-Ulrich Sobisch) 교수가 우려하듯 고전어를 배우는 학생들은 점점 줄어들고 있고, 이는 사람들이 ‘기계번역’이라는 표현을 축자적으로 이해하면서 가속화되고 있다. 이와 같은 추세는 언젠가는 인공지능이 마법처럼 인간의 지적행위를 대신해줄 것이라는 기대감 혹은 결국 인간이 종사하는 모든 부문은 기계에 의해 대체될 것이라는 공포감에 기인한다. 하지만 인공지능이 하고 있는 작업을 가만히 들여다보면 그것은 인간의 일들을 비유적으로 해내고 있다. 그리고 우리는 비유와 실제 사이의 간극을 인지하지 못하는 무명(avidyā)에 빠져있다. ‘기계번역’에서의 ‘번역’은 우빠짜라(upacāra)일뿐이다. 미래에 대한 불안감에 휩싸여 아무 선택도 못하고 시간을 보낼 바에야 인공지능을 둘러싼 은유적 수사법을 꿰뚫어 실제(tattva)를 정면으로 바라보기 시작하는 것이 낫지 않을까?
‘이 아이는 사자다’(siṃho māṇavakaḥ)라는 문장을 듣고 그 아이를 실제 사자처럼 여겨서는 안 될 것이다.
1) 빙겐하이머의 공지와 그에 대한 반응들은 다음의 링크를 통해 열람가능하다. 이후 인용하는 연구자들의 의견들도 모두 다음 링크에서 열람할 수 있다. https://networks.h-net.org/node/6060/discussions/10365735/machinetranslations-cbeta-corpus
2) 빙겐하이머와 그가 이끄는 팀은 대장경 기계번역 프로젝트를 “Linguae Dharmae”라 명명하였고, 그들의 첫 번째 결과물은 다음 깃허브(Github) 저장소에서 열람할 수 있다. https://github.com/Linguae-Dharmae/chn-machine-translations
3) SuttaCentral에서 이어진 논쟁은 다음 링크를 참조하기 바란다. https://discourse.suttacentral.net/t/machine-translations-of-the-cbetacorpus-discussion-on-h-buddhism/25195
- 저자 프로필 : 함형석(hamhs@chonnam.ac.kr)
-
바비베까(Bhāviveka)의 저작 속에 나타난 불교, 미망싸(Mīmāṃsā), 쌍캬(Sāṃkhya)의 관계에 대한 연구로 2016년도 미시간대학교(University of Michigan)에서 박사학위를 받았다.
바비베까로부터 샨따락시따(Śāntarakṣita)에 이르는 6~8세기 중관학파를 주로 연구한다.
최근에는 디지털기술과 인도학, 불교학이 접속하는 방식도 관심을 갖고 관찰하고 있다.
현재 전남대학교 철학과 에 조교수로 재직 중이다.
Author : 함형석