10월 음성인식 합성분야 국제학회서 자체 개발 기술 발표
"AI합성음 사람과 구분 못할 정도 수준...게임 개발에 활용"

이미지=엔씨소프트

[포쓰저널=문기수 기자] 엔씨소프트가 게임 개발 과정에 전문 성우의 도움이 필요없는 수준까지 인공지능 음성합성 기술의 수준을 끌어올리는데 성공했다.

엔씨소프트는 자사가 음성인식·합성 분야 국제학회 인터스피치에서 자사가 개발한 뉴럴 보코더(Neural Vocader)기술 ‘VocGAN’을 10월중 정식 발표한다고 23일 밝혔다.

인터스피치에서 발표 예정인 ‘VocGAN’은 엔씨소프트 AI센터 산하 Speech AI Lab의 음성합성팀에서 자체 개발한 기술이다. 녹음 음성과 실제 음성의 구분이 어려운 수준의 완벽한 음질, 빠른 속도와 가벼운 무게가 특징이다.

뉴럴 보코더 기술이란 AI합성음을 잡음없이 더 깔끔하게 만드는 기술을 뜻한다.

실제로 엔씨소프트의 공식블로그에 소개된 VocGAN을 통해 만든 AI합성음은 실제 목소리와 구분하기 힘든 수준이다.

엔씨소프트는 음성합성 기술을 다양한 영역에 활용하고 있다. 실제로 ‘블레이드 앤 소울’ 프론티어 월드 튜토리얼 영상 '안내서'의 내레이션은 모두 합성음으로 제작했다.

기존의 게임내 내레이션은 모두 전문 성우가 직접 대사를 익혀 녹음하고 검수하는 과정이 필요했다. 하지만, 엔씨소프트는 VocGAN을 통해 더이상 이런 과정이 필요없게 됐고, 결과적으로 제작시간이 단축되는 효과를 불러왔다.

엔씨소프트는 사내방송을 통해 AI합성음으로 한권의 책을 소개하는 ‘엔씨 AI 북스’를 운영하기도 했다.

 

저작권자 © 포쓰저널 무단전재 및 재배포 금지