디지틀조선TV 유튜브 바로가기

구글 딥마인드, 사람 목소리 흉내 내는 AI '웨이브넷' 개발

앱피타이저 기자 ㅣ appetizer@chosun.com
등록 2016.09.12 11:23

구글 인공지능 자회사인 딥마인드가 사람의 목소리를 흉내낼 수 있는 인공지능 기술을 개발했다. 기존의 문자·음성 변환 기술보다 50% 이상 성능이 향상된 것으로 알려졌다.

딥마인드가 공식 블로그를 통해 공개한 자료에 따르면 딥마인드는 '웨이브넷'이라는 음성 생성 기술을 개발했다. 이 기술을 적용해 영어와 중국어 테스트를 진행한 결과 기존의 문자·음성 변환 기술보다 사람 목소리에 더 근접한 것으로 나타났다.

현재 컴퓨터 음성 생성 기술은 사람의 목소리를 녹음한 후 방대한 데이터셋을 만들어 활용하는 방식이다. 사람 목소리의 아주 짧은 부분을 조합해 새로운 단어를 만들어내는 방식이다. 하지만 아직 사람 목소리보다 덜 자연스럽고 사람의 목소리를 쉽게 수정할 수 없다는 단점이 있다. 사람 목소리와는 상관없이 완전히 전자적으로 사람 소리를 만들어내는 방식도 있다. 쉽게 목소리를 조작할 수 있다는 장점이 있지만 사람 목소리에 비해 훨씬 부자연스럽다는 단점이 있다.

이번에 딥마인드는 '웨이브넷'이라는 신경망 기술을 접목했다. 방대한 데이터셋을 통해 사람의 목소리의 파형 패턴을 분석하고 훈련해 모델화하는 방식이다. 기술적인 진전에도 불구하고 우선 당장 상용 서비스에 들어가기는 힘들다. 너무 많은 컴퓨팅 자원이 요구되기 때문이다. 초당 1만6천번 이상 훈련된 오디오 신호를 샘플링해야 한다.

그럼에도 IT업계는 딥마인드 기술에 주목하고 있다. 현재 모바일 단말기를 통해 이뤄지는 구글 검색 중 20% 이상이 문자 검색이 아니라 음성 검색이라고 한다. 그만큼 사람의 목소리를 자연스럽게 흉내낼 수 있는 기술의 중요성이 높아지고 있는 것이다.



최신기사


    최신 뉴스 더보기


        많이 본 뉴스

          산업 최신 뉴스 더보기

            많이 본 뉴스