'인공지능' 첫 관문... IT기업들 음성인식 시장 선점 경쟁

    입력 : 2016.06.21 09:24

    [음성 인식 서비스 장악하면 모든 스마트폰앱 좌지우지할 수도]


    애플 "모든 서비스 쓰게 할 것", 5년 전 첫선 '시리' 전면 내세워
    구글, 안드로이드 스마트폰이 80%… 사용자의 패턴·위치 등 종합 분석
    MS·아마존도 점점 영역 넓혀
    삼성전자·네이버 서비스 개발중… 애플·구글에 비해 성능 떨어져


    애플·구글·마이크로소프트(MS)·아마존 등 글로벌 IT(정보기술) 업체들이 음성(音聲) 인식 시장을 선점하기 위한 치열한 기술 경쟁에 돌입했다.


    애플은 이달 중순 샌프란시스코에서 개최한 '개발자 대회(WWDC)'에서 5년 전 첫선을 보였던 음성 인식 기술인 '시리'를 전면에 내세웠다. 앞으로 시리를 통해 애플의 모든 서비스를 쓰도록 하겠다는 것이다. 구글은 스마트폰용 음성 인식 서비스인 '구글 나우'에 검색·길안내 등 핵심 서비스를 접목시키고 있으며, MS는 최신 운영체제(OS)인 윈도10에 '코타나'라는 음성 인식 시스템을 탑재해 이 시장에 본격적으로 뛰어들었다. 미국 최대 전자상거래 업체 아마존도 음성을 인식할 수 있는 가정용 기기 '에코'로 시장을 키우고 있다.


    ◇음성 인식, 스마트폰 핵심 기능으로 부상


    애플의 시리는 지난 13일(현지 시각) 미국 샌프란시스코에서 열린 개발자 대회의 주인공이었다. 애플의 크레이그 페더리기 수석 부사장이 기조 연설 무대에 올라 "시리, 우버를 불러줘"라고 아이폰에 말하자, 차량 공유 서비스 우버 앱(응용 프로그램)이 자동으로 열렸다. 화면을 터치하지 않고 음성으로만 행사장에 차를 부르는 모습을 시연했다. 애플 측은 시리가 등장한 뒤 5년간 축적한 아이폰 사용자들의 음성 데이터를 바탕으로 질문에 답하는 속도나 정확성을 세계 최고 수준으로 끌어올렸다고 자신했다.



    구글은 방대한 검색 서비스를 통해 쌓은 방대한 데이터를 분석해 최적의 답을 찾는 데 집중하고 있다. 전 세계 스마트폰 80%가 안드로이드 스마트폰인 게 가장 큰 무기다. 구글 나우는 이미 목소리를 알아듣는 수준을 넘어 사용자의 스마트폰 사용 패턴이나 위치·일정 등을 종합적으로 분석해 서비스를 추천한다. 구글은 자사의 검색·지도·음악 등 다양한 서비스에 음성 인식 기술을 접목시켜 세(勢)를 불리고 있다.


    MS는 코타나를 '윈도10'이 설치된 모든 IT 기기에 이어 소셜네트워킹서비스(SNS)에도 적용할 계획이다. MS는 이를 위해 최근 262억달러(약 30조4600억원)에 직장인용 SNS 업체인 링크트인을 인수했다. 링크트인에서 수집된 데이터를 코타나에 적용하고 음성으로 사람 찾기 등 각종 서비스를 이용할 수 있도록 하겠다는 것이다.


    아마존은 음성 인식 서비스 '알렉사'의 적용 범위를 온라인 쇼핑뿐만 아니라 사물 인터넷(IoT·Internet of Things)과 자율주행 자동차(무인차) 등으로 확대하고 있다. 아마존은 우선 미국의 자동차 업체 포드와 협력해 알렉사의 음성 인식 서비스를 포드에서 만드는 자동차에도 제공하고 있다. 운전 도중에 "알렉사, 집에 에어컨 좀 켜줘"라고 말하면 집 안에 설치된 스피커형 기기인 '에코'로 명령이 전달되고, 에코에 연동된 에어컨이 자동으로 켜지는 식이다. 아마존은 향후 알렉사를 무인차에도 탑재할 계획이다.


    ◇음성 인식은 인공지능의 입구


    글로벌 IT 기업의 음성 인식 기술은 단순히 사용자의 음성을 알아듣는 정도가 아니라 목소리를 분석하는 과정에서 주변 환경·상황 등을 모두 파악하는 단계까지 진화했다. 예를 들어 사용자가 "음악을 틀어줘"라고 말할 때 사용자가 산책을 하고 있는지, 잠자리에 들었는지를 파악해 적절한 음악을 재생해준다. 음성 인식 서비스가 인공지능(AI·Artificial Intelligence)을 실생활에서 구현하는 첫 단계인 것이다.


    음성 인식 기술이 사용자의 음성 명령에 따라 열리는 앱을 스스로 결정할 수 있다는 것도 글로벌 IT 기업들이 각축을 벌이는 이유다. 쉽게 말해 음성 인식 서비스를 장악하면 모든 스마트폰 앱을 좌지우지할 수 있다는 것이다. 예컨대 "시청까지 가는 길을 알려줘"라고 구글 나우에 지시하면 네이버·카카오의 지도 앱을 여는 게 아니라 구글의 검색 결과를 보여준다. 네이버의 김정희 딥러닝 프로젝트 리더는 "음성은 인공지능이 발전함에 따라 중요한 입력 수단으로 활용될 수 있다"며 "이를 장악하기 위해 각 기업의 기술 개발 경쟁이 치열한 상황"이라고 말했다.


    한국에서도 삼성전자·네이버 등이 음성 인식 서비스를 개발 중이다. 네이버는 음성으로 검색하고, 검색 결과를 대화형으로 제공하는 '라이브 대화'를 개발 중이다. 삼성전자는 'S보이스'라는 음성 인식 서비스를 스마트폰에서 제공하고 있다. 하지만 애플·구글에 비해 인식률이 좋지 않다는 게 업계의 일반적인 평가다.


    서강대 정옥현 교수(전자공학)는 "사용자의 음성을 인식하는 것은 인공지능(AI)의 핵심 단계"라며 "음성 인식을 통해 수집된 데이터를 바탕으로 사용자의 상황을 분석하고 이용자의 욕구(needs)에 최적화된 서비스를 추천해주는 방식으로 진화할 것"이라고 말했다.