반응형

 

ONOFFMIX에서 평소에 관심을 가지던 음성인식에 대한 주제로 하는 세미나가 있어서 참석을 하였다.

 

SK에서 주기적으로 하는 개발자 포럼으로, 주제 및 장소는 다음과 같다.

 

o 주제: HMI(음성인식/언어처리), Video(영상분석/인식) 및 AR(증강현실) Platform

* HMI: Human-Machine Interface, AR: Augmented Reality

o 시간: 2014년 4월 30일(수) 15:00 ~ 18:00

o 장소: SKT 분당사옥 1층 T open lab

o관련 링크 : http://topenlab.sktelecom.com/Forum/ForumReqSelect.aspx?event=inquire&registration_num=6dd1513997f84f9c9c8d29f1ce1053ef&rurl=%2fForum%2fForumReqList.aspx

 

조금 늦게 도착하였는데, 공간에 비해 사람들이 많아서 자리가 없었다.

전문가 초청강연은 교수들답게 어렵고 전문적인 내용이 많아서 패스.

 

듣고 싶었던 SKT 솔루션의 음성인식관련 내용은, 예상대로 아주 짧게 현재 음성인식 현황과 미래 예측된 수치들을 기반으로 발표가 마무리 되었다.

 

아쉬운 마음에 시연을 진행하고 설명을 해주시는 분에게 이것 저것 여쭤보았는데...

SKT에서 이 프로젝트를 시작한지 2년이 되지 않았으며, 음성인식에 대한 부분은 한글에서 만큼은 뛰어난 성능을 발휘한다는 자신감을 가지고 있었다.

이는 기존 음성인식에 대한 많은 자료와 연구가 있었기 때문에 쉽게 해결하였다고 한다.

 

하지만 언어처리에 대한 부분에서 상당한 어려움을 겪고 있으며, 이는 Nuance나 구글과 국내 음성인식 업체들(SKT, 다음, 네이버)과의 격차를 보여주고 있다.

 

국내에서는 네이버, 다음, SKT가 음성인식 분야에 뛰어 들었으며, 자사의 서비스에 음성인식을 이용한 추가적인 서비스를 개발하기 위한 목적으로 진행되고 있다.

모두 한글만 지원하고 있으며, 고정문형은 일부 제공되고 있으나 사용자에게 폭넓은 API를 제공해 주지 못하고 있으며,

사용자에게 API를 제공하여 사용자의 음성을 수집하는 것을 목적으로 하는 것으로 보인다.

 

SKT의 음성인식 솔루션의 대략 다음과 같다.

-한글만 지원 (향후 영어학습서비스를 위한 한국형 영어지원 예정)

-고정문형 인식의 데이타는 용량이 제한적이며, 임시 서버에 저장하고, 일정시간이 지나면 지우도록 되어 있음.

-음성파일을 통한 음성인식 제공하지 않음.

-BT지원하지 않음

-Android 플랫폼만 제공

-20~30명의 개발진

-Speex를 이용한 음성 전송

-도메인마다 EPD 설정 가능

-T Map같은 SK계열사의 제품에 음성인식을 포함할 계획, 현재 T-Map은 구글음성인식 솔루션을 사용 중.

 

시연과 친절한 설명을 해주신 친절한 xxx박사님.

 

기타…

-AR 증강현실 서비스 플랫폼 : 카메라를 이용하여 평면적인 정보를 다이나믹하고 입체적으로 사용자에게 전달하는 기술

-고객분석통계솔루션 : 카메라에 찍히는 실시간 영상으로 각종 정보를 자동으로 분석(남자, 여자, 20대, 사람수, 등)하여 저장 및 통계를 내는 기술

  

T Open Lab 참석은 처음이지만 일반인들에게 폭넓은 지식과 소통의 장을 제공하고 있었다.

참고로 무료 카페와 개발공간도 운영하고 있으니, 시간이 되는 개발자들은 주기적으로 참석하여도 좋을 것으로 여겨진다.

반응형

+ Recent posts