얼마 전 Apple에서 아이폰 4S와 함께 음성인식 및 인공지능 프로그램인 SiRi를 공개했습니다. 한국에서는 SiRi를 언제 사용할 수 있는지 많은 관심이 쏠렸었지요.
SiRi를 보면서 영화 ‘아이언맨’에 등장하는 자비스 시스템이 떠올랐는데, ‘오래 전부터 사람들이 꿈꾸어 오던 인공지능 비서가 현실로 다가오고 있구나’ 라는 느낌이 강하게 들었습니다.
생각해 보면 자비스를 만들기 위한 각 개별 요소들에 대한 연구들은 상당 부분 진행되어 왔습니다. 그동안 발표된 기술들을 가지고 자비스 시스템 구현을 고민해 보았습니다.
아침에 일어나 주요 일간지 기사나 주가 정보 등 러프한 브리핑을 받고 대화형 인터페이스를 통해 관심 사항에 대한 추가 정보를 확인할 수 있습니다. 사용자는 집에서는 물론이고 스마트폰이나 태블릿PC를 이용해 시스템에 접근할 수 있습니다.
자비스 시스템
1. 하드웨어 구성
n 중앙 처리 장치, PC
자비스를 상상해보면 정보처리 양이 냉장고나 TV가 수행할 수 없는 수준으로 가정에 있는 가장 똑똑한 장치인
PC를 중앙 처리 장치로 사용합니다.
n 주 정보 표시 장치, TV
음성정보를 출력하고 그래픽 기반의 UI를 출력하기 위한 거의 유일한 방법에 해당됩니다. PC모니터 등도 가능
하지만 집에서 가장 접근성 좋은 곳에 위치한다는 최대 장점을 가지고 있습니다.
n 보조 정보 표시 장치, 스피커
화면 출력은 불가능하지만 가장 저렴한 가격으로 여러 곳에 설치가 가능합니다.
n 원격 정보 표시 장비 모바일기기
n 주 입력 장치 마이크 (N개 연결)
원하는 방마다 설치할 수 있으며 차고에도 설치 가능합니다.
n 보조 입력 장치, 사용자 동작인지 디바이스
편리함을 위한 장치로 리모콘 Free / 키보드 Free 환경을 구성할 수 있는 유일한 수단입니다.
<그림출처:http://www.xbox.com/ko-KR/kinect?xr=shellnav>
2. 소프트 웨어 구성
■ 음성 인식 모듈: Voice -> Text(+meta)
이 시스템은 개인화를 지원합니다. 현재 일부 네비게이션은 이미 안드로이드의 Google voice 를 통해서 음성인식을 지원하고 있습니다.
■ 질의어 분석 모듈: Text(+meta) -> logical query (SQL 형태에서 일부 변형됨)
이 모듈은 TEXT형태로 변환된 사용자의 입력을 논리식으로 변경하는 일을 합니다. 논리식의 형태는 SQL형태의 중간 언어로 구성하되 추론 연산을 위한 몇 가지 명령이 추가되어야 하며 질의어 분석을 위해서는 다양한 문장 패턴 수집이 필요합니다. 문장의 분석을 통해 보다 다양한 형태의 사용자 입력을 지원할 수 있습니다.
중요한 정확도의 경우 기계 번역 수준이 될 것으로 예상됩니다. 초기에는 복문에 대한 정확도를 기대하기 힘들 것이고, 간단한 단문을 대상으로 시작합니다. 기계 번역물은 사용자가 재검토하여 선택적으로 취하는 것과 달리 어설프게 이해한 문장은 필요가 없으므로 과감하게 버리고, 재입력을 요구합니다.
■ 지식망: 고속 정보 검색기 + 지식아카이브
SQL타입의 중간 언어 쿼리에 대한 검색을 수행하는 검색엔진입니다.
■ 지식수집에이전트: 정형데이터 수집기 / 비정형 데이터 수집기
수집에이전트는 인터넷 상의 정보를 수집해서 지식망에 등록하는 역할을 합니다. 수집대상은 정형 데이터를 대상
으로 하며 비정형 데이터의 경우 구조화를 통해 비정형 데이터로 접근하는데, 이 부분은 PC레벨에서 처리할 수
없으므로 포털 수준의 검색을 활용합니다.
■ N-Screen 유저 인터 페이스
기존의 웹 검색이나 데스크탑 검색의 UI는 TV와 스피커를 기본으로 사용하는 환경에서는 제한적이며 기존 검색
결과처럼 깨알같이 보이는 작은 활자로는 사용자에게 도움이 되지 않습니다. 따라서 텍스트 정보는 최대한 줄이고
그래픽적인 요소를 부각시키는 형태가 됩니다. 리모콘과 키보드에 자유로운 환경에서 동작 인지 입력에 대응하기
위한 새로운 UX가 필요할 것입니다.
자, 그럼 생활에서의 활용 예를 생각해볼까요?
퇴근 후 시원한 맥주한잔이 생각나는 시간, PC를 켜고 'XX치킨'을 검색하여. 전화번호를 찾아 치킨을 주문하는 대신에 위의 홈 정보화 시스템을 이용하면 좀 더 나은 선택을 할 수 있을 것입니다.
"뭐 좋은 안주꺼리 없을까?" 라고 말을 하면 연결된 마이크를 통해 시스템에 쿼리가 전달됩니다.
전달한 쿼리는 질의어 분석 모듈을 통해 logical query로 변환됩니다.
‘안주’는 쿼리 확장을 통해 세부적인 질의어로 확장
확장 쿼리 목록은 비정형 데이터 분석을 통해 얻어집니다. 블로그 등의 글에서 "XX는 안주로도 좋습니다" 와 같은 학습을 통해 얻어집니다.
홈 정보화 시스템은 기본적으로 지역검색을 사용
아마도 논리적인 검색식은 아래와 같이 될 것 같습니다.
‘select 메뉴 from (배달전문점 or 테이크아웃점) where distance<50m AND isopen($NOW) orderby 인기도 with FRIEND’
검색결과를 도출하기 위한 세부적인 논리 구조
집의 GPS 정보가 필요한 부분은 PC에 주소를 등록하면 나오는 GPS 좌표를 사용합니다. 식당 및 메뉴 정보는 전문 사이트에서 수집합니다. 대부분의 사이트에는 정형화된 형태로 정보가 존재할 것이며 이는 간단한 웹문서 파싱을 통해 해당 정보를 수집할 수 있습니다. 인기도의 경우 모든 검색 항목은 별도 랭킹식을 통합니다. 수집 대상의 경우 사이트 리뷰 점수를 기본으로 사용하지만 친구들의 SNS 체크인 정보가 가장 중요한 요소가 됩니다.
logical query 는 지식망에 전달되고, 지식망은 갖고 있는 지식을 통해 최선의 결과를 도출합니다. 이 과정에서 이미 축적된 지식(지식 아카이브)을 사용할 수 있고, 필요 정보를 추가 수집할 수 있습니다. 추가 수집된 정보는 지식 아카이브에 저장됩니다.
지식 아카이브 검색은 대부분의 경우 연속적인 복수의 검색을 통하게 됩니다. 아마도 조금씩 후보를 줄여나가는 형식이 될 것입니다. 여러 번의 검색이 발생하겠지만, 개인용 시스템이기 때문에 사용자의 인내 범위 내에서 처리가 될 수 있을 것입니다.
검색된 결과(추천결과)는 요약문 생성기술을 통해 TTS 를 통해 사용자에 전달됩니다. 때로는 이미지가 추가되는 형태로 전달 될 수도 있습니다. 예를 들면 집 근처의 지도가 펼쳐지고 배달 가능 지점과 테이크아웃 전문점의 위치가 표시됩니다. 영업시간이 끝난 지점은 자동 필터링 되어 표시됩니다.
웹페이지의 결과와는 달리 N-Screen 에 적합한 새로운 UI도 생각해 볼 수 있습니다. 코난테크놀로지의 i-시맨틱과 같이자사에서 생각해본 새로운 검색 결과 UI (i-semantic)에 동작 인식을 추가한 형태가 될 수 있습니다.
사용자는 추천 결과를 검토하고 다른 추천을 요구할 수 있습니다. 이 액션은 음성 또는 동작으로 수행이 가능합니다.
엔진은 다른 요구가 있을 경우 추천결과 풀에서 차선책을 제공할 수 있으며, 사용자의 추가 조건으로 검색 결과를 재조정할 수 있습니다.
위에 까지 그려본 내용을 기초로 하여 정리하면 다음과 같은 기술들이 자비스에 필요하다고 볼 수 있습니다.
1. 음성인식기술 / TTS
2. 쿼리분석기술
3. 지식 검색 및 지식 저장 구조
4. 지식 획득 구조
5. N-Screen 기반의 신규 검색 UI
검색 솔루션 기업은 상기 필요 기술 중 많은 부분을 확보하고 있으며 또 많은 부분을 진전시켜 왔습니다. 지식 획득 구조는 그간 웹크롤링 기술 연구 및 네이트에 적용된 시맨틱 분석 기술을 통해 기초가 마련되어 있고 웹크롤링 경험을 통해 보다 보다 많은 정보를 수집하고 정제할 수 있는 방법을 제공할 수 있습니다. 지식 검색 및 지식 저장 구조는 검색 엔진의 기본 기능으로 충분한 경험을 축적하고 있고 N-Screen 기반 UI는 현재 연구가 진행 중에 있습니다.
어떠신가요? 아이언맨 영화와 애플의 SiRi 발표를 보고 상상의 나래를 펼치고 있습니다만, 사용자들이 보기엔 부족할지는 몰라도 제법 재미있는 수준의 자비스를 만드는 길은 멀지 않은 것 같습니다.
'코난 知(지) 이야기 > Trend & Tech' 카테고리의 다른 글
| [검색] 기업검색 관점으로 살펴본 2012년 전략 기술 10가지 (0) | 2011/11/23 |
|---|---|
| [검색] row vs. column (2) | 2011/11/17 |
| [검색] 텍스트의 재발견, Hello, Text! (0) | 2011/11/09 |
| [미디어] N스크린 콘텐츠의 통합관리 1부 (0) | 2011/11/01 |
| [검색] 아이언맨의 자비스 시스템을 만들기 위한 고민들 (2) | 2011/11/01 |
| [검색] 멀티미디어 인지 기술의 이해 (0) | 2011/11/01 |




















댓글을 달아 주세요
Watson 2011/11/10 08:03 댓글주소 수정/삭제 댓글쓰기
전 기계가 제 말을 알아듣고 대화하며 명령을 수행해 준다면..그 이상 좋을 순 없을 것 같아요..자비스 같은 비서라면 더요! ^^
네! 필요한 기술들이 속속 개발되고 또 발전을 거듭하고 있다고 하니 곧 만나게 되지 않을까 많이 기대됩니다! 대신 Siri와 반대로 한국에서 먼저 출시되고 다른 나라들이 자국어 서비스 시작하기만을 기다리게 된다면 더더욱 좋지 않을까 싶네요.^^