최근의 스마트 모바일 장비들에게서 없어서는 안될 장치 중에 하나는 터치 스크린, 카메라, 마이크 등이 있습니다. 이는 스마트 기기에서 주요한 기능을 제공하는 장치 중 하나로 인간으로 치면 오감 중 촉각, 시각, 청각에 해당하는 기능을 구현한다고 할 수 있습니다. 얼마 전 일본의 이동통신사 NTT DoCoMo 사에서 입 냄새와 술 냄새 탐지 기능이 탑재된 스마트 폰을 개발했다는 기사가 나기도 했는데 머지않아 미각과 후각에 해당하는 장치들도 스마트 모바일 장비들에 탑재 되어 출시 되는 날이 오지 않을까 합니다.
멀티미디어 인지 기술은 오감 중 주로 시/청각에 해당되는 데이터를 다루는 기술로써 카메라와 마이크를 통해 입력된 영상/소리의 데이터를 분석하고 이해하여 컴퓨터가 인지할 수 있도록 만들어줍니다.
이러한 멀티미디어 인지 기술의 예로는 사람마다 고유한 특성을 가진 홍채, 지문, 얼굴, 목소리 정보를 이용해 사람을 인식하는 홍채인식, 지문인식, 얼굴인식, 화자인식 등이 있습니다. 과거에는 이러한 생체 인식 기술이 주로 보안 시스템에서 활용 되었지만, 최근들어 스마트 모바일 기기와 더불어 네트워크 환경의 발전이 거듭되면서 스마트 모바일 기기에서도 예전보다 수월하게 적용할 수 있게 되었습니다.
고양이 얼굴 인식 (출처: http://www.maclife.com/article/news/iphotos_faces_recognizes_cats)
최근 구글과 애플에서 스마트 모바일 장비의 검색 인터페이스로 지원하는 음성 인식 기술도 멀티미디어 인지 기술 중 하나입니다. 그리고 이미지의 고유한 특징 값(핑거프린트)을 이용하여 로고/라벨/포스터 등의 표지를 식별 할 수 있는 이미지 인식 기술과 오디오 신호의 고유한 특징 값(핑거프린트)을 이용하여 음악을 식별하는 음악 인식 기술 등도 있습니다. 또한 이미지 내의 특정 사물을 식별하는 객체 인식 기술이나, 이미지 내의 글자를 인식하는 문자 인식, 그리고 동물 소리나 기타 다른 사운드의 특성을 이용하는 사운드 식별 기술 역시 멀티미디어 인지 기술에 해당됩니다.
이러한 멀티미디어 인지 기술을 실현시키기 위해서는 인식 대상을 컴퓨터에 사전 학습을 통해 등록시키는 단계가 필요합니다. 그런데 바로 여기서 기술 구현의 어려움이 시작됩니다. 정답지 등록을 위한 사전 학습 단계에서 실제 인식 대상이 등록시킨 데이터와 다르게 왜곡되어 입력되는 등의 현실적인 문제에 직면하게 됩니다.
음성 인식의 경우를 예로 들자면 보통 다양한 국적과 연령의 사람들의 목소리로 모든 언어에 대해 학습을 시킬 수 없기 때문에 표본을 선택하여 음성 데이터를 수집하고 학습에 활용합니다. 그런데 음성 인식을 하기 위한 녹음 과정에서 주변 환경의 잡음, 표본과는 다른 발성 방식이나 억양 등 여러가지 왜곡 요인들에 의해 오인식이 발생하게 됩니다.
다른 멀티미디어 인지 기술도 이와 크게 다르지 않습니다. 이미지가 인식 대상이 되는 경우에는 사진 촬영을 하는 시점에서 조명의 명암이나 반사로 인해 다른 물체가 투영되거나 복잡한 배경, 카메라 촬영 각도, 모양의 다양성 등과 같이 사전에 등록된 데이터와의 불일치 요인들이 생깁니다. 얼굴 인식의 경우는 사람들의 다양한 표정, 촬영 각도, 화장 정도, 액세서리 착용에 따라 왜곡이 발생할 수 있습니다.
이미지 내의 특정 사물을 인식하는 객체 인식의 경우에도 하나의 객체에 대해 다양한 모양이 있을 수 있기 때문에 인식률이 저하될 수 있습니다. 자동차를 인식하는 경우 다양한 종류나 앞뒤 모양의 다름, 카메라 각도에 따라 다르게 나타날 수 있어 100%의 정확도를 보증하기가 어려울 수 있습니다.
최근의 스마트 기기에서 지원되는 음성 인식 기술은 비록 100% 정확한 인식률을 나타내고 있진 않지만, 기존과는 다른 새로운 검색 인터페이스를 지원함으로써 많은 사용자들에게 새로운 경험을 주며 많은 관심을 받고 있습니다.
한편 텍스트 입력 방식에서 벗어나 카메라를 통한 이미지 검색이나 마이크를 통한 음악 검색 등도 최근 서비스에 많이 활용되고 있습니다. 와인 라벨 검색과 같이 직접적인 정보 검색에 활용하려는 시도를 하기도 하지만, ‘닮은꼴 연예인 찾기’, ‘성대 모사’ 애플리케이션과 같이 엔터테인먼트 적인 재미 요소를 가미한 서비스들도 출시 되기도 했습니다.
위에서 언급한 기술적 제약에도 불구하고, 현재 멀티미디어 인지 기술은 다양한 방식으로 서비스 영역을 점차 넓혀가고 있으며 해당 기술들의 장점을 적절하게 활용할 수 있는 서비스들이 연구 개발되고 있습니다.
중첩 이미지 검색
'어떤 기술이 좀 더 높은 부가 가치를 이끌어 낼 수 있을 것인가’에 대한 질문에 정답이 있는 것은 아니지만 개발자들이 항상 고민하고 있는 부분입니다. ‘사용자들이 좀 더 필요로 하는 기술은 어떤 것일까? 어떤 기술이 좀 더 높은 수익을 창출 할 수 있을까?’ 이 두가지 모두 충족이 되는 기술을 예측할 수는 없지만 기술이 좀 더 고도화 되고 기기들이 좀 더 발전한다면 다양한 접근 방식으로 충족시킬 수 있을 것으로 생각합니다.
기술의 한계를 넘기 위한 노력과 투자. 그리고 기술적 제약 조건 하에서도 다양한 애플리케이션 또는 서비스 연구 개발이 지속적으로 이루어진다면 멀티미디어 인지 기술이 그 중 하나의 답이 될 수 있지 않을까 합니다.
'코난 知(지) 이야기 > Trend & Tech' 카테고리의 다른 글
| [검색] 기업검색 관점으로 살펴본 2012년 전략 기술 10가지 (0) | 2011/11/23 |
|---|---|
| [검색] row vs. column (2) | 2011/11/17 |
| [검색] 텍스트의 재발견, Hello, Text! (0) | 2011/11/09 |
| [미디어] N스크린 콘텐츠의 통합관리 1부 (0) | 2011/11/01 |
| [검색] 아이언맨의 자비스 시스템을 만들기 위한 고민들 (2) | 2011/11/01 |
| [검색] 멀티미디어 인지 기술의 이해 (0) | 2011/11/01 |




















댓글을 달아 주세요