티스토리 툴바


전문 검색솔루션 시장에서 이용자 요구사항은 나날이 다양화되고, 고도화 돼 가고 있습니다.

과거에는 원하는 정보를 잘 찾는 것이 검색솔루션에 대한 이용자들의 주된 니즈였다면, 이젠 원하는 정보는 물론,    수 많은 데이터들이 갖는 의미까지 검색솔루션이 찾아주길 바라고 있습니다.

더욱이 최근에는 트위터나 페이스 북 등 SNS를 통해 엄청난 양의 콘텐츠가 지속적으로 생성되면서, 이 데이터들을 어떻게 잘 처리하고, 가공해 활용할 수 있을지 대한 다양한 방법들이 검색솔루션을 통해 활발하게 시도되고 있습니다.

이번 리포트는 이러한 이슈에 따라 빅데이터 환경에서 검색서비스는 어떻게 변화되는지 간략하게 알아보겠습니다.

 

지난 시간 트렌드리포트에서는 '하둡'에 대해 잠깐 말씀 드렸습니다.

빅데이터 시대에서 하둡 이외의 DBMS는 없을까요?

이번에는 카산드라에 대해 소개해드리겠습니다.

 

카산드라는 아마존의 다이나모와 구글의 빅테이블의 장점만을 수용하여 발전시킨 형태입니다.

분산화는 기본이며, 유연한 확장성을 가지고 있죠. 실시간성 데이터에 대한 안정성에는 아직 부족한 부분이 있지만, 장애가 발생하더라도 전체 시스템에는 크게 영향을 주지 않을 만큼 장애조치가 강한 강점을 갖고 있습니다.

이러한 강점 때문에 대용량 자료의 저장과 처리를 요하는 트위터나 페이스북 등에서 카산드라를 사용하고 있습니다.

 

 

대용량 데이터를 처리하는 기술적인 측면 이외에, 데이터가 갖는 의미와 가치를 잘 표현할 수 있는 방법 중에 가장 쉽게 생각할 수 있는 것이 아마 '검색' 인 것 같습니다. 수많은 데이터 중에 원하는 정보를 찾아내야 하니까요.

그 중에서도 SEO라고 검색엔진최적화, 많이들 들어보셨을 겁니다.

과거의 검색엔진최적화는 구글 알고리즘 중심의 테크니컬한 검색엔진최적화가 주를 이루었습니다. 최근에는 콘텐츠 마케팅과 소셜미디어가 중심이 되고, SEO가 이를 도와주는 형태의 통합 인터넷 마케팅 활동으로 변화되었죠,

국내 포털은 메인 화면에서 광고영역이 별도로 구성되어 있어, 해외에 비해 SEO효과는 상대적으로 낮습니다. 그래서 국내에서는 광고를 포함함 전략적 접근을 많이 구사하죠.

 

 

빅데이터를 효과적으로 보여주는 기법으로 인포그래픽이 많이 활용되고 있습니다. 인포그래픽은 정보를 시각화하여 한눈에 알아보기 쉽게 만드는 기법으로, 웹에서는 물론 기업체에서도 다양하게 활용합니다.

최근에 비주얼닷리에서는 몇 번의 클릭으로 인포그래픽을 만들 수 있는 제작 툴을 출시하기도 했습니다.

소셜에서 인기를 끌고 있는 콘텐츠에도 이러한 인포그래픽이 많이 활용되고 있습니다. 뇌구조보기, 미모판독기 등이 그 예라고 볼 수 있겠네요.

소셜을 빼고는 인터넷을 이야기할 수 없을 정도로, SNS, social .. 온라인에서의 인맥 쌓기는 가히 폭발적으로 증가하고 있습니다. 오프라인의 인맥이 온라인에 반영되기도 하지만, 새롭게 온라인에서 인맥을 구축해나갈 수도 있습니다.

과거에 큰 인기를 끌었던 커뮤니티 사이트, 아이러브스쿨을 기억하시나요?

연락이 끊어진 동창들을 찾을 수 있었던…

이제 온라인에서 몇 단계만 거치면 과거의 동창은 물론 애인을 찾는 일도 어려운 일이 아닙니다.

포털에서 제공하는 유명인들의 인물검색을 제외하고서도, 온라인에서 소셜네트워크를 활용하는 사람을 찾는 일은 점차 대중화 되어가고, 다양해져 가고 있습니다.

 

 

이번에는 bing에서 제공하는 사람검색에 대해 소개하겠습니다.

Bing은 페이스북과 연동하여, 페이스북을 활용하는 사람들이 bing의 contents를 링크하거나 친구에게 링크를 보내주면, 아래 화면에서 보시듯 프로필이 형성 됩니다.

물론, 페이스북에 로그인 된 환경에서 나의 친구가 가장 상단에 노출이 되겠지만, 친구가 아니어도 이름만 입력을 하면 포털에서 찾을 수 있도록 구현돼 있습니다.

페이스북을 활용하는 친구, bing에서 찾아보시면 어떨까요? 아쉽게도 아직은 국내버전에서는 서비스되고 있지는 않습니다.^^

 

최근에는 소셜 웹의 또 다른 진화 형태로 상거래와 스토리를 공유하는 서비스가 확산되고 있습니다.

요즘 소비자는 더 이상 수동적이지 않습니다.

이젠 제품의 생산 단계에서부터, 마케팅 활동까지, 소비자들이 깊숙이 개입되어 있으며, 그 활동은 온라인을 통해 폭발적으로 이뤄집니다.

오프라인에서 판매자, 소비자가 구별돼 있다면, 소셜 웹에서는 하나의 상품에 대해서 구매자가 동시에 판매자가 될 수 있는 모습을 볼 수 있습니다.

구매자가 해당 상품에 대한 리뷰를 소셜미디어에서 공유하면서, 다른 잠재 구매자들에게 스토리를 공유하면서 판매를 유도할 수 있습니다.

이러한 과정으로 발생한 매출은 최초 스토리를 공유한 구매자에게 일정한 수익으로 배분되게 됩니다. 구매자가 동시에 판매자가 될 수 있는 것이죠.

최근에 오픈한 를 그 사례로 들 수 있겠습니다.

 

하루가 다르게 온라인은 진화하고 있습니다.

천재지변에 비유한다면, 하루에도 몇 번의 쓰나미가 밀려든다고 해도 과언이 아닐 것 같습니다.

데이터는 이제까지 보다 앞으로 더 폭발적으로 증가할 것이며, 그에 맞춰 여러가지 서비스나 기술들이 발전을 하게 될 것입니다.

우리 모두는 빅데이터의 소비자임과 동시에 구매자입니다.

 

크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by (주)코난테크놀로지

트랙백 주소 : http://blog.konantech.com/trackback/118 관련글 쓰기

댓글을 달아 주세요

 

우리는 지금, 따라가지 못할 정도로 빠른 기술의 발전 속도와 엄청난 양의 데이터 홍수 속에 살고 있습니다. 어제까지 주목 받던 서비스가 하루 아침에 사라지고, 새로운 서비스가 각광받는 일이 주변에서 비일비재합니다.

이토록 변화가 빠른 사회에서 살아가는 우리에게 그 변화에 대응하는 능력은 어느덧 필수요소로 자리잡아가고 있습니다.

코난테크놀로지 검색 컨설턴트들은 검색솔루션 전문가들로서, 이러한 사회변화에 부응하고, 트렌드에 능동적으로 대응하기위해 이번 달부터 트렌드 리포트를 발행합니다. 

검색솔루션을 다루는 컨설턴트의 관점에서, 기술, UX, 서비스, 마케팅, 산업 등 산업 전반에 걸쳐 일어나는 IT 분야의 트렌드를 제공함으로써 여러분께 조금이나마 도움이 됐으면 좋겠습니다.

첫 발행이라 여러분이 기대하시는 것 보다 부족하겠지만 여러분과 저희가 함께 만들어가고 채워가면 분명 좋은 결과가 생길 것이라 믿습니다. ^^


대체 하둡(hadoop)이 뭐지?
최근 빅데이터라는 말을 귀가 따가울 정도로 많이 들어보셨을 겁니다. 그리고 빅데이터에 대한 이야기가 나올 때마다 빠지지 않고 따라 나오는 단어가 있습니다. 바로 하둡(hadoop)입니다.

무수히 많은 매체와 사람들로부터 언급되는 하둡이지만 막상 하둡이 무엇인지, 어디에 쓰이고 있는지 잘 이해되지 않을 것입니다.

 
하둡을 한마디로 정의하자면, 대용량 데이터 처리 분석을 위한 대규모 분산 컴퓨팅 지원 프레임워크입니다. 즉, 빅데이터를 처리하기 위한 분산처리 시스템이라고 할 수 있죠.

하둡은 크게 HDFS(Hadoop Distributed File System)와 분산처리시스템인 맵 리듀스(Map Reduce)로 구성됩니다. 그리고 이 외에도 아래와 같은 다양한 하부 프로젝트들이 존재합니다.

 
























하둡 구성요소
하둡이 지난 2005년에 만들어진 이후 야후, 아마존, 페이스북 등 다양한 서비스들이 도입해 이를 활용했지만 정식 버전으로 출시되기까지엔 오랜 시간이 지나서였습니다.

2012년 1월 초, 하둡이 처음 세상에 나온 후 약 7년에 걸친 개발 및 조정작업을 거쳐서야 아파치 하둡 데이터 프로세싱 프레임워크 1.0 정식버전이 발표됐습니다. 정식 1.0 버전의 대표적인 특징은 엔드 투 엔드 보안과 WebHDFS REST(Representational State Transfer) API, 그리고 HBase를 최초로 완전구동한 점입니다.

하둡의 정식버전을 출시하면서 아룬 머시 부사장은 "사용자들은 이번 정식 1.0 버전이 오픈소스 커뮤니티의 지원을 받는다는 것을 확실히 알게 됐으며, 더 이상 어떤 기능을 위해 하둡의 어떤 버전을 사용해야 하는지에 대한 혼란은 없다"고 말했습니다.


UX와 페르소나
UX(User Experience)란 한 개인이 특정한 제품이나 서비스, 그리고 그것의 전달과정을 설계된 방식대로 상호작용 하면서 가지게 되는 모든 경험의 합입니다.

코난테크놀로지는 이러한 UX를 검색에 반영하여 사용자 경험을 고려한 검색서비스를 구축하고 있습니다. 검색서비스는 조사, 사용자 행동분석, 컨셉 및 모델링, 제작의 과정을 통해 사용자 경험을 반영할 수 있습니다.

 
최근 UX의 트렌드는 보다 자유롭고, 보다 재미있고, 보다 평범한 것을 추구합니다. 또한 아이폰4의 Siri 와 같이 인공적인 입력장치 없이 사람의 자연스러운 행동으로 사람과 디지털 기기 사이의 아날로그 대화를 끌어내는 추세입니다.

 

<NUI(Natural User Interface>

 

 

Social Search의 과거와 현재
과거의 Social Search는 검색어를 입력하면 검색어에 맞는 SNS(Social Network Service)의 내용을 검색결과로 보여주는 단순한 형태였습니다. 그러나 현재의 Social Search는 SNS에서 나와 관계를 맺은 사람들의 신뢰도를 바탕으로 그들의 활동내용을 검색결과로 보여주는 등 한층 발전된 모습을 보여주고 있습니다. 

SNS상에서 관계를 맺은 사람들에 의해 필터링 된 정보들이 검색결과에 노출되거나, 관계를 맺은 사람들 중 내가 신뢰하는 사람들로부터 어떤 문제에 대한 해결책을 찾는 등 Social Search는 다양한 모습으로 활용되고 있습니다.

 

<Google Search Plus (+1)> <Naver 소셜네트워크(이웃들의 업로드 콘텐츠)>

 

 

2012 On-line Marketing Trend

3G, Wifi에 이어 4세대 통신 LTE의 등장에 따른 통신환경의 변화와 스마트 폰의 빠른 보급으로 온라인 마케팅 환경에도 큰 변화가 예상됩니다. 이러한 변화 속에서 2012년 온라인 마케팅의 핵심 키워드는 콘텐츠, 블로그, 동영상, 위치기반서비스, SEO의 5가지로 압축됩니다. 

 
트위터, 페이스북 등 SNS가 온라인 마케팅의 핵심 플랫폼으로 급부상하며 콘텐츠 유통 및 확산 경로에 새로운 패러다임을 가져왔고, 이로 인해 하나의 고 퀄러티 콘텐츠가 광고캠페인 이상의 큰 영향력을 가질 정도로 콘텐츠의 중요성과 영향력이 매우 커졌습니다.

SNS 활성화의 바람을 타고 함께 떠오른 매체가 있는데, 그것은 바로 블로그입니다. 단문 메시지와 정보공유를 특징으로 하는 SNS의 단점을 극복하기 위한 대안으로 블로그가 떠올랐기 때문이죠. 각 콘텐츠 관리를 효과적으로 지원할 수 있는 강력한 마케팅 플랫폼으로서 말이죠.

동영상도 온라인 마케팅에서 빼 놓을 수 없는 중요한 핵심 키워드입니다. 한 매체의 조사에서 스마트폰과 태블릿PC 이용자들은 동영상 시청에 이 기기들을 가장 많이 이용하는 것으로 나타났습니다. 이러한 현상은 앞으로도 지속될 것으로 예상되며, 동영상 마케팅은 온라인 마케팅 중 가장 높은 성장세를 나타낼 것으로 전망됩니다.

아직 마케팅 분야에서 활동도는 초기 단계이지만 이동 통신망을 통해 얻은 위치 정보를 바탕으로 스마트폰 사용자에게 다양한 서비스를 제공하는 위치기반서비스(LBS: Location-Based Service)도 향후 온라인 마케팅의 중심이 될 것으로 전문가들은 예상합니다.

마지막으로 온라인 마케팅의 핵심 키워드는 검색엔진최적화(SEO: Search Engine Optimization)입니다. 기업이 제작한 텍스트 기반의 콘텐츠를 포털 검색결과에서 타 정보보다 상위에 노출하는 것으로, 해당 매체 방문을 유도하여 브랜드 인지도를 높이게 하는 온라인 마케팅 기법입니다. 최근에는 온라인 환경 변화에 따라 SEO 대상이 모바일, 이미지, 동영상 콘텐츠로 확대되고 있습니다.

 

IT 컨설팅산업 동향

2011년 컨설팅시장은 주요 시장인 공공부문의 침체와 국책사업 및 건설시장 불경기에 따른 SOC(Social Overhead Capital) 사업의 축소로 사업영역이 줄어든 반면, 2012년에는 금융, 서비스 및 제조 시장이 전체시장을 주도할 것으로 전망됩니다.

금융시장의 컨설팅은 단일 대형 컨설팅보다 소규모 시스템 개선사업이 주로 발생하는 추세입니다. 시스템 개선 컨설팅 사업이 지속적으로 발생하고 제 2금융권 컨설팅 사업이 향후 본격화 될 것으로 예상됩니다. 예로써, 기업은행은 전사규모 정보보호 관리체계 구축을 위한 컨설팅 추진계획을 진행하고 있으며, 우리은행은 금융그룹차원의 정보보호 체계와 컴플라이언스 강화를 꾀하고 있습니다. 

서비스 및 제조 시장의 경우는 업무 지원과 업무간 시너지 효과 창출을 위한 컨설팅이 필요할 것으로 전망됩니다. 특히, 유통과 자동차, 대학의 차세대 시스템 수요가 시장을 견인한 것으로 보입니다. 유통/제조시장은 M&A에 따른 시스템 통합 관련 컨설팅이 발생할 것이고, 대학시장은 시스템 개선을 위한 컨설팅 사업이 발생할 것으로 예상됩니다.

 

 

 

시작은 언제나 가슴 설레고 두근거립니다.
이 시작의 기쁨이 매월 여러분과 함께 만나며 점점 커지기를 기대하며, 다음달에는 좀 더 알찬 내용으로 찾아뵙겠습니다 . ^^

 

이 장소를 Daum지도에서 확인해보세요.
서울특별시 강남구 대치4동 | 코난테크놀로지
도움말 Daum 지도
크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by (주)코난테크놀로지

트랙백 주소 : http://blog.konantech.com/trackback/115 관련글 쓰기

댓글을 달아 주세요

 코난테크놀로지의 대표 솔루션은 독크루저(DOCRUZER)라는 대용량 통합 검색 솔루션입니다.
독크루저는 국내 기업검색 솔루션 시장에서 가장 많이 구축된 제품이기도 합니다. 2003년에 출시된 이후 현재까지
10여 년이 넘는 기간 동안 지속적으로 연구 개발을 진행하면서 현재 3.x버전까지 업그레이드를 진행해왔습니다.

통상적으로 한 제품을 10여 년이라는 기간 동안 연구 개발하고,
산업과 인터넷 환경에 맞게 변화하는 고객의 복잡, 다양한 요구사항을 그 제품에 반영하고,
높은 품질보장과 짧은 제품 개발을 위해서는 그 개발과정이 점점 자동화가 돼 가는데요,
제품 개발분야에서는 이 자동화를 말할 때 CI (Continuous Integration, 지속적 통합) 라는 용어를 사용합니다.
오늘은 여러분과 함께 이 "CI"라는 기술에 대해서 알아볼까 합니다.



CI는 빌드 – 테스트 – 배포 각 단계를 자동화하고, 품질을 수치화해서 코드 품질의 가시성을 확보하는
Agile 방법론 중의 하나인 XP(eXtream Programming) 개발 방법론의 실천 사항 중에 하나입니다.

오늘날 개발 방법이 여러 단계로 진화하면서 기존의 폭포수 개발 모델(waterfall model)의 품질체계인 V-Model을 Agile 방법론의 등장으로 제품 시기를 앞당길 수 있도록 자동화하는데 노력하고 있습니다.

 

 

                                                                                   [그림 1] V-Model

 

CI는 [그림 2]와 같은 환경을 구축하는 것이며, 이는 아래와 같은 장점이 있습니다.

  • 소스 코드를 컴파일-테스트-검사-배치하는 일련의 처리과정을 자동화한다.
  • 개발자의 소스 코드 변화를 자동으로 인지하고 매일 자동 빌드를 통해서 코드의 통합을 빅뱅(Big Bang)방식이 아니라 매일 점진적인 방식으로 진행한다.
  • 자주 통합함으로써 통합으로 인해 발생할 수 있는 문제를 조기에 발견하고 해결한다.
  • 빌드 과정에 테스트를 포함해서 결함을 초기에 발견하여 전체 소프트웨어 품질을 높이는 기술이다.
     

[그림 2] CI 시스템

 

이러한 장점을 가지고 있는 CI는 마틴 파울러(Martin Powler), 파울 듀발(Paul M Dubal)이 주창하였으며 소프트웨어 개발에서는 아주 새로운 기술은 아닙니다. 빌드 통합이라는 관점에서 출발했지만, 이 기술은 코드를 개발 초기에 자주 통합하고, 통합한 빌드가 잘 동작하는지 확인하고, 조기에 문제를 파악하여 개발적 관점에서 리스크를 없앨 수 있다는 특징이 있습니다.

또한 CI를 활용한다면 정량적인 수치를 즉시에 확인 할 수 있기에 품질 활동에 도움을 줄 수 있습니다. 즉 품질 지표 중 코드 품질인 Code Coverage, Code Convention, Static Analysis, Cyclomatic Complexity와 같은 지표를 매일 자동화 하여 숫자로 상태를 볼 수 있습니다.

2009년에 실시한 애자일 개발 설문 조사결과 (2009 The state of agile development survey result, 88개국 2,570명) 사용하는 애자일 실천법(Agile Practice) 응답 결과에서도 볼 수 있듯이 활용의 빈도가 높습니다.


[그림3] Agile Practice (출처 : 2009 The state of agile development survey result)

 


자, CI에 대한 개요를 설명해 드렸는데요 실제 코난테크놀로지에서는 어떻게 활용하고 있는지 살짝 공개해드리겠습니다.

일단 CI를 구축하기 위해서는 Hudson과 같은 빌드 자동화 툴이 있어야 합니다. Hudson은 공개 소프트웨어로 손쉽게 사용 할 수 있기에 많은 개발자 분들이 사용하고 있습니다. 코난테크놀로지에서는 Hudson외에 CI 상용 툴을 사용하여 빌드 자동화를 실행하고 있습니다. CI 구축을 위해서 코난테크놀로지만의 CI Process를 개발하여 기존에 Build Automation에 KCS와 CPD, API Test, Regression Test을 자동화 할 수 있는 형태로 Process를 개선했습니다.

 

[그림 4] Build Process

 

또한 실제 구축에서는 빌드 스크립트를 개발자 영역과 QA영역으로 나누어서 서로간에 독립적이면서도 자동화하여 각 각의 영역별로 결함에 대해 신속하게 대응할 수 있도록 구성했습니다.

 

[그림 5] Build Script 단계

 

이러한 빌드 자동화를 효율적으로 사용하기 위해서는 코딩소스를 저장해 주는 Repository와 문서관리 및 이슈관리시스템간의 연동이 유연하게 이루어 져야 합니다. 코난테크놀로지에서는 이러한 시스템 활용을 통해 품질을 높이기 위한 노력을 지속적으로 해오고 있습니다.

결과적으로 이러한 CI환경을 구축하고 프로젝트를 적용한 결과 코딩 표준 준수율을 100%로 올렸으며, 결함 악성율을 기존 대비 20% 이상의 향상을 가져 오는 결과를 가져 왔습니다. 빌드에 따른 시간을 줄여 생산성을 극대화하는 효과를 가져온 셈이죠.



코난테크놀로지는 제품을 개발하고 판매하는 것뿐 아니라 보유하고 있는 제품에 대한 양질의 퀄러티를 항상 유지하기 위해 지속적으로 노력하고 있습니다. 코난테크놀로지의 많은 부서들이 그 노력에 동참하고 있지만 그 중심에는 제품 품질을 책임지고 있는 품질관리팀이 있답니다.

다음 포스트에서는 Agile 방법론 중 Scrum을 통한 제품 개발 관리에 대한 이야기를 하겠습니다.

 

크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by (주)코난테크놀로지

트랙백 주소 : http://blog.konantech.com/trackback/110 관련글 쓰기

  1. Subject : [검색] 코난테크놀로지의 품질 이야기– CI (Continuous Integration, 지속적 통합)

    Tracked from § 청명공자's NotePad § 2012/04/23 15:49  삭제

    코난테크놀로지의 대표 솔루션은 독크루저(DOCRUZER)라는 대용량 통합 검색 솔루션입니다. 독크루저는 국내 기업검색 솔루션 시장에서 가장 많이 구축된 제품이기도 합니다. 2003년에 출시된 ..

댓글을 달아 주세요

  1. Lucy 2012/03/03 23:05  댓글주소  수정/삭제  댓글쓰기

    역시.. Hudson 툴이 자동빌드에는 유명한 모양이네요. 예전에 그 툴로 자동빌드 하고 P4, CC 연계해서 실행하던 경험이 있는데 여기서 이름을 보다니 신기하네요 ^^

    V-model 은 역시 테스팅의 근간이군요. 요새 V-model 의 변형이라고 볼 수 있는 W-model 도 있는데 어차피 계속 점진적 테스트를 하시니 W-model 사용하시는 거나 마찬가지 이시겠네요 :)

    무튼, 좋은 글 잘 봤습니다.

  2. 청명공자 2012/05/03 11:52  댓글주소  수정/삭제  댓글쓰기

    좋은 글 감사 드립니다.
    혹 기회가 되신다면 강의도 가능하신가요??
    snazzy79@naver.com 으로 회신 바랍니다.

2009년 9월 30일 네이트에 시맨틱 검색이 오픈 했습니다.
코난테크놀로지의 텍스트 분석 기술의 집약이라고 볼 수 있는 시맨틱 검색은 당시 관련 업계에 많은 관심과 조명을 받았습니다.

이번 포스트에서는 시맨틱 검색에 대한 기술 소개를 하고자 합니다.

 

시맨틱검색 연대기

2007. 시맨틱 검색 개발 시작.
2009. 2. 28 네이트 검색실험실 오픈
2009. 9. 30 네이트 시맨틱 검색 오픈  

 

시맨틱 검색 기술 – 개요

시맨틱(semantic)은 "의미의, 어의의"란 뜻을 갖고 있습니다. 그래서 시맨틱 검색이란 "뜻을 이해하는 검색"이라고 정의할 수 있습니다. 문장이나 단락에 기술된 주제를 파악하고 이를 대상으로 검색하는 것을 말합니다.

시맨틱 검색은 사용자의 검색의도를 파악하고, 문서에 기술된 어휘의 의미와 문맥을 분석하여, 사용자가 원하는 검색 결과를 제시하는 것을 목표로 삼고 있습니다. 기반 기술로는 문단 주제 추출, 문장 주제 추출, 시맨틱 프레임 생성, 질의 의미 분석 등이 있죠.

시맨틱 검색은 의미에 기초한 검색결과를 제공하기 때문에 검색결과의 정확도가 높습니다. 또한, 즉답 형태의 검색결과를 제공하기 때문에 결과에 대한 접근성이 용이합니다.

 

시맨틱 검색 기술 – 키워드검색 vs 시맨틱검색

N-GRAM 검색은 1음절, 2음절, 3음절, … 등 음절 단위의 색인어를 생성해 두고, 검색어에 매칭시키는 방법입니다. 높은 재현율을 보장하나, 의미 단위 색인어 추출방식이 아니기 때문에 정확도가 떨어집니다. "천국"으로 검색하면 "인천국제공항"이 검색되는 문제가 있습니다.

형태소분석 검색은 형태소 단위의 색인어를 생성해 두고, 검색어에 매칭시키는 방법입니다. 의미의 최소 단위인 형태소를 기준으로 색인어를 추출했기 때문에 N-GRAM보다 정확도가 높습니다. 현재 형태소분석은 키워드검색의 대표주자로 사용되고 있습니다. 그러나, 형태소분석 검색도 한계는 있습니다. 어휘의 의미를 파악한 색인어 추출이 아니기 때문에 "이효리 생일"이란 검색어에 대해서는 "이효리, 생일"이란 단어가 포함된 문서만 검색됩니다. "출생", "태어났다" 등으로 기술된 문서는 의미가 같더라도 검색 결과에서 누락될 수 밖에 없습니다.

반면, 시맨틱 검색은 문맥을 분석하여 주제어를 추출하여 색인어로 생성해 두고, 검색어에 매칭시키는 방법입니다. 따라서, 검색어와 일치하는 주제를 기술한 문서만을 검색결과에 노출하기 때문에 정확도가 높습니다.

 

<표1 검색유형별 비교>

 

N-GRAM 검색

 

형태소분석 검색

 

시맨틱 검색

Primitive

자소

품사

문맥

Key Extraction

Context-Free

Context-Free

Context-Sensitive

Key Form

String

Word

Phrase

User Intention

No

No

Yes

Semantic Search

No

No

Yes

Relevance (Quality)

Poor

Good

Excellent

Ranking

통계기반

통계기반

의미기반

Precision

Low

Middle

High

Recall

High

Middle

Low

적용 분야 예

책, 영화 제목

요약문

본문

 

<표2 검색유형별 색인어 예시>

원문

N-GRAM 검색

 

형태소분석 검색

 

시맨틱 검색

이순신은 인종 1년인 1545년 4월 28일, 서울 건천동에서 태어났습니다

이순, 순신, 신은, 인종, 1년, 년인, 15, 45, 5년, 4월, 28, 8일, … (생략)

이순신, 인종, 1년, 1545년, 4월, 28일, 서울, 건천동, 태어났습니다

이순신 출생일 1545년4월28일

이순신 출생지 서울건천동

지방간을 예방하기 위해서는 과음과 과식을 피하고

지방, 방간, 간을, 예방, 방하, 하기, 위해, 해서, … (생략)

지방간, 예방, 위해서, 과음, 과식, 피하고

지방간 예방법

삼계탕

●재료

영계 1마리, 찹쌀 2/3컵, 대추 8개, 밤 5개, 마늘 4쪽, 수삼 또는 건삼 1뿌리

●만드는 법

1. 영계를 준비하여 내장을 깨끗이 씻어 내고 뱃속에 찹쌀, 마늘, 대추, 밤을 넣고 꿰맨다.

2. 영계가 잠길 정도로 물을 넉넉히 붓고 인삼을 넣어 뚜껑을 열어 둔다.

삼계, 계탕, 재료, 영계, 1마, 마리, 참쌀, 2/, /3, 3컵, 대추, 8개, 밤, 5개, 마늘, 4쪽, 수삼, 또는, 건삼, 1뿌, 뿌리, 만드, 드는, 법, 1., 영계, 계를, 준비, 비하, 하여, 내장, 장을, 깨끗, 끗이, 씻어, 내고, 뱃속, 속에, 찹쌀, 마늘, 대추, 밤을, … (생략)

삼계탕, 재료, 영계, 1마리, 참쌀, 2, 3컵, 대추, 8개, 밤, 5개, 마늘, 4쪽, 수삼, 또는, 건삼, 1뿌리, 만드는, 법, 1, 영계, 준비, 깨끗이, 씻어, 내고, 뱃속, 참쌀, 마늘, 대추, 밤, 넣고, 꿰맨다, 2, …. (생략)

삼계탕 요리법

 

시맨틱 검색 기술 – 색인

시맨틱 주제를 추출하는 방법은 문장을 분리하고 문맥 패턴을 매칭하여 타이틀, 속성, 즉답을 추정하여 색인어를 생성합니다. 타이틀이란 문장에서 기술되는 주어(subject)이며, 속성은 서술어(predicate)이며, 즉답은 목적어(object) 입니다.



<그림1 타이틀, 속성, 즉답>

 

코난테크놀로지의 시맨틱 속성은 인물, 엔터테인먼트, 음식, 질병, 스포츠, … 등의 카테고리에 대해 5천여개의 다양한 속성과 이를 기술하는 150만의 문맥 패턴을 보유하고 있습니다.

 


<그림2 시맨틱 속성>

 

 

 

시맨틱 검색 기술 – 시맨틱 프레임

색인이 끝나면, 방대한 문서로부터 각각 추출된 색인키를 검색결과로 노출될 수 있도록 정제하는 작업이 필요합니다. 이 단계를 시맨틱 프레임이라고 부릅니다. 이 단계에서 타이틀을 기준으로 속성과 즉답에 대한 정규화 및 랭킹을 부여하게 됩니다.

 

<그림3 시맨틱 프레임 예>

타이틀

속성

즉답

파스타

시청률

10%, 10.8%, 11,9%, 12,5%, 13.4%, 15.1%, 18.5%

극중인물

김산, 서유경, 오세영, 이지훈, 한상식,

주인공

공효진, 알렉스, 오윤아, 이선균

만드는법

파스타 재료: 저민 마늘, 페페론치노(갈은 고추), 올리브 오일, 파슬리, 스파게티면, 파마산 치즈…

출연진

공효진, 알렉스, 오윤아, 이선균,노민우,이현욱

 

 

시맨틱 검색 기술 – 시스템 워크플로우

시맨틱 검색의 색인, 프레임 생성, 검색 단계별 워크플로우는 아래 그림과 같습니다.

 

<그림3 전체 흐름도>

 

<그림4 색인 흐름도>

 

<그림5 시맨틱 프레임 흐름도>

 

 

<그림6 검색 흐름도>

 

 

시맨틱 검색 기술 – 구축 사례

코난테크놀로지의 시맨틱 검색은 현재 네이트와 11번가에 적용되고 있습니다. 영문 시맨틱 검색도 코난랩(http://labs.konantech.com)을 통해 확인해 보실 수 있습니다.

 

<그림7 구축 사례 – 네이트>

 

<그림8 구축사례 - 11번가>

 

<그림9 구축사례 – 영문 시맨틱>

 

 

시맨틱 검색 기술 – 한계 및 대책

현재의 시맨틱 검색은 검색결과에 제시되는 속성과 즉답의 정보성이 부족하여 사용도 만족도를 충족하기에는 미흡한 점이 많습니다. 또한, 포괄적인 정보를 찾고 싶은 때는 유용하지만, 정보의 구체화에는 풀어야 할 과제가 많습니다. 검색결과 정확도와 재현율을 높이기 위해 속성을 좀 더 다양하게 확장해야 하며, 즉답의 과탈락 및 과분석 방지를 위해 구문분석을 강화해야 합니다.



21세기는 사는 우리에게 10년이면 강산이 변한다는 옛말은 무색합니다. 특히 변화의 최첨단에 있는 검색분야에서는 1년, 짧게는 6개월 단위로 트렌드가 변화하고 있습니다. 지난 2년을 돌이켜 봤을 때, 2010년에는 시맨틱 검색이, 2011년에는 소셜 검색(감성 검색)이 시장의 화두였습니다.

텍스트 분석 기술을 연구하고 개발하는 입장에서 볼 때, 텍스트 분석에 대한 세상의 요구와 변화에 보조를 맞추기가 쉽지만은 않는 게 사실입니다. 텍스트 분석 개발자로서 앞으로도 할 일이 무궁무진함을 감사(?)해 하며, 이만 글을 마칩니다.

 

크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by (주)코난테크놀로지

트랙백 주소 : http://blog.konantech.com/trackback/105 관련글 쓰기

댓글을 달아 주세요

지난 포스팅에서는 N스크린의 개요와 필요성 등에서 알아 보았습니다. 이번 포스팅에서는 N스크린 서비스에 필요한 주요 인프라 구성인 '디지털 콘텐츠 웨어하우스 (digital contents warehouse, 이하 DCW)' 의 구성에 대해 좀 더 알아보도록 하겠습니다.

 

<그림1. Contents warehouse 의 두 가지 구성 요소>

 

위의 그림은 지난 포스팅의 <그림3> 에서 DCW 부분만을 표현한 그림입니다. 좌측이 contents provider (=CP) 의 집합을, 우측이 N스크린 서비스 플랫폼의 집합을 나타낸 것입니다. 그림에서 '콘텐츠 허브 (contents hub)' 라고 표현된 부분이 DCW 의 핵심 부분을 나타냅니다. 허브 시스템은 말 그대로 다수의 데이터의 흐름이 집중되는 교차로 역할을 하는 시스템을 말하며, 여기서는 콘텐츠를 유통시키기 위한 허브 시스템을 뜻합니다. 어찌 보면, DCW 란, 단순히 다수의 콘텐츠를 적당한 경로를 거쳐 서비스 플랫폼에 재분배 해주는 유통 채널에 불과하다고 볼 수 있습니다. 우스개 소리로 하자면, 콘텐츠의 물류 센터라고나 할까요? 어쨌든, 여기서 중요한 것은, DCW 의 핵심 구성은 크게 '콘텐츠 허브 시스템' 과 '대용량 스토리지' 의 두 가지로 이루어진다는 것입니다.

 

아래의 <그림2> 는 지난 포스팅의 <그림3>을 간략히 표현한 것입니다. 즉, "CP-DCW-N스크린 서비스-소비자" 의 4단계 흐름을 보여줍니다. 앞서 본 <그림1> 은 <그림2> 의 'Contents Warehouse' 라고 되어 있는 블록에 해당합니다. 대부분의 현존하는 N스크린 서비스란, 위의 그림에서 'Service Delivery' 에 해당하는 기능만을 갖는 경우가 많다고 지난 포스팅에 언급한 바 있습니다. 그 이유는 사용자에게 직접 콘텐츠를 전달하는 시스템은 DCW 가 아니라, Service platform 이기 때문입니다. 따라서 굳이 효율적인 구성을 갖는 DCW 가 없더라도, 전달 서비스 자체는 가능하다는 것입니다.

<그림2. N스크린 전달 시스템 개요>

 

이 상황을 다르게 예시를 들어보자면, 은행 창구를 떠올릴 수 있겠습니다. '현찰' 이라는 콘텐츠를 고객에게 전달하는 방법은 은행 창구에서 사람이 할 수도 있고, ATM 에서 기계가 할 수도 있다는 것은 잘 알고 계실 것입니다. 창구를 이용할 때는 고객 입장에서는 느리고 번거로우며, 은행 입장에서도 지점이라는 사무실 공간과 인력 운용 등의 부대 비용이 투입되기 때문에 단순히 예금의 지급이라는 단순 작업을 위해서만 창구를 이용하기에는 여러모로 효율이 떨어집니다. 물론 ATM 은 이런 단점을 극복할 수 있지요. N스크린도 마찬가지 입니다. 기존의 VOD, AOD 등등의 시스템을 상호 연결하여 해결할 수도 있지만, DCW 를 구축했을 때와 아닌 때의 시스템 효율성은 극명한 차이를 보이게 됩니다.

<그림3. 전형적인 Contents Warehouse 와 N스크린 전달 시스템의 구성>

 

<그림3> 이 오늘 설명할 DCW 시스템의 실체입니다. 갑자기 시스템이 복잡해 보여서 이쯤에서 포스팅 구독을 중단하실지도 모르겠습니다. 하지만, 잘 들여다 보시면, 이제까지 한 얘기와 별반 다를 바 없습니다. 중요한 것은 DCW 의 내부인데요, 3가지 색상으로 구분된 요소를 우선 보도록 하지요. 빨간색 부분은 CP 및 N스크린 서비스를 운용하는 사용자가 DCW 에 접근하기 위한 사용자 인터페이스를 말합니다. 한마디로 웹 기반의 관리 툴이라고 보시면 됩니다. 보라색 부분은 여러 가지 하드웨어로 구성된 거대한 스토리지 시스템, 즉 물리적인 저장소를 뜻합니다. 그럼 이제 노란색 부분만 남게 되는데요, 이 3개의 블록이 DCW 의 핵심적인 업무 흐름을 나타냅니다.

각각의 블록은 콘텐츠의 '등록 (Ingest)', '관리 (Contents Management, CMS)' 및 '변환 (transcoding)' 과정을 말합니다. 말 그대로 콘텐츠가 시스템에 들어올 때, 등록을 하고, 보관/관리하고 있다가, (시스템에서 요청하면) 적절한 포맷으로 변환해서 전달하는 구성입니다. 그런데, 이 아주 간단한 듯 보이는 구성에는 중요한 의미가 내포되어 있습니다. 제일 중요한 것은 콘텐츠의 흐름에 대한 것입니다.

<그림4. DCW 와 MAM 의 workflow 의 차이점>

위 그림에서 (A)는 앞서 본 DCW 의 전형적인 흐름을 나타내며, (B)는 일반적인 MAM (media asset management) 의 흐름을 나타냅니다. 여기서 크게 차이가 나는 부분은 '변환' 과정이 (관리 시스템을 중심으로) 앞서 일어나는가, 뒤에 일어나는가 하는데 있습니다. 물론 모든 DCW, MAM 이 한가지 워크 플로우를 지향하진 않습니다만, 전형적으로는 위와 같이 차이가 있다는 뜻입니다. 그렇다면, 이 순서상의 차이는 어떤 결과를 가져오게 될까요? - 바로 원본의 "포맷" 관리 방법에 근본적인 차이를 가져오게 됩니다. (A)의 경우는 서로 다른 포맷의 콘텐츠가 들어오더라도 그대로 원본을 보관하고 있다가, 내보낼 때에만 변형을 해주기 때문에, 포맷은 다양하더라도 원본 콘텐츠의 개수는 원본 그 자체, 즉 변경되지 않은 원형 1개만 보관을 하게 됩니다. 반대로, (B)는 여러 가지 포맷으로 들어오는 콘텐츠를 한 가지 포맷의 새로운 원본으로 만든 뒤, 내보낼 때는 원본을 그대로 전달합니다.

(A)는 등록 과정이 간단하고 신속하게 이루어 지고, 원본의 보존 형태가 단순하며, 보관 및 관리 시스템이 간결하기 때문에 자동화 시스템을 구성하기에 유리합니다. 또한 변환 과정이 원본 저장 이후에 일어나므로, 만약 전송해야 할 포맷의 변화가 발생하여 트랜스코더를 다른 버전으로 교체하더라도, 원본에는 영향을 주지 않기 때문에 시스템의 항상성을 유지할 수 있다는 장점이 있습니다. (B)는 등록 과정이 복잡하고 일정 시간이 소요된다는 단점이 있지만, 균일한 품질의 원본을 유지할 수 있고, 전송을 위한 후처리가 필요 없기 때문에, 스토리지로부터 신속하게 콘텐츠를 전달하는데 유리합니다. 이러한 특징 때문에 콘텐츠의 교환/전달을 목적으로 하는 DCW 에는 (A)의 방법을, 일반적인 방송시스템에서는 (B)의 방법을 사용합니다.

특히, 이들 시스템은 트랜스코딩 작업이 매우 중요한데, N스크린 서비스처럼, 단말기의 포맷이 자주 바뀌는 시스템에서는 (B)의 흐름을 따르게 될 경우에는, 거의 모든 종류의 원본을 미리 만들어 두게 되므로 저장 공간의 낭비뿐 아니라, 원본의 버전이 여러 개가 존재하게 되어 관리가 어려워 지게 됩니다. 예컨대, 아이폰, 갤럭시S, 아이패드, 갤럭시탭 등에 대한 서비스를 위해서는 4가지 포맷의 원본을 보관해야 한다는 뜻입니다. 그런데, 이들 외에 만약 갤럭시S3 라는 제3의 단말기가 등장한다고 가정한다면, 이를 위한 원본을 추가로 생성해야 합니다. 문제는 이를 위해서는 CP 가 이전에 제공했던 원본을 이용해서 다시 작업을 해야 한다는 겁니다. 원본이 한두 개라면 몰라도, 수십~수백 개 이상이 된다면, 작업량은 어마어마해지게 되고, 시스템의 처리 부담도 높아지게 됩니다. 언제 어떤 단말기가 또 등장할 지 모르는 요즘 같은 환경에서 이런 운용 방식은 매우 부적절한 시스템인 것입니다.

이와 반대로, 방송국과 같은 콘텐츠의 제작/가공을 위한 시스템에서는, 원본 콘텐츠가 가공을 위한 원자재에 해당하기 때문에, 포맷이 많아질 경우, 제작 시스템도 그에 따라 복잡해 지게 되어 가공이 어려워 지게 되고, 결과적으로 제작 효율이 떨어집니다. 그리고 스토리지에서 제작 혹은 전송 시스템으로 내보내기 직전에 변환을 한다면, 작업을 실시간으로 수행하기 어려워 지게 되고, 더군다나 편집 과정을 반복하여 작업할 경우엔, 변환 과정 역시 반복되면서 콘텐츠의 품질 저하가 일어나게 됩니다. 또한, 방송시스템은 TV, 라디오 같이 통신 프로토콜이 자주 바뀌지 않는 산업 표준을 따르는 단일 전송망으로만 내보내기 때문에, 다양한 포맷에 대응할 필요가 없으므로, 보관 전 처리를 통해 균일한 품질의 원본으로 통일하는 시스템이 더욱 효과적인 것입니다.

이렇듯 DCW 와 MAM 은 근본적으로 다른 목적, 다른 효과를 갖는 시스템이지만, 여기서 주목할 점은, 결국 기능 요소를 하나하나 끊어 놓고 보면, DCW 를 구성하기 위해서는 MAM 의 구성 요소를 재배열 하는 것만으로도 충분히 DCW 의 구축이 가능하다는 점입니다. 실제로 DCW 는 고해상도 영상 콘텐츠를 여러가지 품질의 모바일용 영상으로 교환하여 서비스하는, 영상 기반의 시스템이기 때문에, MAM 과 거의 모든 영역에서 유사성을 갖게 됩니다. KONAN 의 MAM 솔루션이 N스크린과 밀접한 관계가 있다고 하는 것도 이런 이유에서 입니다.

 다음 포스트에서는 마지막으로 최종적인 구성 사례를 통해 MAM 을 이용한 DCW 의 구축 방안을 확인해 보도록 하겠습니다.

크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by (주)코난테크놀로지

트랙백 주소 : http://blog.konantech.com/trackback/103 관련글 쓰기

댓글을 달아 주세요

지금으로부터 한달 전 10 26, 삼성동에서 열린 Gartner local briefing에 다녀왔습니다.

Technology Best Practices & Trends You cannot ignore라는 주제로 열린 이번 세미나에서

제 관심을 끈 것은 Top 10 Strategic Technology Trends for 2012라는 세션이었습니다.
무척 흥미로운 주제였고, 많은 것을 생각한 시간이었는데요.

이번 포스팅을 빌어 Gartner가 예측한 2012년 전략 기술 10가지를 코난테크놀로지 관점으로

풀어보고자 합니다.

 

- 2012년 주목할만한 IT 키워드는 무엇일까?
Gartner Managing Vice President, Ian Bertram씨의 발표로
Top 10 Strategic Technology Trends for 2012세션은 시작되었습니다.

발표자가 화두로 던진 것은 바로 무어의 법칙
(Moores Law).
쉽게 이해하자면 기술은 끊임없이 진보하고 그에 따라 컴퓨팅 파워도 더욱 강력해지고 있다정도가 아닐까 싶습니다. 다시 말해, Ian 부사장은 2012 IT 시장을 강타할 큰 흐름은 이러한 기술의 진보에 따른 바이다, 라고 말하고 싶었던 것 같습니다.


이와 함께 IT는 더 이상 enabler가 아니고 커다란 impact로 받아들여야 한다고 강연 내내 강조했는데요.
이 부분은 저도 공감합니다. 아이폰이 몰고 온 충격으로 자칭 IT 강국이라는 한국이 지난해부터
휘청거렸으니.

각설하고
, Gartner가 제시한 인간, 비즈니스 그리고 IT 생태계 전반을 뒤흔들 2012년 전략적
IT 기술에 대하여
살펴보도록 하겠습니다.

- 2012
년 전략 기술 12
, 아래 표를 보시죠.
Gartner에서 제시한 2012년 전략적 top 10 기술을 잘 정리한 표입니다.


상세한 설명으로 넘어가기에 앞서 아래의 사항에 대하여 이해를 구합니다.

1. Gartner가 꼽은 전략적 기술 10가지는 개별적인 것이 아니라 서로 유기적으로 이어진다

2. 10가지의 기술은 Human, Business, 그리고 IT Dept.(IT 부서)의 변화를 줄 기술로 분류된다

3. 10가지 기술의 면면이 모두 새로운 것은 아니다(올해 첫 등장한 것은 아니다).

 

위의 3가지 이유는 다음 변명을 위한 밑밥인데요.

사실 이 포스팅을 통하여 저 10가지의 기술 하나하나를 설명하지는 않을 것이고 모든 기술을 다루지는 않을 계획입니다. Gartner에서 열거한 10가지의 기술을 하나의 커다란 흐름으로 볼 때, 문맥상 겹쳐지고 인과관계가 나타나는 것들이 상당 부분 있기 때문이지요. 게다가 모르는 분야가 많기도 하거니와.

 

그럼 본론으로 들어가겠습니다.


- The future is mobile
우선 Mobile. Top 10 Strategic Technology에서 모바일과 관련된 기술이 제법 많습니다.
Media tablets & beyond, Mobile centric applications & interfaces, App stores & marketplaces
등이 바로 그것이죠.


이러한 기술적 흐름을 The future is mobile이라고 표현했습니다.
컴퓨팅 기술이 발달하고 인프라가 갖춰짐에 따라 PC를 대체하는 세력으로 모바일이 급부상합니다.
이에 따라 마우스와 키보드로 대표되는 PC의 사용자 경험(User Experience)은 심각한 도전을 받게 된다는 이야기지요.
 
UI(User Interface)
로 불리는 사용자 인터페이스 역시 마찬가지입니다.
지금까지의 PC와는 다른, 보다 정교하고 직관적인 'Interaction'이 필요해졌다는 것.

"요컨대 모바일 컴퓨팅의 도래는 ‘사용자 경험에 기반한 디자인의 변화를 수반한다라는 것입니다."
 

코난테크놀로지 역시 이를 위하여 수많은 모바일 검색 애플리케이션을 내놓았습니다.
대시보드 기반의 추천 검색, 음성인식, 이미지 쿼리 기반의 검색 등, 모바일 검색을 위한 다양한 시도를 하고 있습니다

더 잘하기 위하여서는 Interaction, 즉 사용자와의 교감을 위하여 디자인에 더 많은 신경을 써야겠다는 생각이 듭니다.

 

그리고 모바일과 관련하여 눈여겨볼 부분이 하나 더 있습니다.

모바일은 기업이 push하기 보다 일반 사용자가 키워가는 시장이라는 견해인데요.

이를 가장 극명하게 나타내는 부분이 바로 '앱스토어'라고 합니다.

 

앱스토어는 아시다시피 애플리케이션 장터입니다. 원하는 앱을 무료로, 또는 돈을 내고 다운로드할 수 있지요.
눈여겨볼 부분이 바로 이 것입니다. 앱스토어의 시대에는 원하는 기능 하나, 단 하나의 필요성에 의하여
거래가 이뤄지는 것이지요
. 사용자가 원하지 않는 기능은 애초에 배제됩니다.

 

, Deploy가 선택적이라는 것이고, 향후 이러한 선택적 SW 구매가 기업 솔루션 영역으로도 확산될 수 있다고 생각하는 것 같습니다(이 부분은 제가 비약해서 생각한 것일 수도 있으니 취사선택 要).

 

- Next Generation Analytics
그 다음으로 다룰 부분은 바로 분석(Analytics)입니다. 아래 그림을 보실까요?


그림은
2010, 2011년도 Gartner가 선정했던 전략적 기술 Top 10입니다.

 

위의 표를 10초만 뚫어지게 보시고, 스크롤을 위로 올려 2012년의 그것과 비교해 보겠습니다.

공통적으로 나타나는 단어가 보입니다. , 바로 Analytics입니다.

Cloud
역시 공통적으로 눈에 띕니다만, 이 기술이 그리고 용어가 'Trigger' 라기보다는 너무도 당연하게 받아들여져 어쩌면 식상한, 그렇지만 안 다루면 서운한 기술이라서 선정했다고 보시는 게 좋겠습니다.

2010년에서 2012년까지 Gartner가 예측한 IT 분야의 전략적 기술로 분석(Analytics)이 꾸준히 등장하고 있습니다. 2012년도에는 Analytics(분석)의 등장을 Next generation이라는 수식어와 함께 소개하고 있네요.
Next generation,
차세대는 무엇을 분석한다는 이야기일까요?
그것은 바로 빅데이터(Big data)입니다.

 

Gartner Stance에 의하면 빅데이터라는 녀석은 2012년 전략적 기술로 꼽은 Internet of thing

(사물 컴퓨터, 모든 것이 컴퓨터)이 궤를 함께 합니다. , 모든 것이 인터넷에 연결되고 interaction 하는 시대가 도래하면 모든 것이 정보가 되고 그 합은 가공할 수준이 된다는 이야기이지요.

 

실제로 올해 IT 시장을 돌아보매, 가장 뜨거웠던 감자는 빅데이터가 아니었나 싶습니다.

먹음직스러우나 손에 쥐기에 너무 뜨거운 감자 빅데이터는 그 많은 데이터를 어떻게 처리할 것인지에 대한 논의와 함께, 그 안을 헤짚어 무엇을 얻을 것인가에 대한 고민도 함께 가져왔습니다.

 

이에 따라 자연스레 분석에 대한 관심 또한 늘어나고 있습니다. 실제로 코난테크놀로지가 실시한 설문조사에서도 정형/비정형 정보로 이루어진 빅데이터가 향후 기업검색 분야의 핫이슈로 떠오를 것으로 나타났습니다.
(
참고: 전산 담당자가 이야기하는 2011 기업검색의 현재)

 

- 대규모 정보를 어떻게 분석할 것인가

빅데이터분석에 관한 기존의 Stance DBMS, DW(Data Warehousing)에 쌓여있던
구조화된 정보에 포커싱하고 있었다면
, 앞으로는 Unstructured data, 즉 비정형 정보에 많은 노력을
할애할 것으로
보입니다극단적으로 eDW(Enterprise Data Warehousing)가 앞으로는 없어질 것으로 예상하는 관점도 있다고 하는데요. 이것은 IoT(Internet of Everything) 시대에는 기업이 보유한 정보만으로 다양한 사회의 변화를 예측하기도 힘들고 Business Insights를 찾기도 어렵다고 생각하기 때문입니다.

 

이에 따라 Social과 그에 대한 분석이 강조되고 있습니다.
비정형 소셜 콘텐츠를 Business Model에 적용하기 위하여 어떻게 구조화하고, 의사 결정에 반영할 것인지에
대한 고민이 발생하는 지점에서
분석이 중요해지는 것입니다.

Seek(탐색) à Model(예측) à Adapt(적용)이라는 일련의 분석 프로세스를 거쳐 소셜 콘텐츠를 구조화하고
BI(Business Insight)
기반으로 활용할 수 있도록 만드는 것이지요. 이러한 관점에서 언어에 민감한 검색엔진의
쓰임새가 많을 것으로 보이고요.

 

이미 해외 BI 및 검색 벤더들의 경우 소셜 콘텐츠 분석을 위하여 많은 노력을 기울이고 있고,

코난테크놀로지 역시 소셜 미디어 분석 서비스 펄스-K(pulse-K)출시를 통하여 소셜 콘텐츠 분석을 위한
단초를 제공하고 있습니다
.




-
맺음말

이상으로 기업검색 관점으로 살펴본 2012 전략 기술 10가지를 살펴보았습니다.
본문에서 다룬 바와 같이 분석모바일
이 향후 기업검색 분야에서 큰 비중을 차지할 것으로 보이는데요.

Interaction & insights라는 맥락에서 제품의 진화를 기대할 수 있으며 'Deploy'의 측면에서 영업 및 마케팅 측면의
전환을 예상할 수 있겠습니다
. 과연 다가올 2012년에는 얼마나 많은 변화가 찾아올지 함께 지켜보시지요.

P.S)
전략적 기술에 포함된 'In-memory computing' 'Extreme low energy servers'와 같은 트렌드는
포스팅 초반에 언급한 '무어의 법칙'처럼 컴퓨팅 파워가 강력해지고 더 저렴하게 인프라를 구성할 수 있게 되었다
라고 이해하시면 될 듯 합니다.

 

 

저작자 표시 비영리 변경 금지
크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by (주)코난테크놀로지

트랙백 주소 : http://blog.konantech.com/trackback/79 관련글 쓰기

댓글을 달아 주세요

세상의 사건들을 이해하는 데에는 여러 가지 시각이 있을 수 있습니다.

이를테면 2011년 현재, 정치적 핫 이슈인 '한미FTA'라는 것도 '자유 무역을 증진시켜 경제 활성화에 이바지할 것이다'라는 주장과 '아직 성숙하지 않은 국내 제반 법제나 기타 공공 복지 정책에 심각한 피해를 줄 것이다'라는 주장이 맞섭니다(cf. FTA 논쟁). 단적인 또 다른 예로는, 컵에 물이 반이 있을 때 이걸 '반 밖에 안 남았네' '반이나 남아 있네'라고 보는 시각차도 있을 것입니다.

이런 시각차의 존재는 전산 분야라고 예외는 아닙니다. 'GOTO 문을 절대 쓰면 안 된다'라는 주장과 'GOTO, 필요하면 쓸 수도 있지.'라는 주장이 있고(cf. GOTO), 'big-endian이 낫다' 'little-endian이 낫다'라는 주장도 서로 맞섭니다(cf. endianness). 마치, '엄마가 좋아? 아빠가 좋아?'라는 물음처럼 답이 없는 문제들이죠(cf. 세상에서 가장 어려운 질문).

이 글에서 얘기하려는 'row-oriented 방식' 'column-oriented 방식'도 어떻게 보면 데이터 저장 방식에 대한 서로 다른 시각차라고 할 수 있습니다.



위와 같은 테이블 형태의 데이터는 RDBMS에서 많이 사용하는 전통적인 예제인데, 이것을 저장하는 방식은 다음과 같이 두 가지로 나눌 수 있습니다
.



방식 1. (학년, , 번호, 이름)을 하나의 레코드로 저장




방식 2. (학년) () (번호) (이름) 데이터들을 하나의 집합으로 보고, 별도 영역에 저장

보통 1번을 'row-oriented 저장 방식', 2번은 'column-oriented 저장 방식'이라고 부르는데, 각 저장 방식은 각각의 장단점이 있습니다. 이것의 장단점에 대해 이야기하려면 통상적인 DISK의 구조라든지 seek time, 데이터 페이지 구성 좀 더 로우레벨(low-level) 토픽들을 이야기해야 하는데 그렇게 되면 내용이 다소 길어지므로 각각의 장단점에 대해서는 다음 포스팅에서 다루도록 하겠습니다.

row-oriented
방식에서는 어떤 하나의 완결된 데이터 - 레코드를 꺼내 보고 싶을 때(SELECT), 또는 하나의 레코드를 갱신(UPDATE)해야 할 때, 바로 그 레코드 하나에 대해서만 접근해서 연산을 수행하면 됩니다. 이 방식의 장점은 단위 연산이 무척 빠르다는 것입니다. 하지만 전체 데이터 집합에서 '학년'에 해당하는 필드 값들만을 읽어 들이고 싶을 때는 불필요하게 '', '번호', '이름' 필드들도 같이 읽어야 한다는 단점이 있습니다
.

column-oriented
방식에서는 반대로 특정 필드 값 전체를 읽어 들여서 작업 수행을 하고자 할 때, 그 필드가 저장된 영역만을 한 번만 스캔하면 된다. 이 때문에 연산 효율이 상당히 높습니다. 또한, 레코드의 특정 필드 값을 업데이트하고자 할 때 다른 필드 값이 저장된 영역은 건드리지 않아도 되는 장점이 있습니다. 그러나 하나의 완결 레코드를 구성하기 위해서는 각 필드 값들이 저장된 영역을 다 뒤져서 일일이 가져와야 하는 단점이 있죠
.

따라서 각 저장 방식에 적합한 응용 분야는 차이가 있습니다. 레코드에 대한 빠른 읽기/쓰기 작업이 필요한 OLTP(Online Transaction Processing) 환경에서는 보통 row-oriented 저장 방식을 선호하고, 모든 레코드 필드 값을 배치(batch)로 다 읽어 들여서 통계나 기타 분석 작업 수행이 필요한 OLAP(Online Analytical Processing) 환경에서는 column-oriented 저장 방식이 유리합니다. 그러나 반드시 OLTP row-oriented, OLAP이면 column-oriented로 저장하는 것이 좋다는, 이분법 사고를 할 필요는 없습니다. row-oriented 방식으로도 수십~수백 테라 바이트의 데이터 분석 처리가 가능한 RDBMS들이 존재하니깐 말이죠(ex.
Teradata). 반대의 경우도 마찬가지입니다. 두 개의 방식 중 어떤 것을 쓰더라도 잘(!) 만들면 불가능은 사실, 없습니다. 다만, 물리적으로 각 방식의 장/단점은 분명 있으므로 취사/선택해서 쓰면 그만인 것이죠.

코난테크놀로지의 주력 사업 분야 중 하나는 기업용 검색 엔진입니다. 검색엔진이 수행하는 주 작업 - 검색 - 이 보통 OLTP라고 볼 수 있기 때문에 과거에는 row-oriented 방식에 많이 의존하고 있었습니다. 하지만, 점점 대용량화되는 검색 데이터들에 대한 분석 작업이나 기타 실시간으로 변하는 특정 필드 값들에 대한 추적/변경 작업의 용이성을 위해 최근에는 앞서 얘기한 column 방식의 저장 구조도 도입하게 됐습니다. 아직 기본(그렇다고 이 기본을 만들기 위해 쏟아 부은 우리 팀원들의 열정은 결코 적지 않았다는...) 단계라 가야 할 길이 아직 남아있긴 하지만, 멀지 않은 시점에 우리 엔진을 쓰는 여러 고객들에게 조그만 기쁨(?)을 안겨줄 수 있게 되길 희망해 봅니다


저작자 표시 비영리 변경 금지
크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by (주)코난테크놀로지

트랙백 주소 : http://blog.konantech.com/trackback/78 관련글 쓰기

댓글을 달아 주세요

  1. 8miles 2011/11/23 17:21  댓글주소  수정/삭제  댓글쓰기

    흥미로운 글 잘 봤습니다.
    비가 올 확률이 50%라고 하면 이건 비가 오는 것도 아니고 안 오는 것도 아니다라고 하시던 학교 교수님의 말씀이 생각나네요.

    • (주)코난테크놀로지 2011/11/24 13:31  댓글주소  수정/삭제

      코난테크놀로지에 관심을 가져주셔서 진심으로 감사드립니다. 어떤 기술을 어떻게 적용할 것인지, 또 그를 통하여 얻을 수 있는 효과는 어떤 것인가에 대한 이야기는 결국 기술을 바라보는 관점을 통하여 구체화되는 것 같습니다.

      더 나은 모습 보여드릴 수 있게 노력하겠습니다.
      감사합니다.

웬만한 Blockbuster 영화는 이제 3D, 4D가 당연한 시대입니다. 이차원 영상은 오히려 촌스럽게 여겨질 정도죠. 하지만 최근에는 정보의 가장 기본인 텍스트가 새롭게 각광받고 있습니다. SNS의 활성화와 스마트폰의 보급으로 비정형 데이터들이 증가하면서, 일반인들 뿐만 아니라 선거를 앞둔 정치인들의 희비를 갈라놓는 두려움의 대상이 돼 가고 있기 때문입니다.

 

그래서 지난 오랜 시간 동안 검색기술을 이야기할 때 빠지지 않고 등장하는 텍스트에 대해 다시이야기 해 보려 합니다. 2011년 현재와 그 이후의 관련동향, 그리고 분석관점에서 어떠한 활용 기술들이 있었는지 등을 말입니다. 다시 말해 텍스트가 지닌 가치의 재발견이죠.

 

텍스트의 재발견이라는 이름으로, 앞으로!

 

얼마 전 치러진 서울시장 선거나 한미FTA 등 대중의 관심을 뜨겁게 받았던 사회적 이슈들이 이제 마무리 돼 가는 것 같습니다. 이러한 이슈들은 매스 미디어를 통해 그 결과가 보도되기 전까진 대중의 여론이 어떤지 쉽게 알 수 없습니다. 다른 사람들의 생각은 어떤지, 지역별이나 연령별 등 그룹별 생각이 어떤지 말입니다.

 

개인이 사회적 이슈에 대한 태도를 정할 때도 TV를 잘 보지 않거나, 스스로 받아들이기로 정한 정보의 소스들(RSS, blog, podcast)만을 통해서 정보를 습득한다면 여론을 파악하고 편향된 마인드를 갖지 않도록 하는 것은 더욱 어려운 일일 것입니다.

 

이러한 경향을 가진 사람들이 종종 주위의 어르신들 중에서도 발견되지만 젊은 층의 경우, 대부분 정보전달 매체가 되는 물리적 장치들은 더 이상 TV, Radio, Newspaper가 아니라 다양한 형태로 만들어진 인터넷 상의 자원들일 것입니다. 이들 사이에서는 어느 정도의 친분과 면식을 갖은 후, 신뢰가 쌓이면 우정의 징표로 자신들의 가입되어 있거나 방문하고 있는 장소들(URI : Uniform Resource Indentifier)을 공유합니다.

 

이 과정에서 정보의 기본이자 빅데이터 시대에 주요 분석 대상으로 주목 받는 것이 바로 텍스트입니다. 군대를 입대하자마자 제대하는 기분일 정도로 빠르다는 4G 시대에 접어든 지금, 텍스트는 더 이상 검색엔진들을 통해서 쏟아지는 단순한 검색결과로서, 한번 작성된 후 사용하면 잊혀지거나 삭제되는 휘발성 정보가 아닙니다

 

 

-      TextAnalytics, Enterprise Content Categorizing을 만나다

 

TextAnalytics와 Enterprise Content Categorizing을 만나면서 무소불위(無所不爲)능력자들에게까지 영향력을 인정받는 존재가 됐습니다.


 


Social media 분석도구 ( pulse-K )

 

 

SNS의 발달과 스마프폰의 보급으로 개인의 의견을 텍스트를 통해 실시간 전달할 수 있게 됐기 때문이죠. 과거의 경우 사용자들은 검색엔진 또는 단순 검색 도구들을 통해서 정보를 스스로 찾아가는 형태였지만 이제는 시스템이 텍스트 저장소들(Files, Data Volumes, Databases, Web Resources)을 감시하여 사용자의 관심사들에 대한 trends와 소비자들의 반응을 분석 후 결과를 알려주고 있습니다.

판단 근거가 되는 분석대상 data와 처리기술을 통해 추가적인 사회적 비용을 들이지 않고도 선거 후 출구조사결과보다 더 정확도 높은 선거 결과 예측도 곧 가능해진다는 이야기죠.


 

-       생활/업무 밀착형 텍스트 분석 활용 사례 : Intelligent BRM(Business Reference Model”)

Taxonomy è Enterprise Content Categorizing, Intelligent BRM

 

많은 기업이나 기관들이 일정 규모 이상의 조직이 형성되고, 문서들이 쌓이기 시작하면 도입하는 시스템들 중 대표적인 것이 협업 시스템(Collaboration Ware), 자산정보 관리시스템(Content Management System)입니다. 그리고 이와 같은 시스템들이 성공적으로 구축되고 활용되면 그 이후엔 내부 정보, 산출물들에 대한 분류체계(BRM) 시스템을 구축합니다.

 

분류체계 시스템의 경우, 기업들이 내부적으로 별도의 데이터 분류체계 구축을 위해서 들이는 노력과 그에 대한 기대는 대단히 크지만 실제로 구현된 결과물들은 기대에 미치지 못해 제대로 활용하지 못하는 경우가 대다수 입니다. 시스템 구축에 있어 초기의 분류체계 설정도 중요하지만 구축 후에 필연적으로 발생할 수 밖에 없는 비정형 데이터들에 대한 대안도 중요하기 때문이죠. 이러한 부분에 대한 계획이 없다면 구축된 시스템은 장기적으로 성공적 운영이 어렵고, 일정기간이 지난 후에도 대대적인 재 구축 작업을 진행할 수 밖에 없는 상황이 반드시 옵니다.

 

일반적으로 기업이 생산하는 정보의 75%는 미리 설계된 방식으로 생산되는 것이 아니라 이메일, 전화, 회의, 사내 메신저 등을 통해 생성되는 비정형 데이터들이라고 합니다. , 기업의 주요 의사결정 과정에서 시스템적으로 사용될 수 있는 정형 데이터는 겨우 25% 내외라는 것이죠. 이 때문에 최근 중요도가 높아지고 있는 것이 정보 자동분류 시스템입니다.


 

 

활용도 측면에서 텍스트의 재발견은 그 응용 범위를 제한하기 쉽지 않습니다. 최근 국내외 기업들이 소개하는 추천 또는 개인화 시스템들의 근간에도 텍스트 분석이 자리하고 있습니다.

  



 
Keyword Topic Network Analysis

 

최근 시장과 고객들에게 지속적으로 요청 받는 기술은 주제어에 대한 연관관계 분석 machine-learning을 바탕으로 하는 의미기반 검색입니다.



                                            Topic Network Analyzer 시스템 구성



초등학생이 숙제를 하기 위해서는 이제 인터넷 검색은 필수가 됐고 사람들은 때와 장소에 구애 받지 않고 인터넷에 접속, 원하는 정보를 찾을 수 있습니다. 하지만 인터넷 환경의 발달로 온라인 정보는 기하급수적으로 늘어나 찾고자 하는 정보를 한번의 키워드 매칭 검색만으로는 찾을 수 없는 실정입니다. 원하는 결과를 얻기 위해서는 몇 차례의 키워드 검색과정과, 다시 그 결과 안에서 새로운 정보를 찾아야 하죠.



                                          문서 내에 등장하는 주제어들을 추출
                                      (빈도수, Chunking level 기반 점수로 정렬)


이러한 문제를 해결하기 위해서는 텍스트간의 관계나 의미분석이 필요합니다. 이를 위해 현재의 인기 키워드나 검색에 사용한 주제어가 다른 이슈들과는 어떤 관계로 나타나고 있는지를 미리 시각적으로 볼 수 있는 방법을 검색엔진 벤더 별로 여러 유형들을 내놓고 있으며 대형 포털 에서도 시험적으로 이러한 분석 결과를 제공하고 있습니다. 하지만 사전관리와 다국어 처리에 있어서 아직 뚜렷한 차이점을 보이지는 않고 있어 개선 및 고도화에 대한 고민은 앞으로도 지속돼야 할 부분입니다.



- 스스로 공부하는 검색엔진 : Machine-Learning, Sentiment Analysis

한국에도 조만간 출시된다는 Apple iPhone 4GS에서 가장 먼저 시험해보고 싶은 기능은 바로 시리(Siri)입니다. 과연 시리는 이런 질문을 이해할까요? (물론 한국어 서비스를 시작한 후에 가능하겠지요)

“대구에서 대구탕을 제일 잘하는 곳이 어딜까?”, “미국의 서울은 어디지?”

                                     출처: http://www.apple.com/iphone/features/#siri



 

 

어떤 대답을 할지 무척 궁금합니다.
Apple 시리 외에 Google Voice와 같은 음성 인식 기능들이 우리나라와 같이 정보화 기기의 의존도가 높은 지역에서 유용하게 쓰이려면 변환된 텍스트들에 대한 의미분석이 기반이 돼야 실제로 도움이 될 수 있을 것입니다.

검색시스템에서 ‘의미’라는 것은 아직 지극히 제한된 의미의 것입니다.
사람이 제공하는 메타정보를 바탕으로 그것을 이해하여 ‘의미’에 따라 정보를 통합하여 제공할 수 있어야 합니다. 현재 이를 구현하는 방법은 Tim Berners Lee가 언급했던 것처럼, 다수 사용자들에 의한 메타 data 제공방식에 기반을 두고 각 검색엔진 마다 내부 분류체계에 의해 일종의 name space로 분류하는 형태로 제공되고 있습니다. 결국 ‘의미기반 검색’도 아직은 각종 사용자 사전들을 활용하고 이를 뒤에서 열심히 업데이트 해주는 주인님의 손길을 필요로 하는 상태인 것이죠.

많은 발전을 거듭해오고, 특히 특정 언어처리가 필요한 국가별 검색시장은 진입자체가 쉽지 않은 상황이지만 이러한 상황을 수성하고 발전하기 위해서는 자연어 처리와 machine learning을 가미한 인공지능 기술이 지속적으로 상호 보완되어야 할 것입니다.


저작자 표시 비영리 변경 금지
크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by (주)코난테크놀로지

트랙백 주소 : http://blog.konantech.com/trackback/72 관련글 쓰기

댓글을 달아 주세요

2011년 미디어 시장의 기술 트렌드를 키워드로 짚어보자면, ‘N스크린 '3D' 라고 하겠습니다. 이중에서 3D 는 조금 복잡하므로, 나중에 기회가 되면 다루기로 하고, 이번 포스트에서는 코난테크놀로지 (이하 KONAN)’ 의 미디어서비스부문과 좀 더 연관성이 있는 ‘N스크린’, 그 중에도 콘텐츠 관리 솔루션에 대해 다뤄보려고 합니다.

 

N스크린 개념의 등장!

원래 ‘N스크린의 시작은 AT&T 가 처음 주창한 '‘3스크린전략' 이라는 개념에서부터 출발하였습니다. 좀 더 포괄적 관점으로는 '컨버전스 3.0' 의 일종이라고 보기도 합니다.

(참고: 컨버전스 3.0 에 대한 보다 자세한 내용은 여기를 참고하시면 좋겠습니다.)



<그림1. 3스크린>

 

말 그대로, ‘3스크린이란, ‘휴대폰+PC+TV’ 3가지 기기를 인터넷으로 연결하여, 각각의 기기에서 동일한 콘텐츠를 끊김 없이 (seamless) 이용한다는 개념입니다. 2009년쯤에 정립되기 시작한 이 개념이 얼마 가지 않아 ‘N스크린이란 용어로 슬그머니 바뀌게 되는데, 이 시점은 우습지만 애플의 아이패드가 등장하면서부터입니다. 4의 기기가 등장한 것이죠. 이를 계기로, 평판 디스플레이의 급속한 발달이 가속화되었으며, 이젠 어느 기기에서나 - 심지어는 냉장고에도 - 디스플레이를 적용할 수 있게 되었고, 그 다분화 가능성이 높아지면서 몇 가지 기기를 지칭하는 ‘3스크린이란 용어가 적절치 못하다고 판단, 새로운 스크린 혹은 많은 수의 스크린이란 뜻으로, 'N' 을 붙이게 된 것입니다.

그런데, 엄밀히 말하면, ‘N스크린‘3스크린을 포함한 좀 더 다른 뜻을 내포하고 있습니다. , 단지 seamless 서비스만을 뜻한다기 보다는, 클라우드 컴퓨팅과 멀티태스킹의 의미가 더해졌다고 볼 수 있습니다. 예컨대, ‘3스크린은 하나의 컨텐츠를 일방적으로 서비스하며, 소비자는 어느 특정 시기에는 하나의 기기에서 하나의 콘텐츠만 소비하는 개념, 즉 싱글 태스크 (single task) 가 기반이었습니다. 반면, ‘N스크린의 개념에서는, 콘텐츠 전달의 양방향성과 소비의 다중성이 추가되었지요.

예컨대, 스마트폰으로 영화 아바타를 보다가, 집에 가서 IPTV 로 이어서 보는 것이 ‘3스크린이라면, 스마트TV 에서 영화를 보면서 스마트폰으로 사진을 업로드하고, 동시에 TV 에서 이메일이나 메신저를 사용하는 등 멀티 태스킹이 가능한 서비스가 ‘N스크린이라고 보면 되겠습니다. 따라서 ‘N스크린서비스는 ‘3스크린을 포함하는 좀 더 포괄적 개념의 신개념 미디어 서비스인 것 입니다. 

그럼에도 불구하고, 연초까지 한창 ‘N스크린이란 용어가 난무하다가 하반기에 들어서는 차츰 잦아드는 모양새를 보이고 있는데, 이것을 두고 ‘N스크린이 쇠퇴하고 있다거나 실패한 모델이라고 오해해서는 안 됩니다. 단지 이제는 이 서비스 모델이 일반화되어 가고 있기 때문에, 굳이 트렌드라고 일컫지 않아도 되는, 보편화 시기에 도래했다고 보는 것이 합당하다고 생각합니다. IT 시장에서 각종 클라우드 컴퓨팅이란 용어가 점차 잦아 드는 것과 같은 원리지요.

‘N스크린과 클라우드 컴퓨팅/서비스가 대세가 될 것임은 자명하며, 이미 현재진행형입니다. 이제는 그 세부적인 분야들이 구체화되고 상용화됨으로써, 마케팅 용어로 어필했던 용어들이 일반명사화되어 시끄럽게 떠들지 않게 된 것뿐입니다. 

‘N스크린에 대한 보편적 정리는 떠도는 정보들이 많이 있으니, 이쯤 하기로 하고, 이제 좀 더 안으로 들어가서, ‘N스크린의 이면, 즉 인프라에 대해서 짚어보겠습니다.

 

<그림2. 유통 단계로 본 ‘N스크린’>

<그림2> ‘N스크린서비스를 아주 간단하게 표현한 것입니다. ‘N스크린은 결국 각종 미디어 콘텐츠를 유통하고 서비스하는 시스템이므로, “콘텐츠 공급자 (Contents Provider, 이하 ‘CP’) – 콘텐츠 집중관리자 (Contents Aggregator) – 소비자 (End customer)” 3단계 유통 구조를 갖습니다. 언뜻 보면 기존의 VOD IPTV 같은 개별 서비스와 다를 바 없어 보이지만, 원칙적으론 그것이 맞습니다.

그런데, 여기서 주의할 점은 CP 와 소비자가 불특정 다수라는 것에 있습니다. ‘불특정 다수의 의미는 단지 수가 많다라는 의미가 아니라, “각기 다른 형태의 CP, 각기 다른 소비 형태가 많다라는 뜻입니다.

예를 들면, 기존의 VOD 서비스의 경우, WMV FLV 든 사이트에서 특정 기준 포맷을 정하면, CP 들도 기준 포맷에 일치하는 포맷의 영상으로 가공하여 공급해 왔습니다. 서비스의 대상도 고해상도/고용량을 처리할 수 있는 PC/PMP 를 대상으로 하거나, 아니면 저용량/저해상도 대상의 모바일 기기만을 선택하여 서비스하였지요. 따라서, 서비스공급자인 VOD 시스템에는 서비스용 포맷의 콘텐츠만 보관하고 관리하였고 이런 구조적 문제로 최근처럼 하루가 멀다 하고 새로운 포맷의 기기, 천차만별의 코덱이 난무하는 상황에 대해서는 대응이 매우 곤란한 것입니다. 새로운 기기를 위한 포맷의 콘텐츠를 CP 가 다시 공급해야 하는 문제가 발생하기 때문입니다. 이미 수백~수만 건의 콘텐츠를 공급했는데, 새로운 기기/포맷이 나올 때마다 다시 재작업하여 준비한다는 것은 상식적으로 불가능하고 또한 모든 CP 들이 동시에 그런 가공 툴을 구비할 수도 없는 노릇입니다. (현재도 이런 문제로 일부 기기에서 동시에 서비스 되지 않는 콘텐츠가 상당 부분 존재하죠.)

게다가, ‘N스크린서비스를 위해서는 하나의 콘텐츠가 소비 기기의 형태에 따라 전혀 다른 서비스 경로를 따라야 합니다. ‘소녀시대이란 음악은 AOD , 뮤직비디오는 VOD , TV 로 보려면 IPTV , 휴대폰으로는 모바일 네트워크로 서비스 되어야 합니다. 결국 이란 콘텐츠는 하나이지만, 서로 다른 서비스를 위해서는 서로 다른 포맷으로 가공되어야 하는 것입니다. 물론, 이론적으로는, 각각의 서비스가 이미 구축되어 있는 서비스 채널들이 서로의 고객 정보와 보유 콘텐츠 정보를 교환하고, 콘텐츠의 위치를 개방함으로써 서비스 통합을 이룬다면 현재의 상태에서도 ‘N스크린전환이 가능하다고 볼 수도 있습니다.

그러나, 그것은 이론일 뿐이고, 실제 상황에서는 현실적인 문제가 발생합니다. 일단 같은 계열사가 아닌 다음에는 서로의 영업비밀에 해당하는 고객 정보나 콘텐츠 수급 상태를 공유하기 쉽지 않습니다. 만약 대승적 차원에서 혹은 계열 통합 목적으로 시스템 정보를 통합한다 해도, 수시로 서비스 포맷이 바뀌어야 한다면 콘텐츠의 수급이나 새로운 기기의 출현에 즉각 대응하기 어려운 난제는 여전히 해소되기 어렵습니다.

따라서, ‘N스크린서비스를 위해서는 Contents Aggregator 가 기존의 개별 서비스와는 약간 다른 구조를 가져야 합니다.



<그림3. 시스템 구성으로 본 N스크린>

<그림3> <그림2>를 좀 더 구체화한 것입니다. 그림에서 보듯이, ‘N스크린서비스 플랫폼은 기존에 존재하던 시스템의 가상의 집합체이며, 소비자와의 접점을 이룹니다. 이들 시스템은 상호간 서비스 연동, 즉 데이터/정보 통합을 구축한 후, 이면에 ‘Contents Warehouse (콘텐츠 통합시스템)’ 를 두어 각각의 시스템에서 필요한 종류의 콘텐츠를 선별적으로 공급받아 서비스한다는 것이 콘텐츠 통합시스템의 기본 개념입니다. 콘텐츠만을 관리하는 통합 시스템이 존재함으로써, CP들은 서비스 시스템 각각을 위하여 원본을 일일이 가공할 필요가 없으며, 원본 하나만을 통합시스템에 등록해 두면 됩니다. 또한 기존 서비스를 하고 있던 서비스사업자도 현재의 설비를 바꿀 필요가 없어집니다. 사용자들 또한, 기존 서비스를 그대로 이용하면서 ‘N스크린서비스를 추가로 받을 수 있게 됩니다.


콘텐츠 통합시스템을 좀 더 들여다 보면, <그림3>과 같이, 기능적으로 크게 콘텐츠 허브 (contents hub)’ 스토리지 풀 (storage pool)’ 의 두 가지로 구성됩니다. ‘스토리지 풀은 말 그대로 콘텐츠를 저장해 두는 거대한 저장 공간이며, NAS/SAN 및 각종 Archive system 등의 온/오프라인 저장 시스템을 혼재하여 구성합니다. ‘콘텐츠 허브‘N스크린 서비스 플랫폼으로부터 요청을 받아 적절한 포맷의 콘텐츠를 가공하여 공급하는 분배/전송과 CP로부터 원본을 수집하여 스토리지에 저장/관리하는 역할을 수행하는 교환/관리 시스템입니다. 현재 미디어 시장에서는 모바일 기기와 스마트/3D TV 의 급속한 보급으로 인해, 콘텐츠 공급 부족 현상을 겪으면서, 신속하게 ‘N스크린을 구현하기 위하여, <그림3> ‘N스크린플랫폼에 해당하는 부분만 구현하고, 우선 서비스부터 런칭하는 경우가 많습니다. 따라서 때로는 AOD 서비스 혹은 포털쪽으로 VOD 가 합쳐지기도 하고, IPTV/VOD 쪽으로 AOD 가 합쳐지기도 하는 등, 사업적 세력이 큰 서비스 사업자를 기준으로 이합집산이 이루어지는 형국이지요.

그러나, 이런 조치들은 앞으로 일어날 모바일 및 미디어 관련 기기의 급격한 변화에 대응하기에 역부족입니다. DB 통합 / 망 통합 등의 서비스 레벨의 플랫폼은 대응할 수 있을 지 몰라도, 대용량의 미디어 콘텐츠를 연동하는 것은 매우 어렵습니다. 미디어 콘텐츠는 일반적인 IT / 통신 표준에 비해 표준 규격의 구속력도 약하고, 기기의 변화에 민감하게 대응되기 때문에, 콘텐츠를 표준화 하는 것 자체가 곤란하기 때문이죠. 따라서, 이를 서비스 플랫폼이 아닌 전문 콘텐츠 관리 시스템에서 집중 처리하는 프로세스가 강력히 요구됩니다.

다음 시간에는 콘텐츠 통합시스템 (contents warehouse)’ 의 내부를 좀 더 자세히 들여다 보면서, 구조적으로 어떤 역할을 수행하는 지 알아보도록 하겠습니다. <1부 끝>

 

 

 

저작자 표시 비영리 변경 금지
크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by (주)코난테크놀로지

트랙백 주소 : http://blog.konantech.com/trackback/67 관련글 쓰기

댓글을 달아 주세요

얼마 전 Apple에서 아이폰 4S와 함께 음성인식 및 인공지능 프로그램인 SiRi를 공개했습니다. 한국에서는 SiRi를 언제 사용할 수 있는지 많은 관심이 쏠렸었지요.

 

SiRi를 보면서 영화 아이언맨에 등장하는 자비스 시스템이 떠올랐는데, ‘오래 전부터 사람들이 꿈꾸어 오던 인공지능 비서가 현실로 다가오고 있구나라는 느낌이 강하게 들었습니다 

 

생각해 보면 자비스를 만들기 위한 각 개별 요소들에 대한 연구들은 상당 부분 진행되어 왔습니다. 그동안 발표된 기술들을 가지고 자비스 시스템 구현을 고민해 보았습니다.

 

시스템의 구성

아침에 일어나 주요 일간지 기사나 주가 정보 등 러프한 브리핑을 받고 대화형 인터페이스를 통해 관심 사항에 대한 추가 정보를 확인할 수 있습니다. 사용자는 집에서는 물론이고 스마트폰이나 태블릿PC를 이용해 시스템에 접근할 수 있습니다.


자비스 시스템

1. 하드웨어 구성
n  중앙 처리 장치, PC
   자비스를 상상해보면 정보처리 양이 냉장고나 TV가 수행할 수 없는 수준으로 가정에 있는 가장 똑똑한 장치인
   PC
를 중앙 처리 장치로 사용합니다.
n  주 정보 표시 장치, TV 
   음성정보를 출력하고 그래픽 기반의 UI를 출력하기 위한 거의 유일한 방법에 해당됩니다. PC모니터 등도 가능
   하지만 집에서 가장 접근성 좋은 곳에 위치한다는 최대 장점을 가지고 있습니다.
n  보조 정보 표시 장치, 스피커
   
화면 출력은 불가능하지만 가장 저렴한 가격으로 여러 곳에 설치가 가능합니다.
n  원격 정보 표시 장비 모바일기기
n  주 입력 장치 마이크 (N개 연결)
    원하는 방마다 설치할 수 있으며 차고에도 설치 가능합니다.
n   보조 입력 장치, 사용자 동작인지 디바이스
   
편리함을 위한 장치로 리모콘 Free / 키보드 Free 환경을 구성할 수 있는 유일한 수단입니다.

 

<그림출처:http://www.xbox.com/ko-KR/kinect?xr=shellnav>

 

  

2. 소프트 웨어 구성

■ 음성 인식 모듈: Voice -> Text(+meta)

이 시스템은 개인화를 지원합니다. 현재 일부 네비게이션은 이미 안드로이드의 Google voice 를 통해서 음성인식을 지원하고 있습니다.


■ 질의어 분석 모듈: Text(+meta) -> logical query (SQL 형태에서 일부 변형됨
)

이 모듈은 TEXT형태로 변환된 사용자의 입력을 논리식으로 변경하는 일을 합니다. 논리식의 형태는 SQL형태의 중간 언어로 구성하되 추론 연산을 위한 몇 가지 명령이 추가되어야 하며 질의어 분석을 위해서는 다양한 문장 패턴 수집이 필요합니다. 문장의 분석을 통해 보다 다양한 형태의 사용자 입력을 지원할 수 있습니다.

중요한 정확도의 경우 기계 번역 수준이 될 것으로 예상됩니다. 초기에는 복문에 대한 정확도를 기대하기 힘들 것이고, 간단한 단문을 대상으로 시작합니다. 기계 번역물은 사용자가 재검토하여 선택적으로 취하는 것과 달리 어설프게 이해한 문장은 필요가 없으므로 과감하게 버리고, 재입력을 요구합니다.
        

■ 지식망: 고속 정보 검색기 + 지식아카이브

    SQL타입의 중간 언어 쿼리에 대한 검색을 수행하는 검색엔진입니다.

 

■ 지식수집에이전트: 정형데이터 수집기 / 비정형 데이터 수집기

   수집에이전트는 인터넷 상의 정보를 수집해서 지식망에 등록하는 역할을 합니다. 수집대상은 정형 데이터를 대상
   으로 하며 비정형 데이터의 경우 구조화를 통해 비정형 데이터로 접근하는데, 이 부분은 PC레벨에서 처리할 수
   없으므로 포털 수준의 검색을 활용합니다.

 

N-Screen 유저 인터 페이스

   기존의 웹 검색이나 데스크탑 검색의 UI TV와 스피커를 기본으로 사용하는 환경에서는 제한적이며 기존 검색
   결과처럼 깨알같이 보이는 작은 활자로는 사용자에게 도움이 되지 않습니다. 따라서 텍스트 정보는 최대한 줄이고
   그래픽적인 요소를 부각시키는 형태가 됩니다. 리모콘과 키보드에 자유로운 환경에서 동작 인지 입력에 대응하기
   위한 새로운 UX가 필요할 것입니다.

 

 

, 그럼 생활에서의 활용 예를 생각해볼까요?

 

퇴근 후 시원한 맥주한잔이 생각나는 시간, PC를 켜고 'XX치킨'을 검색하여. 전화번호를 찾아 치킨을 주문하는 대신에 위의 홈 정보화 시스템을 이용하면 좀 더 나은 선택을 할 수 있을 것입니다.

 

"뭐 좋은 안주꺼리 없을까?" 라고 말을 하면 연결된 마이크를 통해 시스템에 쿼리가 전달됩니다.

전달한 쿼리는 질의어 분석 모듈을 통해 logical query로 변환됩니다.

 

 안주는 쿼리 확장을 통해 세부적인 질의어로 확장

확장 쿼리 목록은 비정형 데이터 분석을 통해 얻어집니다. 블로그 등의 글에서 "XX는 안주로도 좋습니다" 와 같은 학습을 통해 얻어집니다.     

 

홈 정보화 시스템은 기본적으로 지역검색을 사용

아마도 논리적인 검색식은 아래와 같이 될 것 같습니다.

‘select 메뉴 from (배달전문점 or 테이크아웃점)  where distance<50m AND isopen($NOW) orderby 인기도 with FRIEND’

 

검색결과를 도출하기 위한 세부적인 논리 구조

집의 GPS 정보가 필요한 부분은 PC에 주소를 등록하면 나오는 GPS 좌표를 사용합니다. 식당 및 메뉴 정보는 전문 사이트에서 수집합니다. 대부분의 사이트에는 정형화된 형태로 정보가 존재할 것이며 이는 간단한 웹문서 파싱을 통해 해당 정보를 수집할 수 있습니다. 인기도의 경우 모든 검색 항목은 별도 랭킹식을 통합니다. 수집 대상의 경우 사이트 리뷰 점수를 기본으로 사용하지만 친구들의 SNS 체크인 정보가 가장 중요한 요소가 됩니다.

 

 logical query 는 지식망에 전달되고, 지식망은 갖고 있는 지식을 통해 최선의 결과를 도출합니다. 이 과정에서 이미 축적된 지식(지식 아카이브)을 사용할 수 있고, 필요 정보를 추가 수집할 수 있습니다추가 수집된 정보는 지식 아카이브에 저장됩니다.

지식 아카이브 검색은 대부분의 경우 연속적인 복수의 검색을 통하게 됩니다. 아마도 조금씩 후보를 줄여나가는 형식이 될 것입니다. 여러 번의 검색이 발생하겠지만, 개인용 시스템이기 때문에 사용자의 인내 범위 내에서 처리가 될 수 있을 것입니다.

 

검색된 결과(추천결과)는 요약문 생성기술을 통해 TTS 를 통해 사용자에 전달됩니다때로는 이미지가 추가되는 형태로 전달 될 수도 있습니다. 예를 들면 집 근처의 지도가 펼쳐지고 배달 가능 지점과 테이크아웃 전문점의 위치가 표시됩니다. 영업시간이 끝난 지점은 자동 필터링 되어 표시됩니다.

 

웹페이지의 결과와는 달리 N-Screen 에 적합한 새로운 UI도 생각해 볼 수 있습니다. 코난테크놀로지의 i-시맨틱과 같이자사에서 생각해본 새로운 검색 결과 UI (i-semantic)에 동작 인식을 추가한 형태가 될 수 있습니다.

 

 코난테크놀로지 i-시맨틱 관련 뉴스 보기 
 

사용자는 추천 결과를 검토하고 다른 추천을 요구할  있습니다. 이 액션은 음성 또는 동작으로 수행이 가능합니다.




엔진은 다른 요구가 있을 경우 추천결과 풀에서 차선책을 제공할 수 있으며, 사용자의 추가 조건으로 검색 결과를 재조정할 수 있습니다

 

위에 까지 그려본 내용을 기초로 하여 정리하면 다음과 같은 기술들이 자비스에 필요하다고 볼 수 있습니다.  

1. 음성인식기술 / TTS

2. 쿼리분석기술

3. 지식 검색 및 지식 저장 구조

4. 지식 획득 구조

5. N-Screen 기반의 신규 검색 UI

 

검색 솔루션 기업은 상기 필요 기술 중 많은 부분을 확보하고 있으며 또 많은 부분을 진전시켜 왔습니다. 지식 획득 구조는 그간 웹크롤링 기술 연구 및 네이트에 적용된 시맨틱 분석 기술을 통해 기초가 마련되어 있고 웹크롤링 경험을 통해 보다 보다 많은 정보를 수집하고 정제할 수 있는 방법을 제공할 수 있습니다. 지식 검색 및 지식 저장 구조는 검색 엔진의 기본 기능으로 충분한 경험을 축적하고 있고 N-Screen 기반 UI는 현재 연구가 진행 중에 있습니다.

 

어떠신가요? 아이언맨 영화와 애플의 SiRi 발표를 보고 상상의 나래를 펼치고 있습니다만, 사용자들이 보기엔 부족할지는 몰라도 제법 재미있는 수준의 자비스를 만드는 길은 멀지 않은 것 같습니다.

 

 

 
저작자 표시 비영리 변경 금지
크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by (주)코난테크놀로지

트랙백 주소 : http://blog.konantech.com/trackback/65 관련글 쓰기

댓글을 달아 주세요

  1. Watson 2011/11/10 08:03  댓글주소  수정/삭제  댓글쓰기

    전 기계가 제 말을 알아듣고 대화하며 명령을 수행해 준다면..그 이상 좋을 순 없을 것 같아요..자비스 같은 비서라면 더요! ^^

    • (주)코난테크놀로지 2011/11/10 09:37  댓글주소  수정/삭제

      네! 필요한 기술들이 속속 개발되고 또 발전을 거듭하고 있다고 하니 곧 만나게 되지 않을까 많이 기대됩니다! 대신 Siri와 반대로 한국에서 먼저 출시되고 다른 나라들이 자국어 서비스 시작하기만을 기다리게 된다면 더더욱 좋지 않을까 싶네요.^^