요새 시맨틱 웹 검색이라는 개념의 검색서비스가 포털 사이트를 중심으로 많은 곳에서 제공되고 있는데요~

이번 포스팅에서는 시맨틱 웹 검색이 무엇인지, 그리고 이와 관련된 대표적인 사례들을 소개하면서 앞으로의 시맨틱 웹이 가지는 영향에 대해서 한번 이야기 해 볼까 합니다.

그럼 우선 시맨틱 웹에 대해서 위키디피아에 나온 정의를 통해 간단히 살펴보도록 하겠습니다.

시맨틱 웹(Semantic Web)은 현재의 인터넷과 같은 분산환경에서 리소스(웹 문서, 각종 화일, 서비스 등)에 대한 정보와 자원 사이의 관계-의미 정보(Semanteme)를 기계(컴퓨터)가 처리할 수 있는 온톨로지형태로 표현하고, 이를 자동화된 기계(컴퓨터)가 처리하도록 하는 프레임워크이자 기술이다. 웹의 창시자인 팀 버너스 리가 1998년 제안했고 현재 W3C에 의해 표준화 작업이 진행중이다.

2001년 팀 버너스리등에 의해 웹 기술의 비젼으로 시맨틱웹이 제시되었다. 시맨틱웹은 기존 웹을 확장하여 컴퓨터가 이해할 수 있는 잘 정의된 의미를 기반으로 의미적 상호운용성(semantic inteoperability)을 실현하여, 다양한 정보자원의 처리 자동화, 데이터의 통합 및 재사용등을 컴퓨터가 스스로 수행하여, 인간과 컴퓨터 간의 효과적인 협력체계를 구축하기 위한 것이다. 즉, 시맨틱웹은 컴퓨터가 웹 정보자원의 의미를 이해하고, 정보의 검색, 추출, 해석, 가공등 제반 처리를 사용자를 대신하여 지능형 에이전트(intelligent agent)가 수행하는 컴퓨터 중심의 기술이다. 일반적으로 시맨틱웹의 개념은 그림1(b)로 표현할 수 있으며, 3가지 주요 요소로 구성된다.

Semantic web service.jpg

온톨로지(ontology)

온톨로지는 도메인의 공유된 개념화(conceptualization)에 대한 형식적 명세체제로서, 도메인 어휘의 의미 정보를 표현한다. 온톨로지는 일종의 지식 표현(knowledge representation)으로, 컴퓨터는 온톨로지로 표현된 개념을 이해하고 지식처리를 할 수 있다. 추론, 증명등의 처리에 온톨로지의 공리(axiom)와 규칙(rule)이 사용되며, 규칙 표현을 위해서 별도의 규칙 언어가 사용된다.

● 의미적으로 주석화된 웹(semantically annotated Web)

온톨로지로 주석화된 웹 정보 자원은 일종의 지식베이스를 형성한다. 시맨틱웹에서는 온톨로지의 의미적 상호 운용성을 기반으로 인터넷의 분산 정보 자원을 의미적으로 통합한 거대한 지식 베이스를 구축할 수 있다.

에이전트(agent)

인간(사용자)를 대신하여 정보 자원을 수집, 검색하고 추론하여, 온톨로지를 이용해서 다른 에이전트와 상호 정보 교환등의 일을 수행하는 지능형 에이전트이다. 지능형 에이전트는 시맨틱웹 기반 응용 서비스의 핵심 요소라 할 수 있다.


그렇다면 지금까지 살펴본 시맨틱 웹을 기반으로 한 시맨틱 웹 검색이란 것이 어떤 의미를 가지고 있고 기존의 검색 서비스와 어떻게 다른지 사례를 통해서 살펴보도록 하겠습니다.

먼저 시맨틱 웹 검색이란 어떤 검색을 말하는 것일까요?

시맨틱(semantic) 검색은 한 마디로 뜻을 이해하는 검색입니다. 기존 키워드 기반 검색에서 진화한 차세대 검색 기술로 주목받고 있습니다. 기본적으로 사용자의 검색 의도를 분석하고, 주제를 분류해서 다양한 검색결과 값을 보여주는 형태를 시멘틱 검색이라고 합니다.

앞서 살펴봤던 시맨틱 웹에 대한 개념을 다시한번 생각해 보도록 하겠습니다. 시맨틱웹은 컴퓨터가 정보의 의미를 이해하고 이를 개념으로 정의하여 개념과 개념과의 관계를 설정한다는 것으로 사람의 판단이 개입되지 않고 자동화된 에이전트에 의해 검색이나 새로운 지식의 생성이 가능한 웹이라는 의미입니다. 시맨틱 검색을 이 개념에 비추어 본다면 검색엔진이 판단하여 검색결과의 중요성을 결정하고 검색결과에 대한 순위를 매긴 후 중요한 검색결과가 먼저 오게 조정 할 수 있음을 의미합니다.

간단한 예를 들어 보겠습니다. 검색창에 '해리포터' 라는 키워드를 쳤을 때 (스폰서링크를 제외하고) 가장 먼저 나와야 할 검색결과는 무엇일까요?  해리포터 영화? 해리포터 책? 해리포터 게임? 영화라면 1편인 마법사의 돌? 7편인 혼혈왕자?

현재 네이버나 다음음 검색결과에는 영화 해리포터 7편의 메인페이지가 가장 먼저 나오고있습니다. 왜냐하면 지난 여름 이 영화가 개봉 되었기 때문입니다. 만일 해리포터 책 8권이 나 프리퀄 같은 책이 나온다면 그 시점을 전후해서는 그 책의 정보가 가장 먼저 나올 것입니다.

이렇듯 같은 키워드에 대응하는 검색결과라도 시점이나 화제성, 트랜드에 따라 검색결과의 순위는 바뀌어야 하는데 네이버나 다음 검색에서는 이를 사람이 판단하고 순위를 수동으로 조정합니다. 그래서 통합검색을 편집검색이라고 이야기 합니다. 해리포터 책이 나와 화제가 될 때는 책이 상단으로, 영화가 화제일때는 영화를 상단으로 조정합니다.



현재 키워드 검색이 키워드가 포함된 문서를 정확히 찾아 주는 것이라면, 시맨틱 검색은 검색 의도와 어휘 의미, 문맥 등을 종합적으로 판단해 결과를 제시해 주는 것이라 할 수 있습니다.. 사람이 문서를 읽어 의미를 이해하는 것처럼 기계가 의미를 분석하여 앞말과 뒷말의 인과관계, 문맥 등을 분석해 포착하며 종합적으로 지식 체계를 만들어 놓는 것입니다.

이와 같은 추세를 반영하듯이 최근 포털 쪽에서도 사용자에게 편리한 인터넷을 제공하기 위한 시도들이 더욱 적극적으로 수행되고 있습니다.

네이트를 운영하고 있는 SK커뮤니케이션즈는 지난 9월 검색어 뿐만 아니라 그와 유사한 의미를 갖는 다른 연관어를 찾아 사용자가 찾고자 하는 결과를 도출하는 '시맨틱' 검색이라는 새로운 서비스를 도입했는데요~ 이 기법은 구문이나 문장 분석에서 중요 주제어를 추출하고, 이에 대한 값을 찾는 자연어 처리기술을 뜻하는 기술입니다.

지금까지 'A의 나이'를 검색하면 이전에는 '나이'라는 단어가 들어간 것만 검색되고 '연세' '몇살'등으로 된 문장은 결과를 내놓지 못했지만 이 서비스를 이용하면 이러한 것까지 포함해 가장 많이 검색되고 가장 최신의 검색 내용이 제공되고 있습니다. 사용자의 의도를 최대한 파악해서 서비스 하겠다는 시도인 셈입니다.

 

네이트의 시맨틱 검색은 검색 결과를 문장의 의미별로 분류하고, 각각의 분류항목별로 예상답변을 제시함으로써 이용자가 원하는 검색 결과를 더욱 빠르고 정확하게 얻을 수 있도록 지원한다고 합니다.. 또 검색어에 대한 이해를 통해 관련된 다양한 주제들이 한눈에 펼쳐지기 때문에 키워드를 조금씩 바꿔가며 반복해서 검색하던 수고를 덜어주는 것입니다.

예컨대 피겨선수 ‘김연아’를 검색했다면, 최근 소식, 라이벌, 경기기록, 수상대회, 신체사항, 선호음식, 등 수십 개의 의미 주제어가 제공되고, 수상대회에 대한 예상답변으로 세계피겨선수권대회 등이 검색 결과로 제시되는 방식입니다.



정보 검색에 대한 두 가지 접근에서 보다시피 네이트가 이용한 (시맨틱) 기술은 전산학에서 꽤 오래된 분야로서 텍스트 분석, 자연어 처리, 인공 지능 분야에서 쓰이는 시맨틱 기술이라고 합니다.

SK컴즈는 이러한 시맨틱 검색 기술을 쇼핑몰에도 활용해 가격비교, 상품 정보, 상품 평가 등 사용자가 원하는 내용을 제공하는 내용을 제공하는 기술을 개발 중이라고 합니다.

국내 최대포털 네이버를 운영하는 NHN도 영화 검색과 관련한 시맨틱 서비스를 내놓은 데 이어, 최근에는 개인별로 맞춤형 검색 결과를 선보일 수 있는 서비스 개발에도 적극적으로 나서고 있습니다.

그 중 네이버에서 온톨로지 검색 차원에서 노력한 결과로 나온 것이 영화 시맨틱 검색입니다. 영화 콘텐츠 DB의 관계성을 RDF로 추출(Exporting)한 후 URI를 기반으로 그래프를 따라 의미를 쫓아가는 방식인데 앞서 소개한 네이트의 시맨틱 검색이 텍스트 형태의 문서를 데이터를 검색하기 위한 것이라면 네이버의 시맨틱 영화 검색은 데이터베이스에 저장되어 있는 구조화된 데이터에 대한 검색이라는 점이 다릅니다.

사용자가 검색창에 입력한 검색어를 많이 포함한 문서를 찾는 텍스트 기반의 기존 검색과는 달리 검색어를 온톨로지로 정의된 의미 기반으로 분석하여 해당 검색어에 대한 정답형 검색결과를 제공합니다.




이는 미리 제작해서 만들어 두는 것이 아니라 사용자가 입력한 키워드를 분석해 데이터 간의 관계 속에서 답을 찾기 때문에 검색할 때마다 매번 새로운 검색결과를 얻을 수 있다고 합니다. 이와 같은 시맨틱 웹 검색 방식은 구조화된 지식을 담고 있는 그릇이 필수적이라고 할 수 있습니다. 포털의 경우, 영화나 음악 같은 DB를 RDF로 관계를 정하고 이를 URI 기반으로 사용자 콘텐츠와 유기적으로 엮음으로서 좀 더 의미적인 시맨틱 웹 검색이 가능할 것이라고 합니다.

위키피디아를 통해 웹에서 구조화된 데이터가 가능 하다는 것을 보여준 이후, 이를 RDF 방식으로 변환 시킨 DBPedia라는 프로젝트로 인해 크게 바뀌었습니다.  LinkedData라고 불리는 이름으로 RDF 기반으로 데이터 웹을 구조화 시키거나 RDFa나 마이크로포맷 같은 방식으로 HTML 의미 마크업을 시도하고 있는 것입니다.
사용자 삽입 이미지


구글의 스퀘어드
나 MS가 인수해 Bing에 추가한 파워셋의 경우, 위키피디아의 구조화된 DB를 기반으로 하는데 시맨틱 웹 검색의 시초라할 수 있는 하키아 역시 LinkedData를 기반으로 하고 있고 일부 NLP 기술을 반반씩 섞고 있는 상태입니다.

이 밖에도 요즘 큐로보와 아울림이라고 하는 검색엔진이 시맨틱검색 서비스로 잘 알려져 있습니다.

큐로보(http://www.qrobo.com/)는 검색시 '한뼘요약'이라고 하는 공간에 검색하는 사람이 찾고자 하는 것에 가장 적합한 검색결과를 보여준다고 알려져 있습니다. 실제로 큐로보를 방문해 보면 기존 포털사이트와는 조금 색다른 검색 기능들이 많이 보였는데 그 중에서도 가장 대표적인 것이 쿼리 분류(query classification; query categorization) 기능이었습니다.

예를 들어 마이클 잭슨이라고 검색해보면 다음과 같이 연예, 문화, 음악 등으로 분류된 결과가 나옵니다. 특정 카테고리 하나만 선택하지 않고, 각각에 얼마나 속하는지 퍼센트를 보여주는 것이 합리적인 시도로 보입니다. 이러한 한뼘 검색 기능을 활용하면 특정 키워드의 단어에 대해서 내가 원하던 카타고리의 정보들을 쉽게 조회할 수 있겠다라는 생각이 듭니다.



마지막으로 소개할 아울림(http://www.owlim.com/)은 솔트룩스에서 개발한 검색엔진으로 '보이는 검색'을 지향하고 있습니다.


마이클잭슨을 검색해보면 다음과 같이 나온다.



마이클 잭슨과 연관된 키워드를 마인드맵 형식으로 보여주고 있습니다. 그런데 한가지 눈여겨 볼만한 기능으로 검색창에 마이클잭슨를 입력하는 도중에 '마이'까지 입력했을때 뜨는 자동완성기능에 추가로 인물, 기관, 지역, 인공, 기타 등으로 키워드에 속성을 부여하도 있습니다. 동음이의어의 경우 검색하고자 하는 속성을 부여하면 원하는 검색결과를 얻을 수 있을 것이다. 이와 같은 것이 시맨틱검색에서 중요하게 생각하는 메타데이터인 것입니다. 


하지만 지금까지 선보인 시멘틱 웹 검색 서비스들이 이론상 시맨틱 웹의 원래 의도를 100% 반영하서 만족스러운 결과를 제공하고 있다고 보기는 힘들것 같습니다. 짧은 시간내에 전세계의 수많은 온톨로지를 구축하기가 쉽지 않고 그 기능도 제한적일 것이기 때문이다. 오히려 시맨틱검색의 검색DB가 훨씬 적기 때문에 더 나은 검색결과를 얻기 힘든 경우도 있습니다.

네이트의 시맨틱 검색을 통해서 이 부분에 대해 잠시 살펴보도록 하겠습니다. 네이트 시맨틱 검색에 '잭슨' 이라고 쳤을 때 네이트는 마이클 잭슨에 대한 검색 결과를 주로 보여주는데 과연 사용자들이 마이클 잭슨만 검색하냐 하면 그것은 아니라는 것입니다. 영화감독인 피터잭슨이나 영화배우 사무엘 L 잭슨, 동생인 재닛 잭슨 일 수 도 있고 또 다른 가수인 잭슨 브라운일수도 있고 미술가인 잭슨 폴록 일수도 있습니다.


네이트의 시맨틱 검색에서 미국의 포크가수인 '잭슨 브라운'을 검색한 결과입니다. 잭슨 브라운과 금호생명은 어떤 관계가 있길래 잭슨브라운의 활약이라는 검색결과에 금호생명의 승리소식만 검색결과에 나올까요? 시맨틱 검색이 진정으로 구현되었다면 검색엔진은 '잭슨 브라운'이라는 단어가 '미국의 포크가수' 라는 의미로서 인식한다는 것이고 기사내에 잭슨 브라운이라는 단어는 금호생명의 '잭슨'과 '브라운' 이라는 선수이름이라고 판단 해야하므로 이 검색 결과에서 제외 시켰어야 합니다.

네이트 공식 검색블로그(http://natesearch.egloos.com/10158929) 에 따르면, 검색어 포함 매칭 방식과, 시멘틱 검색을 유기적으로 융합시켜 사용자에게 다양한 결과를 보여 주도록 한 서비스. 검색의 의미 분류를 좀더 쉽고 편하게 볼 수 있도록 디자인 된 서비스 라고 설명하고 있다.

여기에서 Key Point는. 사용자의 검색 의도 분석과, 문서 저작자의 저작의도 분석이 함께 이루워 져야 한다는 것. 사용자의 Needs 는 대부분 간단한 키워드로 이루어진 쿼리이므로, 비교적 사용자의 검색 의도 분석은 손쉬운 편이나, 장문의 글로 이루어져 있는 문서에서 작자의 의도 혹은 주체가 되는 객체를 찾아 내는 것은 쉽지 않은 일입니다.

이처럼 앞으로도 시멘틱 검색은 가야할 길이 멀다고 할 수 있습니다. 아직까지 검색의 대상이 되는 객체의 수에 한계가 있고, 더불어 분류로 보여지는 속성값들도 한계가 보인다. 특히나 가비지라고 불리는 잘못된 정보, 혹은 정형화 되지 안은 정보들이 많이 노출되어, 정확한 정보를 전달하는 것이 목적인 검색의 근본적인 목적에 부합되지 않을 수도 있습니다.



결론, 시맨틱 웹의 미래..

지금까지 시맨틱 웹의 다양한 적용 사례를 통해 시맨틱 웹이 지향하는 부분이 어떠한 점인지에 대해서 어느정도 이해할 수 있었다고 생각합니다. 기존의 검색서비스의 한계를 뛰어넘어 좀 더 사용자의 의도를 파악한 서비스를 제공하겠다라는 취지로 많은 새로운 시도들이 있었고 상용화되어 실제 서비스로 구축되서 제공되고 있습니다. 물론 아직까지는 온전히 사람의 손길을 배제한 자동화된 검색 서비스를 제공하기까지는 좀 더 많은 노력과 시간이 요구될 것이라고 할 수 있을 것입니다.

통신 및 인터넷 업체들의 이러한 행보는 인터넷 산업이 단순한 정보 제공의 차원을 넘어 개인별로 특화된 서비스를 제공하는 맞춤 형태로 전환되는데 따른 것으로 분석할수 있을것입니다. 개인이 수많은 정보 속에서 자신이 필요한 정보를 고르는 게 아니라 서비스 시작부터 원하는 것만을 선택적으로 제공함으로써 시간을 최소화하겠다라는 의도라고 할 수 있습니다.

이러한 서비스들이 궁극적으로 지향하는 바는 정보 소비자들이 원하는 내용을 최대한 빠른 시간에 제공하겠다는 것이며 이러한 의미에서 사용자의 의도를 정확히 파악하고 개인별로 최적화된 정보를 제공하는 맞춤 서비스는 앞으로도 계속해서 주목을 받을 것이라 생각합니다.

사실 이용자들이 키워드 검색을 더 좋아할지, 시맨틱을 더 좋아할지, 시맨틱이 기존 기술의 보완이 될지 대체가 될지 더 지켜봐야 하겠지만 검색 결과와 소구하는 바가 다르며 특히 시간 절약 측면의 가치가 분명히 크다고 할수 있습니다.

앞으로의 시맨틱 웹의 발전 역시 많은 사람들의 필요를 얼마나 잘 반영하느냐에 달려있지않을까 생각해봅니다.

Reference

http://ko.wikipedia.org/wiki/%EC%8B%9C%EB%A7%A8%ED%8B%B1_%EC%9B%B9
http://searching.egloos.com/2443646
http://blog.creation.net/403
http://cykaneys.tistory.com/93
http://natesearch.egloos.com/10158929
http://blog.naver.com/naver_search/20093206367
저작자 표시

Trackback Address :: http://phenix4u.tistory.com/trackback/36 관련글 쓰기

댓글을 달아 주세요

  1. joongs 2009/11/16 11:54 Address Modify/Delete Reply

    내용이 좋네요. 네이버 시멘텍웹 검색 서비스는 Silverlight 를 이용해서 굉장히 잘 만들어진것 같더군요.