머신 러닝 파워드 애플리케이션 (저자: 파노스 알렉소풀로스)

머신 러닝 파워드 애플리케이션 (저자: 파노스 알렉소풀로스)

추천하는 대상:

  • 데이터 모델을 개발하거나 체계를 구축하는 업무를 하시는 분

한줄평: 데이터는 금가루가 박혀있는 원석. 시맨틱 데이터 모델링은 원석을 정제해서 금가루를 모아 금괴로 만드는 기술.

시맨틱 데이터 모델링이란

데이터는 그냥 쌓아둔다고 좋은 것이 아니다. 데이터는 사용이 가능하도록 분류하는 과정을 거쳐 저장되어야 적절히 사용할 수 있다. 지극히 당연한 이야기지만, 데이터를 분류할 때 어떠한 의미를 부여할 것인지에 대해 생각해보자면, 막막할 때가 많다.

그렇기에 시멘틱 데이터 모형화 방법론을 적용하여 데이터에 의미를 부여하는 것이 하나의 방법이 될 수 있다.

시맨틱 데이터 모형화란 인간과 컴퓨터 시스템에서 모두 명료하고 정확하며 일반적으로 이해되는 방식으로 데이터 표현을 개발하는 일이라고 정의할 수 있다.

이러한 방식으로 데이터를 표현하게 되었을 때 우리는 전산에서 데이터를 활용하며, 동시에 데이터를 공통된 의미로 정의하여 다른 사람들도 이해할 수 있어 효율적이고 관리가 용이하다.

따라서 시멘틱 데이터 모형화 기술은 우리가 흔히 접할 수 있는 E-R 모형(entity-relationship model)이나 메타데이터 뿐만 아니라, 어떠한 분야의 지식 체계를 정리하는 온톨로지(ontology), 택소노미(taxonomy) 등에도 모두 적용된다.

시맨틱 모형과 온톨로지? 텍소노미?

온톨로지와 텍소노미, 분류체계라는 정의는 매우 생소하다. 사전적 정의를 참고하자면 다음과 같다.

온톨로지?

온톨로지(Ontology)란 사람들이 세상에 대하여 보고 듣고 느끼고 생각하는 것에 대하여 서로 간의 토론을 통하여 합의를 이룬 바를, 개념적이고 컴퓨터에서 다룰 수 있는 형태로 표현한 모델로, 개념의 타입이나 사용상의 제약조건들을 명시적으로 정의한 기술이다. 온톨로지는 일종의 지식표현(knowledge representation)으로, 컴퓨터는 온톨로지로 표현된 개념을 이해하고 지식처리를 할 수 있게 된다. 프로그램과 인간이 지식을 공유하는데 도움을 주기 위한 온톨로지는, 정보시스템의 대상이 되는 자원의 개념을 명확하게 정의하고 상세하게 기술하여 보다 정확한 정보를 찾을 수 있도록 하는데 목적이 있다. [위키피디아]

택소노미?

가나다, … ABC, …와 같이 표준화되고 체계적으로 분류된 전통적인 분류학 기반의 분류 체계. 트리형의 위계적 구조로서 이미 결정된 체계를 가지고 있다는 특징이 있다. 그리스어로 ‘분류하다’라는 ‘tassein’과 ‘법, 과학’이라는 ‘nomos’의 합성어로 사람들에 의해 이해되는 관계를 기준으로 분류되는 폭소노미(folksonomy)에 대비되는 용어이다. [네이버 지식백과]

온톨로지는 어떠한 개념이나 타입 등의 지식에 의미를 부여하여 정보시스템에서도 유용하게 활용할 수 있도록 의미를 명확하고 상세하게 부여하는 기법이라면, 택소노미는 표준화된 분류체계이다. 즉, 이러한 기술들의 공통된 점은 데이터의 의미를 명시하는 것이다.

택소노미의 예시

2022년 2월 3일 유럽연합은 “그린 택소노미(Green Taxonomy)”의 최종안을 발표했다. 그린 택소노미는 ‘환경적으로 지속가능한 경제 활동’의 범위를 정한 분류체계로, 어떠한 산업, 어떠한 경제활동이 탄소중립에 기여하고 환경적으로 지속가능한 것인지를 명시한다. 산업과 경제활동이란 것이 매우 광범위 하기 때문에, 이를 아주 세세하고 또 어떠한 편법과 잘못된 해석이 발생하지 않도록 치밀하게 정의 및 분류된 것을 알 수 있다.

시멘틱 데이터 모형화 과정에서 유의해야 할 점

분류체계를 작성하는 일은 우리가 상상하는 것보다 훨씬 더 전문적인 접근 방법이 존재한다. 그저 한 개인이 자신의 배경지식과 경력을 가지고 만들어 나갈 수 있는 것이 아니다. 또한 잘못된 분류체계와 의미는, 시간이 지나면서 오류가 발각되고 지속적인 수정이 필요하게 되기 때문에, 초기 개발과 구축 과정 신중함을 요구한다.

함정

이 책에서 제시하는 시맨틱 모형 개발 과정에서의 함정에는 어떤 유형이 있을까?

  • 나쁜 설명 - 잘못된 이름과 의미 부여, 또는 정의 생략
  • 잘못된 규격과 잘못된 지식 공급원, 획득방법, 지식
  • 나쁜 품질 관리
  • 잘못된 활용
  • 나쁜 전략과 나쁜 조직 …

딜레마

실무에서 어떠한 지식 체계를 정리할 때 자주 발생할 수 있는 딜레마에 대한 내용도 다루고 있다.

  • 표현의 딜레마
  • 표현과 내용 간의 관계에 대한 딜레마
  • 모형 개선 방향, 모형 관리에 대한 딜레마

마무리하며

시멘틱 데이터 모형화 는 데이터를 분류하는 방법론에 있어 생각보다 훨씬 전문적인이고 상세하게 내용을 다루고 있다. 입문서는 아니라고 생각되며, 실제로 데이터의 체계를 잡아가는 일을 하시는 분들이라면, 지침서로 삼기 아주 좋은 책이다.


한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.