AI가 조직의 데이터를 잘 이해하게 만들려면 "거버넌스"와 "온톨로지"가 중요하다는 이야기가 많습니다. 두 개념 모두 데이터를 체계적으로 다룬다는 점에서 자주 함께 언급되지만, 정확히 어떤 관계인지 혼란스럽다는 질문을 자주 받습니다.
결론부터 말씀드리자면, 거버넌스와 온톨로지는 서로 다른 목적을 가진 보완적 개념입니다.
거버넌스: 데이터를 신뢰할 수 있게 관리하는 것
온톨로지: 데이터를 이해하고 활용 가능하게 만드는 것
이번 포스트에서는 두 개념의 차이와, 왜 거버넌스만으로는 부족한지, 온톨로지가 어떤 역할을 하는지 살펴봅니다.
데이터 거버넌스: 데이터를 신뢰할 수 있게 관리하는 것
데이터 거버넌스의 정의
데이터 거버넌스는 기업이 데이터를 자산으로 가치 있게 활용하기 위해 수립하는 전사적인 권한, 통제, 규칙 및 관리 체계입니다. 데이터가 단순한 '기록'을 넘어 신뢰할 수 있는 '정보'가 되도록 관리하는 컨트롤 타워 역할을 수행합니다.
도서관에 비유하면 이해하기 쉽습니다. 데이터가 도서관의 책이라면, 거버넌스는 도서 분류법, 사서의 관리 규정, 대출/반납 규칙, 보안 시스템에 해당합니다. 거버넌스가 없다면 책(데이터)이 어디에 있는지 모르고, 찢어지거나(품질 저하), 도난(보안 위협)당할 수 있습니다.
거버넌스의 핵심 영역
데이터 관리 지식 체계(DAMA-DMBOK)에 기반하면, 거버넌스는 크게 데이터 표준 및 구조, 데이터 품질, 보안 및 규제 준수 라는 세 가지 영역을 다룹니다.
1. 데이터 표준 및 구조
데이터를 하나의 건물에 비유한다면, 건물의 설계도와 자재 규격을 정하는 영역입니다.
메타데이터 관리: 데이터에 대한 설명서(데이터 사전) 관리
데이터 리니지: 데이터의 흐름(생성→가공→소비) 추적. 문제 발생 시 원인 분석과 영향도 파악에 필수적입니다.
마스터 데이터 관리(MDM): 고객, 상품 등 핵심 기준 정보의 중복 제거 및 통합 관리
2. 데이터 품질
데이터를 깨끗하게 유지하는 영역입니다.
정확성, 완전성, 유효성 검증
오류 데이터 식별 및 수정
데이터 생명주기 관리 (생성부터 폐기까지)
3. 보안 및 규제 준수
데이터를 외부 위협으로부터 보호하는 영역입니다.
접근 권한 제어
개인정보 암호화
컴플라이언스(GDPR 등) 준수
거버넌스가 잘 갖춰진 조직은 데이터가 어디에 있는지 알고, 누가 접근할 수 있는지 통제되며, 데이터의 흐름을 추적할 수 있습니다.
거버넌스만 있을 때의 한계
거버넌스가 잘 갖추어져 있어도, 비즈니스 담당자와 AI 모두 데이터를 해석하거나, 의사결정을 내리는 데 한계가 있습니다.
1. 비즈니스 담당자가 직접 데이터를 분석할 수 없습니다
유통 기업의 CFO가 "이번 분기 채널별 공헌이익률 변화를 보고 싶다"고 요청했다고 가정해봅시다. 거버넌스만 있는 환경에서는 다음과 같은 프로세스가 진행됩니다.
CFO의 요청이 데이터 엔지니어링팀 또는 DA(Data Analyst)에게 전달됩니다.
엔지니어는 매출 데이터가 어느 테이블에 있는지, 원가 데이터는 어디서 가져와야 하는지, 공헌이익을 어떤 공식으로 계산해야 하는지 파악합니다.
쿼리를 작성하고 실행합니다.
실행된 쿼리 결과를 시각화해서 CFO에게 전달합니다.
CFO가 "그럼 지역별로도 보고 싶어요"라고 하면, 위 모든 과정이 처음부터 반복됩니다.
이 과정에는 여러 툴(DBT, Airflow, Datahub 등), 사람(데이터 엔지니어, DA), 시간(요청-작업-전달 사이클)이 필요합니다. 거버넌스는 "데이터를 잘 관리하는 것"까지는 해결하지만, "비즈니스 담당자가 직접 데이터를 분석하는 것"은 해결하지 못합니다.
2. AI도 데이터를 제대로 해석할 수 없습니다
거버넌스는 데이터가 어디에 있는지, 어떤 형식으로 쌓여 있는지는 알려줍니다. 하지만 "공헌이익이 무엇인지", "이 조직에서 매출을 어떻게 정의하는지", "채널 수수료는 어떤 기준으로 배분하는지"와 같은 비즈니스 맥락은 제공하지 않습니다.
AI에게 "이번 분기 공헌이익률을 분석해줘"라고 요청하면, AI가 일반적인 재무 지식으로 답할 수는 있습니다. 하지만 우리 조직에서 공헌이익을 "매출 - 상품원가 - 채널수수료 - 물류비"로 정의하는지, "매출 - 상품원가"만으로 정의하는지 알 수 없습니다. 데이터는 읽을 수 있지만, 그 데이터가 조직 내에서 어떤 기준으로 해석되어야 하는지는 모르는 것입니다.
거버넌스는 "데이터를 잘 관리하는 것"까지는 해결하지만, "데이터를 해석하고 의사결정에 활용하는 것"은 해결하지 못합니다.
온톨로지: 데이터를 이해하고 활용 가능하게 만드는 것
온톨로지의 정의
데스크룸이 정의하는 온톨로지의 본질은 "데이터를 비즈니스에서 분석 가능한 형태로 만드는 것"입니다.
비즈니스에서 발생하는 데이터는 기본적으로 "해석 가능한 형태"로 쌓이지 않습니다. 시스템은 시스템의 언어로 데이터를 저장합니다. 데이터가 있다고 해서 바로 "이번 분기 공헌이익률이 얼마인가요?"라는 질문에 답할 수 있는 것이 아닙니다.
온톨로지는 이 간극을 메꾸는 역할을 수행합니다. 단순 '데이터'가 아니라, 그 데이터가 어떤 객체이며, 어떤 속성을 가지고 있고, 어떤 지표로 해석되어야 하는가를 정의합니다. 보다 자세한 온톨로지에 관한 설명은 이전 포스트를 참조해주세요.
데스크룸 온톨로지의 개념
1. 객체 (Object)와 관계 (Relation): 분석 대상 정의
객체는 조직이 다루는 데이터의 가장 기본적인 단위입니다. "무엇을 분석할 것인가?"를 정의합니다. 예를 들어, 고객 문의, 주문, 리뷰, 거래, 상품 등이 객체가 될 수 있습니다.
각 객체는 독립된 분석 단위이자, 다른 객체와의 관계 속에서 의미를 갖습니다. 유통 기업이라면 '거래' 오브젝트가 있고, 이 거래는 어떤 상품의 것이며, 어떤 채널에서 발생했는지를 추적할 수 있습니다.
2. 속성(Property): 객체를 설명하는 필드
모든 객체는 속성을 갖습니다. 속성은 "그 데이터에 어떤 필드가 있고, 그 값은 어디서 오는가? 어떻게 결정되는가?"를 정의합니다. 예를 들어, 거래 라는 객체에는 거래 일시, 판매 채널, 판매 금액, 결제 수단과 같은 속성들이 존재합니다.
3. 인스턴스(Instance): 실제 데이터 레코드
객체가 데이터의 "타입"을 설명한다면, 인스턴스는 그 타입에 속하는 "값"들을 의미합니다. 실제 데이터 1건 1건을 인스턴스라고 생각해주시면 좋습니다.
4. 지표(Metric): 집계된 분석 결과
지표는 인스턴스 데이터를 집계해서 의미 있는 숫자를 뽑아내는 것입니다. "어떤 질문에 답할 것인가?"를 정의합니다.
질문 | 지표 함수 | 결과 예시 |
|---|---|---|
총 매출은 얼마인가? | SUM | 12억 3,000만원 |
평균 객단가는 얼마인가? | AVG | 78,500원 |
공헌이익률 | RATIO | 34.1% |
재고 회전율 | RATIO | 8.2 |
온라인 자사몰 매출 비중 | RATIO | 32% |
지표는 단순 집계가 아닙니다. "공헌이익 = 매출 - 상품원가 - 채널수수료 - 물류비"처럼 조직만의 계산 규칙을 담습니다. 이것이 있어야 "이번 분기 공헌이익률"이라는 질문에 조직 맥락에 맞는 답을 할 수 있습니다.
온톨로지가 해결하는 것
1. 비즈니스 담당자가 직접 분석할 수 있습니다
거버넌스만 있는 환경에서는 CFO가 "채널별 공헌이익률"을 보려면 엔지니어링팀에 요청하고, 쿼리 작성을 기다리고, 결과를 전달받아야 했습니다.
온톨로지가 있으면 이 과정이 사라집니다. "공헌이익"이라는 지표(Metric)가 이미 정의되어 있고, "구매 채널"이라는 분석 기준(속성)도 정의되어 있기 때문입니다. CFO는 분석 화면에서 지표를 선택하고, 필터를 선택하면 됩니다. "지역별로도 보고 싶다"고 하면 필터만 바꾸면 됩니다.
온톨로지가 "어떤 데이터를, 어떤 기준으로, 어떻게 볼 것인가"를 미리 정의해두었기 때문에 가능한 일입니다.
2. AI가 조직 맥락을 가지고 데이터를 해석합니다
거버넌스만 있는 환경에서 AI에게 "공헌이익률을 분석해줘"라고 하면, AI는 일반적인 재무 지식으로 답할 수밖에 없었습니다.
온톨로지가 있으면 AI에게 해석의 기준이 제공됩니다.
"공헌이익 = 매출 - 상품원가 - 채널수수료 - 물류비"라는 지표 정의
"매출 데이터는 OMS에서, 원가 데이터는 ERP에서 온다"는 속성의 출처 (Source)
"채널 수수료는 거래 건별로 배분한다"는 계산 규칙
AI가 데이터를 사람의 방식 그대로 해석할 수 있도록 만드는 것, 그것이 온톨로지의 역할입니다.
거버넌스와 온톨로지의 비교
결국 거버넌스는 "데이터를 잘 쌓는 것"에, 온톨로지는 "데이터를 잘 쓰는 것"에 초점이 맞춰져 있습니다. 두 개념의 차이를 정리하면 다음과 같습니다.
구분 | 데이터 거버넌스 | 온톨로지 |
|---|---|---|
목적 | 데이터를 신뢰할 수 있게 관리 | 데이터를 이해하고 활용 가능하게 |
핵심 질문 | "데이터가 잘 쌓이고 있나?" | "이 데이터로 무엇을 분석할 수 있나?" |
결과물 | 정리된 데이터 웨어하우스 | 해석 가능한 분석 환경 |
분석 주체 | Data Engineer, Analyst | 실무자, 의사결정자 |
분석 방식 | 요청 → 쿼리 작성 → 시각화 | 직접 UI에서 속성과 지표 정의, 대시보드 선택 |
AI의 역할 | 데이터 읽기만 가능 | 조직 맥락으로 해석 가능 |
대표 도구 | DBT, Airflow, Datahub | 데스크룸 |
마무리하며
거버넌스와 온톨로지는 대립하는 개념이 아니라 보완 관계입니다. 먼저, 거버넌스는 기반입니다. 데이터가 어디에 있는지, 누가 접근할 수 있는지, 품질은 어떤지를 관리합니다. 이 기반이 없으면 온톨로지를 정의해도 신뢰할 수 없습니다.
온톨로지는 활용입니다. 잘 관리된 데이터를 "분석 가능한 형태"로 변환합니다. 비즈니스 담당자가 직접 분석하고, AI가 조직 맥락을 이해할 수 있게 합니다. 거버넌스가 잘 갖춰져 있어도, 데이터가 무슨 뜻인지 모르면 활용할 수 없습니다. 축적된 데이터는 많지만 의미를 찾기 어려웠던 문제, AI는 있으나 판단을 신뢰하지 못했던 문제는 데이터 해석의 기준이 없었기 때문입니다.
데스크룸은 그 기준을 온톨로지라는 도구로 풀어냅니다.
고민이 있으시다면
우리 조직의 데이터를 어떻게 정의해야 하는지, AI가 우리 데이터를 제대로 이해하게 하려면 어떻게 해야할 지 궁금하시다면, 이 링크에서 데스크룸에 문의해주세요.



