한 번 모델링하고 어디서나 표현: Netflix의 UDA (Unified Data Architecture)
카테고리
프로그래밍/소프트웨어 개발
서브카테고리
데이터 분석
대상자
데이터 엔지니어, 소프트웨어 아키텍트, 비즈니스 분석가
핵심 요약
- UDA는 도메인 모델을 한 번 정의한 후, 모든 시스템에 일관되게 투영·연결하는 지식 그래프 기반 인프라
- RDF/SHACL 기반의 Upper 메타모델을 통해 대규모 협업과 스키마 일관성을 달성
- GraphQL, Avro, Iceberg 등 다양한 데이터 컨테이너 간 자동 스키마 생성·매핑·데이터 이동 자동화 지원
섹션별 세부 요약
1. 문제 인식
- 다양한 시스템 간 데이터 모델 중복 및 불일치로 인한 협업·품질 문제 발생
- 용어 불일치, 데이터 품질 저하, 시스템 간 연결성 한계 등의 이슈 발생
- 중복된 'actor', 'movie' 등의 엔터티 정의로 인한 충돌 및 관리 복잡성 증가
2. UDA의 핵심 기능
- 도메인 모델 등록 및 연결
- 공식 개념 정의를 단일 소스로 사용해 팀 간 혼동 방지
- 도메인 모델과 데이터 컨테이너 간 관계를 그래프 구조로 표현
- 도메인 모델→스키마 자동 변환
- GraphQL, Avro, SQL 등 다양한 언어로 자동 변환
- 수작업 최소화 및 오류 감소
- 데이터 컨테이너 간 신뢰성 있는 데이터 이동
- GraphQL 엔티티, Data Mesh, Iceberg 등 간 자동 변환·이동 처리
3. 지식 그래프 기반 구조
- RDF/SHACL 기반 지식 그래프로 도메인 모델·스키마·데이터 컨테이너를 연결
- 명명된 그래프(named graph) 중심 정보 모델
- 규칙적 거버넌스 모델 적용
- 해석 체계 및 모듈화, 운영 정책 실현
- Upper 메타모델
- 도메인 모델을 엄격히 정의하는 메타모델 언어
- RDF로 표현·버전 관리·쿼리 가능
- RDFS/OWL/SHACL 등 W3C 의미 기술 중 핵심만 적용
4. PDM 및 Sphere 도구
- PDM(Primary Data Management)
- 참조 데이터 및 택소노미 관리 플랫폼
- UI 자동 생성 및 SKOS 모델 기반
- Sphere(Operational Reporting)
- 지식 그래프 기반 자가 서비스 리포팅 도구
- 'actor', 'movie' 등 친숙한 용어로 개념 탐색 가능
- SQL 쿼리 자동 생성
5. UDA의 장단점 및 전략
- 장점
- 조직 전체 시스템 간 일관성, 자동화, 확장성 보장
- 비즈니스 사용자에게 UI/GraphQL API 자동 구성
- 단점
- 조직 전체의 데이터 정의에 대한 계약 필요
- 작은 변경이 조직 전체에 영향을 줌
- 전략
- Federated GraphQL 기반 버전 관리 도입
- 500개 이상의 페더레이티드 GraphQL 스키마 관리 경험 활용
결론
- UDA는 조직 전체의 데이터 모델링·통합 방식의 근본적 변화를 도입
- Federated GraphQL 기반의 deprecation 관리 모델 도입으로 버전 관리 강화
- 성공적인 UDA 도입은 비즈니스, 커뮤니케이션, 기술 세 가지 영역의 협력이 필수적
- Wikidata와 같은 대규모 공통 어휘 시스템과 유사한 접근이 필요