안녕하세요, 클루커스 구글 클라우드 컨설턴트 엄수민, 박보련, 오지수입니다.
실제 기업의 데이터는 단일 스토리지나 프로젝트가 아닌 Data Lake, Data Warehouse, Data Mart 등 다양한 소스에 분산되어 있어 관리가 쉽지 않으셨을텐데요,
이럴 때 Dataplex를 사용하시면 데이터의 이동 없이, 비즈니스 요구사항에 맞춰 데이터의 거버넌스, 메타데이터, 보안 정책, 분류는 물론 데이터 수명주기의 관리까지 표준화 및 통합이 가능합니다.
이럴 때 Dataplex를 사용하시면 데이터의 이동 없이, 비즈니스 요구사항에 맞춰 데이터의 거버넌스, 메타데이터, 보안 정책, 분류는 물론 데이터 수명주기의 관리까지 표준화 및 통합이 가능합니다.
예를 들어 Dataplex를 활용해 도메인 중심의 데이터 메시(Data Mesh)를 구축하면, 기업은
데이터의 분산된 소유권을 그대로 유지하면서도 최종 사용자들이 각각 다른 도메인으로부터
데이터를 가져오게 할 수 있습니다.
즉, Dataplex는 분산된 데이터의 통합 관리 및 거버넌스의 자동화를 가능하게 합니다.
이번 데모에서는 Dataplex의 Domain-Zone-Asset을 순차적으로 생성하여 데이터의 품질
관리 및 모니터링을 진행하고, 적합한 보안 정책을 적용하는 방법까지 알아보겠습니다.
데모에서 사전 준비 된 사항
GCS(Google Cloud Storage)에 사전 저장 된 Sample Data
본 데모에서 꼭 알아둬야 할 Dataplex Tip!
- 여러 데이터 소스는 물론 다수의 프로젝트에 저장된 데이터의 관리도 지원
- Zone을 생성하면, 동명의 데이터셋이 BigQuery에 생성
– Ex. GCS에서 색인 된 데이터 테이블은 위 데이터셋에 Federated Table로써 자동 으로 생성 - 파일 품질 검사 시 검사 대상 제한 가능