BigQuery Data Transfer Service로 코딩없이 데이터 전송하기
안녕하세요, 클루커스 구글 클라우드 컨설턴트 엄수민, 박보련, 오지수입니다.
Google BigQuery는 페타바이트 단위까지 지원되는 서버리스 & 완전 관리형의 데이터 웨어하우스입니다.
더 나은 데이터 분석을 위해, 매일/매시간 마다 방대하게 늘어나는 최신 데이터를 수집해 BigQuery에 적재하는 반복작업은 필수적입니다.
그러나 BigQuery Data Transfer Service를 활용하면, 단 한 줄의 코드 작성 없이도 정해진 일정에 따라 데이터를 BigQuery에 적재할 수 있습니다.
데이터 전송을 구성하면, BigQuery Data Transfer Service는 소스에서 BigQuery로의 반복적인 데이터 로드 작업을 자동으로 예약 및 관리합니다.
➕ BigQuery DTS 구성 지원 방식
- Google Cloud Console
- bq CLI
- BigQuery Data Transfer Service API
본 Demo에서는 Google Cloud Console에서 BigQuery Data Transfer Service를 사용해 Google Cloud
Storage에서 데이터를 BigQuery에 일괄 로드하는 방법에 대해 알아봅니다.
- Demo에서 사전 준비 된 사항
- Data Source가 될 Cloud Storage Bucket 생성 및 해당 Bucket에 Sample File Upload
- 데이터가 전송될 BigQuery 빈 Table 생성
꼭 확인해야 할 BigQuery DTS Service Tip!
- 데이터 소스 코로케이션
- Google Cloud Storage에서 BigQuery로의 전송은 Bucket이 BigQuery 대상 데이터셋과 같은 위치에 존재해 야합니다.
- 전송 주기
- Schedule Option의 최소 주기는 15분 입니다.
- BigQuery Data Transfer Service의 지원되는 소스(2022.10 기준)
- Google Software as a Service(SaaS)
- 외부 클라우드 스토리지 제공업체
- Amazon S3
- 데이터 웨어하우스
- Teradata
- Amazon Redshift
- 기타 Google Marketplace를 통한 Third Party 전송