안녕하세요, 클루커스 구글 클라우드 컨설턴트 최찬회입니다.
GKE(Google Kubernetes Engine)를 효율적으로 최적화 하기 위한 방법으로 다음과 같이 알아 보았습니다.
✅ 적합한 모드 선택 (Autopilot, Standard)
![](https://gcp.cloocus.com/wp-content/uploads/2023/10/image-1-1.png)
✅ Auto Scaling 종류와 적합한 환경
- Pod Auto Scailing
![](https://gcp.cloocus.com/wp-content/uploads/2023/10/image-2-1.png)
- Cluster Auto Scailing
![](https://gcp.cloocus.com/wp-content/uploads/2023/10/image-3-1.png)
- GKE 모니터링 전략과
파드 최적화
![](https://gcp.cloocus.com/wp-content/uploads/2023/10/image-4.png)
해당 내용에 조금 더 자세한 설명은 해당 영상을 참고 해주시길 바랍니다.
추가로 알아 볼 내용은 GKE Autopilot을 생성 해보셨다면 Standard에 생성할 때 자유롭게 머신을 선택할 수 있는 것과 달리 Autopilot에 경우 클러스터 생성할 때 머신 타입을 선택 할 수 없는걸 확인 하셨을텐데요.
영상에서 소개 드린 것처럼 Autopilot의 경우 GKE Autopilot는 웹 제공 및 일괄 작업을 위한 범용 워크로드에 최적화된 컴퓨팅 플랫폼을 제공합니다.
Autopilot에서 GPU 사용하기
고객 상황에 따라 머신 러닝 또는 AI 테스크, 실시간 높은 트래픽 데이터베이스 실행 같은 특정 아키텍처에서는 GPU가 필요할 수 있습니다. 이번 포스팅에서는 Autopilot을 사용할 때 머신 타입을 변경 하는 방법에 대해서 알아보겠습니다.
✅ Autopilot에서 파드의 Yaml 메타데이터 설정을 통해 머신 타입을 선택 할 수 있습니다.
- NodeSelector : Pod를 배치할 노드를 직접 지정하는 방식
- NodeAffinity : 규칙을 정의하고 특정 조건에 부합하는 파드만 해당 노드에 배치 하는 방식
✅ GPU 옵션을 활성화 시 사용가능한 GPU_TYPE 및 수량입니다.
✅ 아래는 NodeSelector를 이용한 배포 예시입니다.
GPU TYPE | GPU 수 |
---|---|
NVIDIA T4 nvidia-tesla-t4 | 1, 2, 4 |
NVIDIA A100(40GB) nvidia-tesla-a100 | 1, 2, 4, 8, 16 |
NVIDIA A100(80GB) nvidia-a100-80gb | 1, 2, 4, 8 |
- T4 GPU를 요청 예시
![](https://gcp.cloocus.com/wp-content/uploads/2023/10/image-5-1.png)
이렇게 Autopilot에서 GPU 옵션을 사용하는 방법에 대하여 알아보았습니다.
앞서 설명드린 옵션 활용을 통해 가용성 확보와 비용 최적화까지 함께 챙겨 가시길 바랍니다.
Google Kubernetes Engine 구성에 도움이 필요하시다면, 클루커스와 함께 시작해보세요😊