이 페이지에서는 암호화된 Confidential Google Kubernetes Engine 노드에서 워크로드를 실행하여 사용 중인 GPU 워크로드 데이터를 암호화하는 방법을 보여줍니다. 또한 이러한 암호화된 노드에서 실행되는 GPU 워크로드에 적용되는 제한사항과 고려사항에 대해서도 알아봅니다.
이 페이지는 AI/ML 작업과 같이 가속화된 워크로드에서 데이터 보안을 개선하려는 보안 엔지니어 및 운영자를 대상으로 합니다. 이 페이지를 읽기 전 다음 내용을 숙지해야 합니다.
시작하기 전에
시작하기 전에 다음 태스크를 수행했는지 확인합니다.
- Google Kubernetes Engine API를 사용 설정합니다. Google Kubernetes Engine API 사용 설정
- 이 태스크에 Google Cloud CLI를 사용하려면 gcloud CLI를 설치한 후 초기화하세요. 이전에 gcloud CLI를 설치한 경우
gcloud components update
를 실행하여 최신 버전을 가져옵니다.
가용성
Confidential GKE Node를 사용하여 GPU 워크로드를 실행하려면 다음 조건을 모두 충족해야 합니다.
- GKE Standard 모드 클러스터를 사용해야 합니다.
- 클러스터 및 노드에서 GKE 버전 1.32.2-gke.1297000 이상을 실행해야 합니다.
- 노드는 NVIDIA 컨피덴셜 컴퓨팅을 지원하는 영역에 있어야 합니다. 자세한 내용은 지원되는 영역 보기를 참고하세요.
- 노드는 스팟 VM, 선점형 VM 또는 대기열에 추가된 프로비저닝을 사용한 flex-start를 사용해야 합니다.
- 대기열에 추가된 프로비저닝과 함께 유연한 시작을 사용하려면 클러스터에서 GKE 버전 1.32.2-gke.1652000 이상을 실행해야 합니다.
- 노드는 NVIDIA H100 80GB GPU 1개와
a3-highgpu-1g
머신 유형만 사용해야 합니다. - 노드는 Intel TDX 컨피덴셜 컴퓨팅 기술을 사용해야 합니다.
- 노드 위치에 선점형 H100 80 GPU(
compute.googleapis.com/preemptible_nvidia_h100_gpus
) 할당량이 있어야 합니다. 할당량 관리에 관한 자세한 내용은 할당량 보기 및 관리를 참고하세요.
필요한 역할
Confidential GKE 노드를 만드는 데 필요한 권한을 얻으려면 관리자에게 프로젝트에 대해 다음 IAM 역할을 부여해 달라고 요청하세요. Google Cloud
-
Confidential GKE Node 만들기:
Kubernetes Engine 클러스터 관리자 (
roles/container.clusterAdmin
) -
GPU 워크로드 배포:
Kubernetes Engine 개발자 (
roles/container.developer
)
역할 부여에 대한 자세한 내용은 프로젝트, 폴더, 조직에 대한 액세스 관리를 참조하세요.
커스텀 역할이나 다른 사전 정의된 역할을 통해 필요한 권한을 얻을 수도 있습니다.
제한사항
- Autopilot 모드 클러스터는 지원되지 않습니다.
- 시간 공유 또는 멀티 인스턴스 GPU와 같은 GPU 공유 기능은 지원되지 않습니다.
표준 모드에서 Confidential GKE Node 사용 설정
Standard 모드 클러스터 또는 노드 풀의 Confidential GKE Node에서 GPU 워크로드를 실행할 수 있습니다. Confidential GKE Node는 인텔 TDX 컨피덴셜 컴퓨팅 기술을 사용해야 합니다.
새 Standard 클러스터에서 Confidential GKE Node 사용 설정
기밀 GKE 노드를 사용하는 새 표준 모드 클러스터를 만들 때는 다음 클러스터 설정을 지정해야 합니다.
- 위치: NVIDIA 컨피덴셜 컴퓨팅을 지원하는 리전 또는 영역입니다. 자세한 내용은 지원되는 영역 보기를 참고하세요.
- 컨피덴셜 컴퓨팅 기술: Intel TDX
- 클러스터 버전: 1.32.2-gke.1297000 이상
자세한 내용은 표준 클러스터에서 Confidential GKE Node 사용 설정을 참고하세요.
새 표준 노드 풀에서 Confidential GKE Node 사용 설정
클러스터 수준에서 Confidential GKE Node가 사용 설정되지 않은 클러스터의 경우 새 노드 풀에서 Confidential GKE Node를 사용 설정할 수 있습니다. 클러스터는 가용성 섹션의 요구사항을 충족해야 합니다.
Confidential GKE Node를 사용하는 새 GPU 노드 풀을 만들려면 다음 옵션 중 하나를 선택합니다.
콘솔
- 수정할 표준 모드 클러스터의 이름을 클릭합니다.
- 노드 풀 추가를 클릭합니다. 노드 풀 추가 페이지가 열립니다.
- 노드 풀 세부정보 창에서 다음을 수행합니다.
- 노드 위치 지정을 선택합니다.
- 가용성 섹션에 나열된 지원되는 영역만 선택합니다.
- 제어 영역 버전이 1.32.2-gke.1297000 이상인지 확인합니다.
- 탐색 메뉴에서 노드를 클릭합니다.
- 노드 설정 구성 창에서 다음을 수행합니다.
- 머신 구성 섹션에서 GPU를 클릭합니다.
- GPU 유형 메뉴에서 NVIDIA H100 80GB를 선택합니다.
- GPU 수 메뉴에서 1을 선택합니다.
- GPU 공유 사용 설정이 선택되어 있지 않은지 확인합니다.
- GPU 드라이버 설치 섹션에서 사용자 관리를 선택합니다.
- 머신 유형 섹션에서 머신 유형이
a3-highgpu-1g
인지 확인합니다. - 스팟 VM에 노드 사용 설정을 선택합니다.
- 노드 풀을 만들 준비가 되면 만들기를 클릭합니다.
gcloud
스팟 VM에서 Confidential GKE Node를 실행하거나 대기열에 추가된 프로비저닝을 사용한 유연한 시작(미리보기)을 사용하여 GPU 노드 풀을 만들 수 있습니다.
스팟 VM에서 Confidential GKE Node를 실행하는 GPU 노드 풀을 만듭니다.
gcloud container node-pools create NODE_POOL_NAME \ --cluster=CLUSTER_NAME \ --confidential-node-type=tdx --location=LOCATION \ --node-locations=NODE_LOCATION1,NODE_LOCATION2,... \ --spot --accelerator=type=nvidia-h100-80gb,count=1,gpu-driver-version=disabled \ --machine-type=a3-highgpu-1g
다음을 바꿉니다.
NODE_POOL_NAME
: 새 노드 풀의 이름입니다.CLUSTER_NAME
: 기존 클러스터의 이름입니다.LOCATION
: 새 노드 풀의 위치입니다. 위치는 Confidential GKE Node에서 GPU 사용을 지원해야 합니다.NODE_LOCATION1,NODE_LOCATION2,...
: 노드를 실행할 영역의 쉼표로 구분된 목록입니다. 이러한 영역은 NVIDIA 컨피덴셜 컴퓨팅 사용을 지원해야 합니다. 자세한 내용은 지원되는 영역 보기를 참고하세요.
대기열에 추가된 프로비저닝과 함께 flex-start를 사용하여 Confidential GKE Node를 실행하는 GPU 노드 풀을 만듭니다 (미리보기).
gcloud container node-pools create NODE_POOL_NAME \ --cluster=CLUSTER_NAME \ --node-locations=NODE_LOCATION1,NODE_LOCATION2,... \ --machine-type=a3-highgpu-1g --confidential-node-type=tdx \ --location=LOCATION \ --flex-start --enable-queued-provisioning \ --enable-autoscaling --num-nodes=0 --total-max-nodes=TOTAL_MAX_NODES \ --location-policy=ANY --reservation-affinity=none --no-enable-autorepair \ --accelerator=type=nvidia-h100-80gb,count=1,gpu-driver-version=disabled
TOTAL_MAX_NODES
를 노드 풀이 자동으로 확장할 수 있는 최대 노드 수로 바꿉니다.대기열에 추가된 프로비저닝이 있는 유연한 시작의 구성 옵션에 관한 자세한 내용은 대기열에 추가된 프로비저닝이 있는 유연한 시작으로 대규모 워크로드 실행을 참고하세요.
기존 Standard 노드 풀에서 Confidential GKE Node 사용 설정
클러스터 수준에서 Confidential GKE Node가 사용 설정되지 않은 경우 기존 표준 노드 풀을 업데이트하여 Flex-start를 사용할 수 있습니다. 클러스터와 기존 노드 풀이 가용성 섹션에 나열된 요구사항을 충족하는지 확인합니다.
Intel TDX 컨피덴셜 컴퓨팅 기술을 사용하도록 노드 풀을 업데이트하려면 기존 노드 풀 업데이트를 참고하세요.
Confidential GKE 노드를 지원하는 GPU 드라이버 설치
GPU 노드 풀에서 Confidential GKE Nodes를 사용 설정한 후에는 이러한 노드에서 GPU 워크로드 실행을 지원하는 드라이버를 설치해야 합니다.
이 변경사항을 적용하려면 노드를 다시 만들어야 하므로 실행 중인 워크로드가 중단될 수 있습니다. 이 특정 변경사항에 관한 자세한 내용은 유지관리 정책을 준수하지 않고 노드 업그레이드 전략을 사용하여 노드를 다시 만드는 수동 변경사항 표에서 해당 행을 찾으세요. 노드 업데이트에 대한 자세한 내용은 노드 업데이트 중단 계획을 참고하세요.
자세한 내용은 NVIDIA GPU 드라이버 수동 설치의 'COS' 탭을 참고하세요.