Questa pagina mostra come criptare i dati in uso dei carichi di lavoro GPU eseguendoli su nodi Google Kubernetes Engine con crittografia Confidential. Scopri inoltre le limitazioni e le considerazioni che si applicano ai carichi di lavoro GPU eseguiti su questi nodi criptati.
Questa pagina è rivolta a ingegneri e operatori della sicurezza che vogliono migliorare la sicurezza dei dati nei carichi di lavoro accelerati, come le attività di AI/ML. Prima di leggere questa pagina, assicurati di conoscere i seguenti concetti:
Prima di iniziare
Prima di iniziare, assicurati di aver eseguito le seguenti operazioni:
- Attiva l'API Google Kubernetes Engine. Attiva l'API Google Kubernetes Engine
- Se vuoi utilizzare Google Cloud CLI per questa attività,
installa e poi
inizializza gcloud CLI. Se hai già installato l'interfaccia a riga di comando gcloud, ottieni la versione più recente eseguendo
gcloud components update
.
Disponibilità
Per utilizzare i nodi GKE riservati per eseguire carichi di lavoro GPU, devi soddisfare tutte le seguenti condizioni:
- Devi utilizzare un cluster in modalità GKE Standard.
- Il cluster e i nodi devono eseguire GKE 1.32.2-gke.1297000 o versioni successive.
- I nodi devono trovarsi in una zona che supporta NVIDIA Confidential Computing. Per ulteriori informazioni, consulta Visualizzare le zone supportate.
- I nodi devono utilizzare VM spot, VM prerilasciabili o inizio flessibile con provisioning in coda.
- Per utilizzare l'avvio flessibile con il provisioning in coda, il cluster deve eseguire GKE 1.32.2-gke.1652000 o versioni successive.
- I nodi devono utilizzare una sola GPU NVIDIA H100 da 80 GB e il tipo di macchina
a3-highgpu-1g
. - I nodi devono utilizzare la tecnologia Confidential Computing di Intel TDX.
- Devi disporre di una quota per le GPU H100 80 prerilasciabili
(
compute.googleapis.com/preemptible_nvidia_h100_gpus
) nelle località dei tuoi nodi. Per ulteriori informazioni sulla gestione della quota, consulta Visualizza e gestisci le quote
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per creare Confidential GKE Nodes, chiedi all'amministratore di concederti i seguenti ruoli IAM nel Google Cloud progetto:
-
Crea nodi GKE riservati:
Amministratore cluster Kubernetes Engine (
roles/container.clusterAdmin
) -
Esegui il deployment di workload GPU:
Sviluppatore Kubernetes Engine (
roles/container.developer
)
Per ulteriori informazioni sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Limitazioni
- I cluster in modalità Autopilot non sono supportati.
- Le funzionalità di condivisione della GPU, come la condivisione del tempo o le GPU a più istanze, non sono supportate.
Abilita Confidential GKE Nodes in modalità standard
Puoi eseguire carichi di lavoro GPU su Confidential GKE Nodes in cluster o pool di nodi in modalità Standard. I Confidential GKE Nodes devono utilizzare la tecnologia di calcolo confidente Intel TDX.
Abilita i nodi Confidential GKE nei nuovi cluster standard
Quando crei un nuovo cluster in modalità Standard che utilizza i nodi GKE riservati, assicurati di specificare le seguenti impostazioni del cluster:
- Località: una regione o una zona che supporta NVIDIA Confidential Computing. Per ulteriori informazioni, consulta Visualizzare le zone supportate.
- Tecnologia Confidential Computing: Intel TDX
- Versione del cluster: 1.32.2-gke.1297000 o successive
Per le istruzioni, consulta Abilita i nodi Confidential GKE sui cluster standard.
Abilita i nodi Confidential GKE nei nuovi node pool standard
Puoi abilitare i nodi Confidential GKE nei nuovi node pool se il cluster non ha i nodi Confidential GKE abilitati a livello di cluster. Il cluster deve soddisfare i requisiti indicati nella sezione Disponibilità.
Per creare un nuovo pool di nodi GPU che utilizza i nodi riservati di GKE, seleziona una delle seguenti opzioni:
Console
- Fai clic sul nome del cluster in modalità standard da modificare.
- Fai clic su Aggiungi pool di nodi. Viene visualizzata la pagina Aggiungi un node pool.
- Nel riquadro Dettagli del pool di nodi, segui questi passaggi:
- Seleziona Specifica le località dei nodi.
- Seleziona solo le zone supportate elencate nella sezione Disponibilità.
- Assicurati che la versione del piano di controllo sia 1.32.2-gke.1297000 o successiva.
- Nel menu di navigazione, fai clic su Nodi.
- Nel riquadro Configura le impostazioni del nodo:
- Nella sezione Configurazione macchina, fai clic su GPU.
- Nel menu Tipo di GPU, seleziona NVIDIA H100 80 GB.
- Nel menu Numero di GPU, seleziona 1.
- Assicurati che l'opzione Abilita condivisione GPU non sia selezionata.
- Nella sezione Installazione del driver GPU, seleziona Gestito dall'utente.
- Nella sezione Tipo di macchina, assicurati che il tipo di macchina sia
a3-highgpu-1g
. - Seleziona Abilita nodi sulle VM Spot.
- Quando è tutto pronto per creare il pool di nodi, fai clic su Crea.
gcloud
Puoi creare pool di nodi GPU che eseguono nodi riservati di GKE su VM spot o utilizzando l'avvio flessibile con il provisioning in coda (anteprima).
Crea un pool di nodi GPU che esegue nodi GKE riservati su VM spot:
gcloud container node-pools create NODE_POOL_NAME \ --cluster=CLUSTER_NAME \ --confidential-node-type=tdx --location=LOCATION \ --node-locations=NODE_LOCATION1,NODE_LOCATION2,... \ --spot --accelerator=type=nvidia-h100-80gb,count=1,gpu-driver-version=disabled \ --machine-type=a3-highgpu-1g
Sostituisci quanto segue:
NODE_POOL_NAME
: un nome per il nuovo pool di nodi.CLUSTER_NAME
: il nome del cluster esistente.LOCATION
: la posizione del nuovo pool di nodi. La località deve supportare l'utilizzo di GPU in Confidential GKE Node.NODE_LOCATION1,NODE_LOCATION2,...
: un elenco separato da virgole di zone in cui eseguire i nodi. Queste zone devono supportare l'utilizzo di NVIDIA Confidential Computing. Per ulteriori informazioni, consulta Visualizzare le zone supportate.
Crea un pool di nodi GPU che esegue Confidential GKE Node utilizzando flex-start con il provisioning in coda (anteprima):
gcloud container node-pools create NODE_POOL_NAME \ --cluster=CLUSTER_NAME \ --node-locations=NODE_LOCATION1,NODE_LOCATION2,... \ --machine-type=a3-highgpu-1g --confidential-node-type=tdx \ --location=LOCATION \ --flex-start --enable-queued-provisioning \ --enable-autoscaling --num-nodes=0 --total-max-nodes=TOTAL_MAX_NODES \ --location-policy=ANY --reservation-affinity=none --no-enable-autorepair \ --accelerator=type=nvidia-h100-80gb,count=1,gpu-driver-version=disabled
Sostituisci
TOTAL_MAX_NODES
con il numero massimo di nodi a cui il pool di nodi può eseguire lo scale up automaticamente.Per ulteriori informazioni sulle opzioni di configurazione dell'avvio flessibile con provisioning in coda, consulta Eseguire un workload su larga scala con l'avvio flessibile con provisioning in coda.
Abilita Confidential GKE Nodes nei node pool standard esistenti
Puoi aggiornare i node pool standard esistenti in modo che utilizzino la funzionalità Flex-start se nel cluster non sono abilitati i nodi GKE Confidential a livello di cluster. Assicurati che il cluster e il pool di nodi esistenti soddisfino i requisiti elencati nella sezione Disponibilità.
Per aggiornare i tuoi pool di nodi in modo che utilizzino la tecnologia Confidential Computing di Intel TDX, consulta Aggiornare un pool di nodi esistente.
Installa i driver GPU che supportano i nodi Confidential GKE
Dopo aver attivato i nodi GKE riservati nel pool di nodi GPU, devi installare i driver che supportano l'esecuzione di carichi di lavoro GPU su questi nodi.
Questa modifica richiede la ricreazione dei nodi, il che può causare interruzioni dei carichi di lavoro in esecuzione. Per informazioni dettagliate su questa modifica specifica, individua la riga corrispondente nella tabella Modifiche manuali che ricreano i nodi utilizzando una strategia di upgrade dei nodi senza rispettare le norme di manutenzione. Per scoprire di più sugli aggiornamenti dei nodi, consulta Pianificare le interruzioni per gli aggiornamenti dei nodi.
Per le istruzioni, consulta la scheda "COS" in Installare manualmente i driver GPU NVIDIA.
Passaggi successivi
- Verificare che i nodi GPU utilizzino Confidential GKE Node
- Esegui il deployment di un carico di lavoro sui nodi GPU