Aktive GPU-Arbeitslastdaten mit Confidential GKE Nodes verschlüsseln


Auf dieser Seite erfahren Sie, wie Sie aktive GPU-Arbeitslastdaten verschlüsseln, indem Sie die Arbeitslasten auf verschlüsselten Confidential Google Kubernetes Engine-Knoten ausführen. Außerdem erfahren Sie, welche Einschränkungen und Überlegungen für GPU-Arbeitslasten gelten, die auf diesen verschlüsselten Knoten ausgeführt werden.

Diese Seite richtet sich an Sicherheitsingenieure und ‑operatoren, die die Sicherheit der Daten bei beschleunigten Arbeitslasten wie KI/ML-Aufgaben verbessern möchten. Machen Sie sich vor dem Lesen dieser Seite mit den folgenden Konzepten vertraut:

Hinweise

Führen Sie die folgenden Aufgaben aus, bevor Sie beginnen:

  • Aktivieren Sie die Google Kubernetes Engine API.
  • Google Kubernetes Engine API aktivieren
  • Wenn Sie die Google Cloud CLI für diese Aufgabe verwenden möchten, müssen Sie die gcloud CLI installieren und dann initialisieren. Wenn Sie die gcloud CLI bereits installiert haben, rufen Sie die neueste Version mit gcloud components update ab.

Verfügbarkeit

Wenn Sie Confidential GKE Nodes zum Ausführen von GPU-Arbeitslasten verwenden möchten, müssen Sie alle folgenden Bedingungen erfüllen:

  • Sie müssen einen Cluster im GKE-Standardmodus verwenden.
  • Der Cluster und die Knoten müssen die GKE-Version 1.32.2-gke.1297000 oder höher ausführen.
  • Die Knoten müssen sich in einer Zone befinden, die NVIDIA Confidential Computing unterstützt. Weitere Informationen finden Sie unter Unterstützte Zonen ansehen.
  • Die Knoten müssen Spot-VMs, VMs auf Abruf oder Flex-Start mit Warteschlangenbereitstellung verwenden.
  • Wenn Sie „Flex-Start“ mit der Bereitstellung in der Warteschlange verwenden möchten, muss auf dem Cluster die GKE-Version 1.32.2-gke.1652000 oder höher ausgeführt werden.
  • Die Knoten dürfen nur eine NVIDIA H100-GPU mit 80 GB und den Maschinentyp a3-highgpu-1g verwenden.
  • Die Knoten müssen die Confidential Computing-Technologie von Intel TDX verwenden.
  • Sie benötigen ein Kontingent für H100-80-GPUs auf Abruf (compute.googleapis.com/preemptible_nvidia_h100_gpus) an Ihren Knotenstandorten. Weitere Informationen zum Verwalten Ihres Kontingents finden Sie unter Kontingente aufrufen und verwalten.

Erforderliche Rollen

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für das Projekt zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Erstellen vertraulicher GKE-Knoten benötigen: Google Cloud

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Beschränkungen

  • Cluster im Autopilot-Modus werden nicht unterstützt.
  • GPU-Freigabefunktionen wie die Zeitfreigabe oder GPUs mit mehreren Instanzen werden nicht unterstützt.

Confidential GKE Nodes im Standardmodus aktivieren

Sie können GPU-Arbeitslasten auf Confidential GKE Nodes in Clustern oder Knotenpools im Standardmodus ausführen. Die Confidential GKE-Knoten müssen die Confidential Computing-Technologie von Intel TDX verwenden.

Confidential GKE Nodes in neuen Standardclustern aktivieren

Wenn Sie einen neuen Cluster im Standardmodus erstellen, der Confidential GKE Nodes verwendet, müssen Sie die folgenden Clustereinstellungen angeben:

  • Standort: Eine Region oder Zone, die NVIDIA Confidential Computing unterstützt. Weitere Informationen finden Sie unter Unterstützte Zonen ansehen.
  • Confidential Computing-Technologie: Intel TDX
  • Clusterversion: 1.32.2-gke.1297000 oder höher

Eine Anleitung finden Sie unter Confidential GKE Nodes in Standardclustern aktivieren.

Confidential GKE Nodes in neuen Standardknotenpools aktivieren

Sie können Confidential GKE Nodes in neuen Knotenpools aktivieren, wenn Confidential GKE Nodes im Cluster nicht auf Clusterebene aktiviert ist. Der Cluster muss die Anforderungen im Abschnitt Verfügbarkeit erfüllen.

Wenn Sie einen neuen GPU-Knotenpool mit Confidential GKE Nodes erstellen möchten, wählen Sie eine der folgenden Optionen aus:

Console

  1. Zur Seite "Kubernetes-Cluster"

  2. Klicken Sie auf den Namen des Clusters im Standardmodus, den Sie ändern möchten.
  3. Klicken Sie auf Knotenpool hinzufügen . Die Seite Knotenpool hinzufügen wird geöffnet.
  4. Führen Sie im Bereich Knotenpooldetails die folgenden Schritte aus:
    1. Wählen Sie Knotenstandorte angeben aus.
    2. Wählen Sie nur die unterstützten Zonen aus, die im Abschnitt Verfügbarkeit aufgeführt sind.
    3. Die Steuerungsebenen-Version muss 1.32.2-gke.1297000 oder höher sein.
  5. Klicken Sie im Navigationsmenü auf Knoten.
  6. Führen Sie im Bereich Knoteneinstellungen konfigurieren die folgenden Schritte aus:
    1. Klicken Sie im Abschnitt Maschinenkonfiguration auf GPUs.
    2. Wählen Sie im Menü GPU-Typ die Option NVIDIA H100 80 GB aus.
    3. Wählen Sie im Menü Anzahl der GPUs die Option 1 aus.
    4. Achten Sie darauf, dass GPU-Freigabe aktivieren nicht ausgewählt ist.
    5. Wählen Sie im Abschnitt GPU-Treiberinstallation die Option Nutzerverwaltet aus.
    6. Achten Sie darauf, dass im Abschnitt Maschinentyp a3-highgpu-1g als Maschinentyp festgelegt ist.
    7. Wählen Sie Knoten auf Spot-VMs aktivieren aus.
  7. Wenn Sie den Knotenpool erstellen möchten, klicken Sie auf Erstellen.

gcloud

Sie können GPU-Knotenpools erstellen, in denen Confidential GKE Nodes auf Spot-VMs ausgeführt werden, oder die Funktion „flex-start mit Warteschlangenbereitstellung“ (Vorabversion) verwenden.

  • Erstellen Sie einen GPU-Knotenpool, in dem Confidential GKE Nodes auf Spot-VMs ausgeführt werden:

    gcloud container node-pools create NODE_POOL_NAME \
        --cluster=CLUSTER_NAME \
        --confidential-node-type=tdx --location=LOCATION \
        --node-locations=NODE_LOCATION1,NODE_LOCATION2,... \
        --spot --accelerator=type=nvidia-h100-80gb,count=1,gpu-driver-version=disabled \
        --machine-type=a3-highgpu-1g
    

    Ersetzen Sie Folgendes:

    • NODE_POOL_NAME ist der Name des neuen Knotenpools.
    • CLUSTER_NAME ist der Name Ihres vorhandenen Clusters.
    • LOCATION: Der Standort für den neuen Knotenpool. Der Standort muss die Verwendung von GPUs in Confidential GKE Nodes unterstützen.
    • NODE_LOCATION1,NODE_LOCATION2,...: eine durch Kommas getrennte Liste von Zonen, in denen die Knoten ausgeführt werden sollen. Diese Zonen müssen die Verwendung von NVIDIA Confidential Computing unterstützen. Weitere Informationen finden Sie unter Unterstützte Zonen ansehen.
  • Erstellen Sie einen GPU-Knotenpool, in dem Confidential GKE Nodes ausgeführt werden, indem Sie „flex-start“ mit der Bereitstellung in der Warteschlange verwenden (Vorabversion):

    gcloud container node-pools create NODE_POOL_NAME \
        --cluster=CLUSTER_NAME \
        --node-locations=NODE_LOCATION1,NODE_LOCATION2,... \
        --machine-type=a3-highgpu-1g --confidential-node-type=tdx \
        --location=LOCATION \
        --flex-start --enable-queued-provisioning \
        --enable-autoscaling --num-nodes=0 --total-max-nodes=TOTAL_MAX_NODES \
        --location-policy=ANY --reservation-affinity=none --no-enable-autorepair \
        --accelerator=type=nvidia-h100-80gb,count=1,gpu-driver-version=disabled
    

    Ersetzen Sie TOTAL_MAX_NODES durch die maximale Anzahl von Knoten, auf die der Knotenpool automatisch skaliert werden kann.

    Weitere Informationen zu den Konfigurationsoptionen für „flex-start with queued provisioning“ finden Sie unter Eine groß angelegte Arbeitslast mit „flex-start with queued provisioning“ ausführen.

Confidential GKE Nodes in vorhandenen Standardknotenpools aktivieren

Sie können vorhandene Standardknotenpools so aktualisieren, dass Flex-Start verwendet wird, wenn für den Cluster auf Clusterebene keine Confidential GKE Nodes aktiviert sind. Prüfen Sie, ob der Cluster und der vorhandene Knotenpool die Anforderungen erfüllen, die im Abschnitt Verfügbarkeit aufgeführt sind.

Informationen zum Aktualisieren Ihrer Knotenpools, damit sie die Intel TDX Confidential Computing-Technologie verwenden, finden Sie unter Vorhandenen Knotenpool aktualisieren.

GPU-Treiber installieren, die Confidential GKE Nodes unterstützen

Nachdem Sie Confidential GKE Nodes in Ihrem GPU-Knotenpool aktiviert haben, müssen Sie Treiber installieren, die die Ausführung von GPU-Arbeitslasten auf diesen Knoten unterstützen.

Für diese Änderung müssen die Knoten neu erstellt werden, was zu Unterbrechungen bei Ihren laufenden Arbeitslasten führen kann. Details zu dieser bestimmten Änderung finden Sie in der entsprechenden Zeile in der Tabelle Manuelle Änderungen, durch die die Knoten mit einer Knotenaktualisierungsstrategie neu erstellt werden, ohne die Wartungsrichtlinien zu beachten. Weitere Informationen zu Knotenupdates finden Sie unter Unterbrechungen bei Knotenupdates planen.

Eine Anleitung finden Sie auf dem Tab „COS“ unter NVIDIA-GPU-Treiber manuell installieren.

Nächste Schritte