機器學習管道總覽

本文件將概略說明您可用來建構機器學習管道,以管理 BigQuery ML MLOps 工作流程的服務。

機器學習管道是 MLOps 工作流程的代表,由一系列管道工作組成。每個管道工作都會執行 MLOps 工作流程中的特定步驟,以便訓練及部署模型。將每個步驟分割為標準化且可重複使用的任務,即可在機器學習實務中自動化及監控可重複的程序。

您可以使用下列任一服務建立 BigQuery ML 機器學習管道:

  • 使用 Vertex AI Pipelines 建立可移植且可擴充的機器學習管道。
  • 使用 GoogleSQL 查詢建立較不複雜的 SQL 機器學習管道。
  • 使用 Dataform 建立更複雜的 SQL 機器學習管道,或需要使用版本控制的機器學習管道。

Vertex AI Pipelines

Vertex AI Pipelines 中,機器學習管道的結構是使用輸入/輸出依附元件相互連結的容器化管道工作,以有向無環圖 (DAG) 的形式呈現。每個管道工作都是管道元件的例項化,並具有特定輸入內容。定義機器學習管道時,您可以將一個管道工作的輸出內容,路由至機器學習工作流程中下一個管道工作的輸入內容,藉此連結多個管道工作,形成 DAG。您也可以將 ML 管道的原始輸入內容,用做特定管道工作的輸入內容。

使用 Google Cloud Pipeline Components SDK 的 BigQuery ML 元件,在 Vertex AI Pipelines 中組合機器學習管道。如要開始使用 BigQuery ML 元件,請參閱下列 Notebook:

GoogleSQL 查詢

您可以使用 GoogleSQL 程序語言,在多個陳述式查詢中執行多個陳述式。您可以使用多個陳述式查詢執行以下操作:

  • 依序執行多個陳述式,並共用狀態。
  • 自動執行管理工作,例如建立或刪除資料表。
  • 使用 IFWHILE 等程式設計結構,實作複雜的邏輯。

建立多語句查詢後,您可以儲存排程查詢,以便自動執行模型訓練、推論和監控作業。

如果您的 ML 管道包含 ML.GENERATE_TEXT 函式,請參閱透過重複呼叫 ML.GENERATE_TEXT 處理配額錯誤,進一步瞭解如何使用 SQL 重複呼叫函式。重複呼叫函式可讓您解決因超出配額和限制而發生的任何可重試錯誤。

Dataform

您可以使用 Dataform 在 BigQuery 中開發、測試、版本管控,並安排資料轉換複雜的 SQL 工作流程。您可以使用 Dataform 執行資料整合的擷取、載入和轉換 (ELT) 程序中的資料轉換等工作。從來源系統擷取原始資料並載入 BigQuery 後,Dataform 可協助您將這些資料轉換為經過明確定義、測試及記錄的資料表套件。

如果 ML 管道包含 ML.GENERATE_TEXT 函式的用法,您可以調整 structured_table_ml.js 範例程式庫,以便對函式進行呼叫迭代。重複呼叫函式可讓您解決因超出函式適用的配額和限制而發生的任何可重試錯誤。