手動特徵預先處理

您可以使用 CREATE MODEL 陳述式的 TRANSFORM 子句,搭配手動前置處理函式來定義自訂資料前置處理作業。您也可以在 TRANSFORM 子句之外使用這些手動前置處理函式。

如果您想將資料預先處理作業與模型訓練作業分開,可以使用 TRANSFORM 子句建立僅轉換模型,該模型只會執行資料轉換作業。

您可以使用 ML.TRANSFORM 函式,提高特徵預先處理的透明度。這個函式可讓您從模型的 TRANSFORM 子句傳回預先處理的資料,方便您查看模型訓練所需的實際訓練資料,以及模型服務所需的實際預測資料。

如要瞭解 BigQuery ML 支援的特徵預先處理功能,請參閱「特徵預先處理功能總覽」。

如要瞭解每個模型類型支援的 SQL 陳述式和函式,請參閱「每個模型的端對端使用者歷程」。

預先處理函式的類型

手動預先處理函式分為以下幾種類型:

  • 純量函式會在單一資料列上運作。例如 ML.BUCKETIZE
  • 資料表值函式會對所有資料列運算,並輸出資料表。例如 ML.FEATURES_AT_TIME
  • 分析函式會在所有資料列上運作,並根據所有資料列收集到的統計資料,輸出每個資料列的結果。例如 ML.QUANTILE_BUCKETIZE

    您必須一律使用空白 OVER() 子句搭配機器學習分析函式。

    在訓練期間,如果您在 TRANSFORM 子句中使用 ML 分析函式,系統會自動將相同的統計資料套用至預測輸入內容。

以下各節說明可用的預處理函式。

一般功能

在字串或數值運算式上使用下列函式,即可清理資料:

數值函式

請在數值運算式上使用下列函式,以便規則化資料:

分類函式

請使用下列函式將資料分類:

文字函式

請在文字字串運算式中使用下列函式:

圖片函式

在圖片資料上使用下列函式:

已知限制