手動特徵預先處理
您可以使用 CREATE MODEL
陳述式的 TRANSFORM
子句,搭配手動前置處理函式來定義自訂資料前置處理作業。您也可以在 TRANSFORM
子句之外使用這些手動前置處理函式。
如果您想將資料預先處理作業與模型訓練作業分開,可以使用 TRANSFORM
子句建立僅轉換模型,該模型只會執行資料轉換作業。
您可以使用 ML.TRANSFORM
函式,提高特徵預先處理的透明度。這個函式可讓您從模型的 TRANSFORM
子句傳回預先處理的資料,方便您查看模型訓練所需的實際訓練資料,以及模型服務所需的實際預測資料。
如要瞭解 BigQuery ML 支援的特徵預先處理功能,請參閱「特徵預先處理功能總覽」。
如要瞭解每個模型類型支援的 SQL 陳述式和函式,請參閱「每個模型的端對端使用者歷程」。
預先處理函式的類型
手動預先處理函式分為以下幾種類型:
- 純量函式會在單一資料列上運作。例如
ML.BUCKETIZE
。 - 資料表值函式會對所有資料列運算,並輸出資料表。例如
ML.FEATURES_AT_TIME
。 分析函式會在所有資料列上運作,並根據所有資料列收集到的統計資料,輸出每個資料列的結果。例如
ML.QUANTILE_BUCKETIZE
。您必須一律使用空白
OVER()
子句搭配機器學習分析函式。在訓練期間,如果您在
TRANSFORM
子句中使用 ML 分析函式,系統會自動將相同的統計資料套用至預測輸入內容。
以下各節說明可用的預處理函式。
一般功能
在字串或數值運算式上使用下列函式,即可清理資料:
數值函式
請在數值運算式上使用下列函式,以便規則化資料:
ML.BUCKETIZE
ML.MAX_ABS_SCALER
ML.MIN_MAX_SCALER
ML.NORMALIZER
ML.POLYNOMIAL_EXPAND
ML.QUANTILE_BUCKETIZE
ML.ROBUST_SCALER
ML.STANDARD_SCALER
分類函式
請使用下列函式將資料分類:
文字函式
請在文字字串運算式中使用下列函式:
圖片函式
在圖片資料上使用下列函式:
已知限制
- BigQuery ML 支援自動預先處理和手動預先處理模型匯出功能。如要匯出使用 BigQuery ML
TRANSFORM
子句訓練的模型,請參閱支援的資料類型和函式。