預測 AI 評估服務可讓您評估模型在特定用途上的成效。您也可以將評估視為模型效能的觀察指標。Vertex AI 提供的模型評估服務可透過多種方式融入一般機器學習工作流程:
訓練模型後,請先查看模型評估指標,再部署模型。您可以比較多個模型的評估指標,協助您決定要部署哪個模型。
模型部署到實際工作環境後,請定期使用新資料評估模型。如果評估指標顯示模型效能下降,請考慮重新訓練模型。這項程序稱為「持續評估」。
您如何解讀及使用這些指標,取決於您的業務需求和模型接受訓練解決的問題。舉例來說,您可能會對偽陽性結果的容忍度低於偽陰性結果,反之亦然。這類問題會影響您在迭代模型時,應著重哪些指標。
預測 AI 模型評估服務提供的部分重要指標包括:
功能
如要使用 Vertex AI 評估模型,您必須具備訓練好的模型、批次預測輸出內容和基準真相資料集。以下是使用 Vertex AI 的一般模型評估工作流程:
訓練模型。您可以在 Vertex AI 中使用 AutoML 或自訂訓練功能執行這項操作。
在模型上執行批次預測工作,產生預測結果。
準備實際資料,也就是經過人工判定為「正確標記」的資料。實際值通常是指您在模型訓練程序中使用的測試資料集。
在模型上執行評估工作,評估批次預測結果與真值資料的準確度。
分析評估工作產生的指標。
重複執行模型,看看是否能提高模型的準確度。您可以執行多個評估工作,並比較不同模型或模型版本的多個工作結果。
您可以透過多種方式在 Vertex AI 中執行模型評估:
在Google Cloud 控制台中,透過 Vertex AI Model Registry 建立評估項目。
使用 Vertex AI 的模型評估服務,做為 Vertex AI Pipelines 的管道元件。您可以建立管道執行作業和範本,在自動化 MLOps 工作流程中納入模型評估。
您可以單獨執行模型評估元件,也可以搭配其他管道元件 (例如批次預測元件) 執行。
Vertex AI 支援評估下列模型類型:
圖片
分類
您可以查看及下載下列 Cloud Storage 位置中的結構定義檔案:
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC:精確度和喚回度 (PR) 曲線下的面積,也稱為平均精確度。這個值的範圍從零到一,值越大代表模型品質越高。
- 對數損失:模型預測與目標值之間的交叉熵。範圍從零到無限大,值越低代表模型品質越高。
- 可信度門檻:可信度分數,決定要傳回哪些預測結果。模型會傳回這個值或更高的預測值。可信度門檻越高,精確度就會提高,但喚回率會降低。Vertex AI 會以不同門檻值回傳可信度指標,顯示門檻對精確度和查全率的影響。
- 喚回率:模型正確預測出含有此類別的預測值比例。也稱為「真陽率」。
- 精確度:模型產生的正確分類預測比例。
- 混淆矩陣:混淆矩陣會顯示模型正確預測結果的頻率。如果是預測結果錯誤的情況,矩陣會顯示模型預測的結果。混淆矩陣可協助您瞭解模型在哪些地方「混淆」兩個結果。
表格
分類
您可以查看及下載下列 Cloud Storage 位置中的結構定義檔案:
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC:精確度和喚回度 (PR) 曲線下的面積,也稱為平均精確度。這個值的範圍從零到一,值越大代表模型品質越高。
- AuROC:接收者操作特徵曲線下的面積。範圍從零到一,值越大代表模型品質越高。
- 對數損失:模型預測與目標值之間的交叉熵。範圍從零到無限大,值越低代表模型品質越高。
- 可信度門檻:可信度分數,決定要傳回哪些預測結果。模型會傳回這個值或更高的預測值。可信度門檻越高,精確度就會提高,但喚回率會降低。Vertex AI 會以不同門檻值回傳可信度指標,顯示門檻對精確度和查全率的影響。
- 喚回率:模型正確預測出含有此類別的預測值比例。也稱為「真陽率」。
- Recall at 1:僅考量預測分數最高且不低於每個範例可信度門檻的標籤時的回溯率 (真陽率)。
- 精確度:模型產生的正確分類預測比例。
- 精確度為 1:只考量預測分數最高且不低於每個範例可信度門檻的標籤的精確度。
- F1 分數:精確度與喚回度的調和平均數。如果您要在精確度與喚回度之間找出平衡,且類別分布並不平均,F1 這個指標很有用。
- F1 分數為 1:喚回率為 1 和精確度為 1 的調和平均數。
- 混淆矩陣:混淆矩陣會顯示模型正確預測結果的頻率。如果是預測結果錯誤的情況,矩陣會顯示模型預測的結果。混淆矩陣可協助您瞭解模型在哪些地方「混淆」兩個結果。
- 真陰性計數:模型正確預測負類的次數。
- 真陽性個數:模型正確預測正類的次數。
- 偽陰性計數:模型誤判負類的次數。
- 偽陽性計數:模型錯誤預測正類的次數。
- 偽陽率:在所有預測結果中,錯誤預測結果的比例。
- 偽陽率為 1:僅考量預測分數最高且不低於每個範例可信度門檻的標籤時,偽陽率為 1。
- 模型特徵歸因:Vertex AI 會顯示各項特徵對模型的影響程度。這些值會以百分比的形式提供給每項特徵:百分比越高,代表該特徵對模型訓練的影響越大。請詳閱這項資訊,確保所有最重要的特徵對您的資料和業務問題具有合理意義。
迴歸
您可以查看及下載下列 Cloud Storage 位置中的結構定義檔案:
gs://google-cloud-aiplatform/schema/modelevaluation/
- MAE:平均絕對誤差 (MAE) 是目標值與預測值之間的平均絕對差異。這個指標的範圍從零到無限大,值越低代表模型品質越好。
- RMSE:均方根誤差是目標值與預測值之間的均方差平方根。RMSE 對離群值比 MAE 更敏感,所以如果您擔心大型誤差,RMSE 可作為更實用的評估指標。和 MAE 一樣,值越小代表模型品質越高 (0 代表完美預測因子)。
- RMSLE:均方根對數誤差指標與 RMSE 相似,但會使用預測值和實際值的對數加上 1。相較於均方根誤差,均方根對數誤差對低估的懲罰較重。如果您不希望系統對大預測值的差異處以比小預測值更嚴厲的懲罰,這也是不錯的指標。這個指標的範圍從零到無限大,值越低代表模型品質越高。只有在所有標記和預測值皆為非負值時,系統才會傳回 RMSLE 評估指標。
- r^2:r 平方 (r^2) 是標籤與預測值之間的皮爾森相關係數平方,這項指標的範圍介於 0 至 1 之間。值越高,表示與迴歸線的擬合度越高。
-
MAPE:平均絕對百分比誤差 (MAPE) 是標籤和預測值之間的平均絕對百分比差異。這個指標的範圍介於零到無限大之間,值越小代表模型品質越好。
如果目標資料欄含有任何 0 值,系統就不會顯示 MAPE。在這種情況下,MAPE 未定義。 - 模型特徵歸因:Vertex AI 會顯示各項特徵對模型的影響程度。這些值會以百分比的形式提供給每項特徵:百分比越高,代表該特徵對模型訓練的影響越大。請詳閱這項資訊,確保所有最重要的特徵對您的資料和業務問題具有合理意義。
預測
您可以查看及下載下列 Cloud Storage 位置中的結構定義檔案:
gs://google-cloud-aiplatform/schema/modelevaluation/
- MAE:平均絕對誤差 (MAE) 是目標值與預測值之間的平均絕對差異。這個指標的範圍從零到無限大,值越低代表模型品質越好。
- RMSE:均方根誤差是目標值與預測值之間的均方差平方根。RMSE 對離群值比 MAE 更敏感,所以如果您擔心大型誤差,RMSE 可作為更實用的評估指標。和 MAE 一樣,值越小代表模型品質越高 (0 代表完美預測因子)。
- RMSLE:均方根對數誤差指標與 RMSE 相似,但會使用預測值和實際值的對數加上 1。相較於均方根誤差,均方根對數誤差對低估的懲罰較重。如果您不希望系統對大預測值的差異處以比小預測值更嚴厲的懲罰,這也是不錯的指標。這個指標的範圍從零到無限大,值越低代表模型品質越高。只有在所有標記和預測值皆為非負值時,系統才會傳回 RMSLE 評估指標。
- r^2:r 平方 (r^2) 是標籤與預測值之間的皮爾森相關係數平方,這項指標的範圍介於 0 至 1 之間。值越高,表示與迴歸線的擬合度越高。
-
MAPE:平均絕對百分比誤差 (MAPE) 是標籤和預測值之間的平均絕對百分比差異。這個指標的範圍介於零到無限大之間,值越小代表模型品質越好。
如果目標資料欄含有任何 0 值,系統就不會顯示 MAPE。在這種情況下,MAPE 未定義。 - WAPE:加權絕對百分比誤差 (WAPE) 是模型預測值與觀察值之間的整體差異,與 RMSE 相比,WAPE 會將權重放在整體差異,而非個別差異,後者可能會受到低值或間歇值的高度影響。值越低,表示模型品質越高。
- RMSPE:均方根百分比誤差 (RMPSE) 會以實際值的百分比顯示 RMSE,而非絕對數字。值越低,代表模型品質越高。
- 百分位數:百分位數,表示觀察值低於預測值的機率。舉例來說,在 0.5 分位數中,觀察值應有 50% 的時間低於預測值。
- 觀察到的分位數:顯示在特定分位數中,低於預測值的實際值所占的百分比。
- 經過縮放的彈珠檯損失:特定分位數的經過縮放的彈珠檯損失。值越低,表示在指定的百分位數中,模型品質越高。
文字
分類
您可以查看及下載下列 Cloud Storage 位置中的結構定義檔案:
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC:精確度和喚回度 (PR) 曲線下的面積,也稱為平均精確度。這個值的範圍從零到一,值越大代表模型品質越高。
- 對數損失:模型預測與目標值之間的交叉熵。範圍從零到無限大,值越低代表模型品質越高。
- 可信度門檻:可信度分數,決定要傳回哪些預測結果。模型會傳回這個值或更高的預測值。可信度門檻越高,精確度就會提高,但喚回率會降低。Vertex AI 會以不同門檻值回傳可信度指標,顯示門檻對精確度和查全率的影響。
- 喚回率:模型正確預測出含有此類別的預測值比例。也稱為「真陽率」。
- Recall at 1:僅考量預測分數最高且不低於每個範例可信度門檻的標籤時的回溯率 (真陽率)。
- 精確度:模型產生的正確分類預測比例。
- 精確度為 1:僅考量預測分數最高且不低於每個範例可信度門檻的標籤時的精確度。
- 混淆矩陣:混淆矩陣會顯示模型正確預測結果的頻率。如果是預測結果錯誤的情況,矩陣會顯示模型預測的結果。混淆矩陣可協助您瞭解模型在哪些地方「混淆」兩個結果。
- F1 分數:精確度與喚回度的調和平均數。如果您要在精確度與喚回度之間找出平衡,且類別分布並不平均,F1 這個指標很有用。
- F1 分數為 1:喚回率為 1 和精確度為 1 的調和平均數。
影片
分類
您可以查看及下載下列 Cloud Storage 位置中的結構定義檔案:
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC:精確度和喚回度 (PR) 曲線下的面積,也稱為平均精確度。這個值的範圍從零到一,值越大代表模型品質越高。
- 可信度門檻:可信度分數,決定要傳回哪些預測結果。模型會傳回這個值或更高的預測值。可信度門檻越高,精確度就會提高,但喚回率會降低。Vertex AI 會以不同門檻值回傳可信度指標,顯示門檻對精確度和查全率的影響。
- 喚回率:模型正確預測出含有此類別的預測值比例。也稱為「真陽率」。
- 精確度:模型產生的正確分類預測比例。
- 混淆矩陣:混淆矩陣會顯示模型正確預測結果的頻率。如果是預測結果錯誤的情況,矩陣會顯示模型預測的結果。混淆矩陣可協助您瞭解模型在哪些地方「混淆」兩個結果。
- F1 分數:精確度與喚回度的調和平均數。如果您要在精確度與喚回度之間找出平衡,且類別分布並不平均,F1 這個指標很有用。
筆記本教學課程
AutoML:Tabular
AutoML:文字
AutoML:Video
自訂訓練:表格式
Vertex AI Model Registry
後續步驟
- 瞭解如何使用 Vertex AI 執行模型評估。