Cercare problemi di qualità dei dati
Questo documento spiega come utilizzare BigQuery e il Catalogo universale Dataplex insieme per garantire che i dati soddisfino le tue aspettative in termini di qualità. La qualità automatica dei dati del Catalogo universale di Dataplex ti consente di definire e misurare la qualità dei dati nelle tabelle BigQuery. Puoi automatizzare la scansione dei dati, convalidarli in base a regole definite e registrare avvisi se i dati non soddisfano i requisiti di qualità.
Per ulteriori informazioni sulla qualità dei dati automatica, consulta la panoramica della qualità dei dati automatica.
Prima di iniziare
Per creare e modificare le analisi nel tuo progetto: abilita l'API Dataplex.
Per le analisi tra progetti: crea un identificatore di servizio Dataplex Universal Catalog con il comando
gcloud beta services identity create
. Se non esiste un identificatore di servizio del Catalogo universale Dataplex, questo comando ne restituisce uno nuovo. Se esiste già un identificatore di servizio, il comando lo restituisce. Questo comando potrebbe richiedere l'installazione del componente Comandi beta di gcloud CLI.gcloud beta services identity create --service=dataplex.googleapis.com
Ruoli obbligatori
Chiedi all'amministratore di concedere i seguenti ruoli ai principali dell'account appropriati in base ai casi d'uso a cui devono accedere. Per ulteriori informazioni sulla concessione dei ruoli, consulta Gestire l'accesso.
Ruoli BigQuery
- Visualizzatore dati BigQuery in una tabella per creare una scansione della tabella senza pubblicare i risultati.
- Per pubblicare i risultati della scansione nelle pagine del Catalogo universale BigQuery e Dataplex nella Google Cloud console: Editor di dati BigQuery nella tabella.
- Per pubblicare i risultati della scansione come metadati del Catalogo universale Dataplex:
Editor di dati BigQuery nella tabella e l'autorizzazione
dataplex.entryGroups.useDataQualityScorecardAspect
nel@bigquery
gruppo di voci nella stessa posizione della tabella. In alternativa, devi disporre del ruolo Editor di Dataplex Catalog per il gruppo di voci@bigquery
nella stessa posizione della tabella. - Se la tabella BigQuery e la scansione della qualità dei dati si trovano in progetti diversi, devi concedere all'account di servizio Catalogo universale Dataplex l'autorizzazione di lettura
bigquery.tables.getData
(o il ruolo Visualizzatore dati BigQuery) alla tabella BigQuery corrispondente. Per ottenere l'identità di servizio per un account di servizio, consulta Prima di iniziare. - Se stai eseguendo la scansione di una tabella esterna BigQuery da Cloud Storage, assegna il ruolo Cloud Storage (
roles/storage.objectViewer
) all'account del servizio Dataplex Universal Catalog.
Ruoli di Dataplex Universal Catalog
- Amministratore DataScan Dataplex a livello di progetto per creare le analisi.
- Dataplex DataScan Editor in una scansione: per modificare le proprietà di una scansione (tranne le autorizzazioni), eseguirla ed eliminarla.
- Dataplex DataScan DataViewer su una scansione per visualizzare i risultati di una scansione.
Questi ruoli contengono le autorizzazioni necessarie per i casi d'uso precedenti. Per visualizzare le autorizzazioni esattamente richieste, espandi la sezione Autorizzazioni richieste.
Autorizzazioni obbligatorie
Per utilizzare vari aspetti delle analisi della qualità dei dati, sono necessarie le seguenti autorizzazioni:
- Per modificare la configurazione di una scansione dei dati:
dataplex.datascans.update
- nella risorsa datascan - Per modificare il criterio di una scansione dei dati:
dataplex.datascans.setIamPolicy
- nella risorsa datascan - Per creare una scansione dei dati in una tabella BigQuery:
bigquery.tables.getData
: la tabella da scansionare - Per creare scansioni dei dati in un progetto:
dataplex.datascans.create
- nel progetto - Per eliminare una scansione dei dati:
dataplex.datascans.delete
- nella risorsa datascan - Per esportare i risultati della ricerca dei dati in un set di dati BigQuery:
bigquery.datasets.get
,bigquery.tables.create
,bigquery.tables.get
,bigquery.tables.update
,bigquery.tables.updateData
: il set di dati di destinazione - Per pubblicare i risultati di una scansione dei dati in una tabella nelle pagine del Catalogo universale BigQuery o Dataplex nella Google Cloud console:
bigquery.tables.update
: la tabella di destinazione Per pubblicare i risultati di una scansione dei dati come metadati del Catalogo universale Dataplex, hai bisogno di uno dei seguenti insiemi di autorizzazioni:
bigquery.tables.get
,bigquery.tables.update
,bigquery.tables.updateData
,bigquery.tables.delete
- nella tabella di destinazione. Inoltre,dataplex.entryGroups.useDataQualityScorecardAspect
- nel gruppo di voci@bigquery
dataplex.entries.update
edataplex.entryGroups.useDataQualityScorecardAspect
- nel gruppo di voci@bigquery
- Per eseguire una scansione dei dati:
dataplex.datascans.run
- nella risorsa datascan - Per eseguire la scansione di una tabella esterna da Cloud Storage:
storage.buckets.get
,storage.objects.get
: il bucket contenente le tabelle da scansionare - Per visualizzare i risultati di una scansione dei dati:
dataplex.datascans.getData
- nella risorsa di scansione dei dati - Per visualizzare i risultati di una scansione dei dati:
dataplex.datascans.get
- nella risorsa datascan - Per visualizzare i risultati di una scansione dei dati:
dataplex.datascans.list
- nella risorsa datascan
Potresti anche ottenere queste autorizzazioni con ruoli personalizzati o altri ruoli predefiniti.
Creare una scansione della qualità dei dati
Nella console Google Cloud , vai alla pagina BigQuery.
Nel riquadro Explorer, fai clic su una tabella per la scansione della qualità dei dati.
Fai clic sulla scheda Qualità dei dati.
Fai clic su Scansione della qualità dei dati > Crea nuova scansione.
(Facoltativo) Modifica i seguenti valori:
- Nome visualizzato:il nome mutabile della risorsa nella console.
- ID:un identificatore univoco per la scansione. Non può essere modificato dopo la creazione della scansione.
- Descrizione: una descrizione della scansione.
- Regione:definisce la regione in cui viene eseguita la scansione dei dati.
- Ambito:l'intervallo di dati disponibili per la scansione. Seleziona Incrementale o Tutti i dati.
Se scegli Incrementale, ti consigliamo di includere una colonna
DATE
oTIMESTAMP
che aumenti in modo lineare. Questa colonna può essere utilizzata per identificare i nuovi record. Per le tabelle partizionate su colonne di tipoDATE
oTIMESTAMP
, è consigliabile utilizzare la colonna di partizione come campo timestamp. - Filtri:i filtri da applicare ai dati prima dell'esecuzione della scansione. Per
filtrare le righe, seleziona la casella di controllo Filtra righe e inserisci un'espressione SQL valida nel campo di testo di immissione. L'espressione deve essere in
sintassi SQL standard di BigQuery e può essere utilizzata in una
clausola
WHERE
. - Dimensione del campione: la percentuale di dati da campionate. Per le analisi dei dati incrementali, viene campionato solo l'incremento più recente.
- Pubblica i risultati nell'interfaccia utente di BigQuery e Dataplex Catalog:con questa opzione, i risultati più recenti dell'analisi di profilazione dei dati sono disponibili nell'interfaccia utente di BigQuery, nella scheda Qualità dei dati per la tabella di origine. Se è in corso una scansione e questa è impostata per la pubblicazione, questa opzione potrebbe non essere disponibile.
- Pianifica:On demand (predefinito) o
Ripeti. Se selezioni Ripeti, specifica la frequenza della scansione pianificata con Giornaliera, Settimanale, Mensile o Personalizzata.
La pianificazione personalizzata utilizza il formato della data e dell'ora cron per specificare la pianificazione. Ad esempio, una scansione impostata per essere eseguita il secondo martedì del mese alle 01:00 avrà il seguente aspetto:
0 1 8-14 * 2
.
Per avanzare nel riquadro e visualizzare le impostazioni delle regole della qualità dei dati, fai clic su Continua.
Fai clic su Aggiungi regole e aggiungi una o più delle seguenti regole, se opportuno. Le regole possono essere eliminate anche con
Rimuovi.- Consigli basati sul profilo
- Tipi di regole integrate
- Regola per il controllo delle righe SQL
- Regola per il controllo aggregato SQL
(Facoltativo) Per avanzare nel riquadro in modo da visualizzare altre impostazioni facoltative, fai clic su Continua e modifica i seguenti valori:
- Esporta i risultati della scansione in una tabella BigQuery:seleziona un set di dati BigQuery e una tabella per salvare i risultati della scansione della qualità. Se è definito un set di dati, ma non è definita alcuna tabella, Dataplex Universal Catalog ne crea una per te. Le tabelle create in questo modo potrebbero comportare costi di archiviazione.
- Etichette: aggiungi un'etichetta alla scansione.
Fai clic su uno dei seguenti pulsanti in base alle tue esigenze:
- Per salvare le impostazioni di scansione, fai clic su Crea.
- Per salvare ed eseguire la scansione, fai clic su Esegui.
Gestire le autorizzazioni di analisi della qualità dei dati
Per modificare le autorizzazioni di accesso delle analisi della qualità esistenti:
Vai alla pagina BigQuery.
Nel riquadro Explorer, seleziona una tabella per la scansione della qualità dei dati.
Fai clic sulla scheda Qualità dei dati.
Fai clic su Scansione della qualità dei dati > Gestisci le autorizzazioni di scansione. Si apre il Catalogo universale Dataplex in una nuova scheda.
Fai clic sulla scheda Autorizzazioni.
- Per concedere l'accesso a un entità, fai clic su Concedi accesso e concedi DataViewer Dataplex DataScan all'entità associata.
- Per rimuovere l'accesso da un'entità principale, fai clic su Rimuovi accesso e rimuovi DataViewer di DataScan di Dataplex dall'entità principale associata.
Modificare un'analisi della qualità dei dati esistente
Nella console Google Cloud , vai alla pagina BigQuery.
Nel riquadro Explorer, seleziona una tabella per la scansione della qualità dei dati.
Fai clic su Scansione qualità dei dati > Modifica configurazione scansione.
Vengono visualizzate le impostazioni di analisi della qualità dei dati, che possono essere modificate e salvate per le analisi future.
Visualizzare i risultati dell'analisi della qualità dei dati
Esistono diversi modi per visualizzare i risultati della scansione della qualità dei dati. Seleziona l'opzione che meglio si adatta alle tue esigenze.
Visualizzare i risultati pubblicati
Nella console Google Cloud , vai alla pagina BigQuery.
Nel riquadro Explorer, seleziona una tabella per la scansione della qualità dei dati.
Fai clic sulla scheda Qualità dei dati.
In questa visualizzazione vengono mostrati i risultati pubblicati più di recente.
Visualizzare i risultati delle analisi storiche
Nella console Google Cloud , vai alla pagina BigQuery.
Nel riquadro Explorer, seleziona una tabella per la scansione della qualità dei dati.
Fai clic sulla scheda Qualità dei dati.
Fai clic su Scansione della qualità dei dati > Visualizza i risultati storici.
Visualizzare tutte le analisi della qualità dei dati in una tabella
Per aprire Dataplex Universal Catalog con una cronologia delle scansioni per una tabella specifica:
Nella console Google Cloud , vai alla pagina BigQuery.
Nel riquadro Explorer, seleziona una tabella per la scansione della qualità dei dati.
Fai clic su Analisi della qualità dei dati > Visualizza tutte le analisi.