[dbt]br_tse_filiacao_partidaria__microdados_antigos, novo custom_test e macro #791
Add this suggestion to a batch that can be applied as a single commit.
This suggestion is invalid because no changes were made to the code.
Suggestions cannot be applied while the pull request is closed.
Suggestions cannot be applied while viewing a subset of changes.
Only one suggestion per line can be applied in a batch.
Add this suggestion to a batch that can be applied as a single commit.
Applying suggestions on deleted lines is not supported.
You must change the existing code in this line in order to create a valid suggestion.
Outdated suggestions cannot be applied.
This suggestion has been applied or marked resolved.
Suggestions cannot be applied from pending reviews.
Suggestions cannot be applied on multi-line comments.
Suggestions cannot be applied while the pull request is queued to merge.
Suggestion cannot be applied right now. Please check back later.
Objetivos:
br_tse_filiacao_partidaria__microdados_antigos
renomeação do atualmicrodados
em prodcustom_not_null_proportion_multiple_columns
Incluir excessões em not_null_multiple_columns #783validate_date_range
br_tse_filiacao_partidaria
Detalhe dos testes
Coluna: id_municipio_tse
Teste:
relationships
Diretorio Alvo:br_bd_diretorios_brasil.municipio
Situação: Temos 130 ids que não se relacionam com o nosso diretorio. Todos eles aparecem como ids referente alguma localização estranhageira.
Solução: Remoção do teste enquanto não for insertido os ids faltantes.
Query:
Coluna: sigla_uf
Teste:
custom_relationships
Diretorio Alvo:br_bd_diretorios_brasil.uf
Situação: Sigla 'ZZ' não se encontra no diretorio.
Solução: Colocar 'ZZ' dentro dos valores a serém ignorados dentro do teste
Query:
Aplicação
validate_date_range
Nas colunas com datas tínhamos valores muito fora da realidade, foi aplicado um filtro para validar datas entre 1980 à o atual ano.
Anteriormente tinha como Max data o
9990-12-02
depois dovalidate_date_range
temo o2023-10-01
Anteriormente tinha como Min data o
0001-01-01
depois dovalidate_date_range
temo o1980-01-01
validate_date_range
validate_date_range
custom_not_null_proportion_multiple_columns
Coluna
data_regularizacao
tem menos de 1% de preenchimento e foi colocada como coluna a ser ignorada pelo testeCSV com preenchimento completo da tabela ➡️ 📁
Teste: unique_combination_of_columns
Situação: Apos aplicação do filtro de validação de datas entre 1980 à atual, existem
data_filiacao
que são nulos. O que faz ter linhas duplicadas. Invalidando o teste deunique_combination_of_columns
Query:
Podemos ver com a query abaixo que a única coisa que diferencia entre algumas linhas da consulta é a
data_filiacao
. (Dados antes de qualquer tratamento)