cleanup

basedosdados · Aug 14, 2024 · c279437 · c279437
1 parent 1be511e
commit c279437
Show file tree

Hide file tree

Showing 5 changed files with 152,552 additions and 58 deletions.
diff --git a/models/br_inep_saeb/code/br_inep_saeb_brasil.py b/models/br_inep_saeb/code/br_inep_saeb_brasil.py
@@ -118,12 +118,12 @@
         localizacao=lambda df: df["localizacao"].str.lower(),
         serie=lambda df: df["serie"].replace(
             {
-                # em é 12, vai virar 3
-                "em": "3",
-                # em_integral (Ensino Medio Integrado) é 13, vai virar 12
-                "em_integral": "12",
-                # em_regular (Ensino Médio Tradicional + Integrado) é 14, vai virar 13
-                "em_regular": "13",
+                # em é 12
+                "em": "12",
+                # em_integral (Ensino Medio Integrado) é 13
+                "em_integral": "13",
+                # em_regular (Ensino Médio Tradicional + Integrado) é 14
+                "em_regular": "14",
             }
         ),
     )
@@ -164,6 +164,7 @@
 upstream_df.shape
 
 br_saeb_latest_output.shape
+
 drop_empty_lines(br_saeb_latest_output).shape
 
 pd.concat([br_saeb_latest_output, upstream_df]).to_csv(  # type: ignore

diff --git a/models/br_inep_saeb/code/br_inep_saeb_municipio.py b/models/br_inep_saeb/code/br_inep_saeb_municipio.py
@@ -155,12 +155,12 @@
         ),
         serie=lambda df: df["serie"].replace(
             {
-                # em é 12, vai virar 3
-                "em": "3",
-                # em_integral (Ensino Medio Integrado) é 13, vai virar 12
-                "em_integral": "12",
-                # em_regular (Ensino Médio Tradicional + Integrado) é 14, vai virar 13
-                "em_regular": "13",
+                # em é 12
+                "em": "12",
+                # em_integral (Ensino Medio Integrado) é 13
+                "em_integral": "13",
+                # em_regular (Ensino Médio Tradicional + Integrado) é 14
+                "em_regular": "14",
             }
         ),
     )
@@ -199,6 +199,10 @@
 
 assert isinstance(upstream_df, pd.DataFrame)
 
+# upstream_df["serie"].unique()
+#
+# upstream_df["serie"] = upstream_df["serie"].replace({3: 12})
+
 upstream_df = drop_empty_lines(upstream_df)
 
 pd.concat([mun_saeb_latest_output, upstream_df]).to_csv(  # type: ignore

diff --git a/models/br_inep_saeb/code/br_inep_saeb_uf.py b/models/br_inep_saeb/code/br_inep_saeb_uf.py
@@ -6,7 +6,7 @@
     get_nivel_serie_disciplina,
     get_disciplina_serie,
     convert_to_pd_dtype,
-    drop_empty_lines
+    drop_empty_lines,
 )
 
 CWD = os.path.dirname(os.getcwd())
@@ -122,49 +122,14 @@
         disciplina=lambda df: df["disciplina"].str.upper(),
         rede=lambda df: df["rede"].str.lower(),
         localizacao=lambda df: df["localizacao"].str.lower(),
-        # NOTE: O saeb é aplicado no ensino fundamental e médio
-        # 2, 5 e 9 serie do ensino fundamental
-        # O xlsx divulgado pelo INEP traz uma coluna no formato {media|nivel}_{numero}_{disciplina}
-        # Exemplo: `nivel_3_MT5`, `nivel_0_LP12`, veja `RENAMES_UFS`
-        #
-        # As colunas para o ensino médio são essas:
-        #
-        # 12: Ensino Médio Tradicional
-        # 13: Ensino Médio Integrado
-        # 14: Ensino Médio Tradicional + Integrado
-        #
-        # Os dados na BD estão em uma formato sem sentido
-        # A coluna serie tem 2, 5 e 9, tudo certo, mas tem 3, 12 e 13. O que é 3? 14 virou 3?
-        #
-        # O que aconteceu foi:
-        #
-        # 12 (ensino medio tradicional) virou 3
-        # 14 (Ensino Médio Tradicional + Integrado) virou 13
-        # 13 (Ensino Médio Integrado) virou 12
-        #
-        # Veja https://github.com/basedosdados/mais/blob/a5fd53d117d3f0a83d6cf87327a9b4209cf7fcdb/bases/br_inep_saeb/code/br_inep_saeb_brasil.ipynb#L1348-L1351
-        #
-        # A categoria 13 e 14 que virou 12 e 13 na tabela da BD
-        # começou aparacer apenas em 2021. Anteiormente era apenas
-        # 2, 5, 9 e 12, representado 2, 5 e 9 série do ensino fundamental
-        # e 12 o ensino médio tradicional
-        #
-        # Veja que o resultado da query abaixo é zero porque a categoria não
-        # existia para `ano < 2021`
-        #
-        # `select count(*) from `basedosdados.br_inep_saeb.uf` where ano < 2021 and serie in (12, 13)`
-        #
-        # São várias linhas com valores nulos. Deveriam ser removidas, imo.
-        #
-        # Vamos manter o mesmo formato no sense
         serie=lambda df: df["serie"].replace(
             {
-                # em é 12, vai virar 3
-                "em": "3",
-                # em_integral (Ensino Medio Integrado) é 13, vai virar 12
-                "em_integral": "12",
-                # em_regular (Ensino Médio Tradicional + Integrado) é 14, vai virar 13
-                "em_regular": "13",
+                # em é 12
+                "em": "12",
+                # em_integral (Ensino Medio Integrado) é 13
+                "em_integral": "13",
+                # em_regular (Ensino Médio Tradicional + Integrado) é 14
+                "em_regular": "14",
             }
         ),
         sigla_uf=lambda df: df["nome_uf"].replace(
@@ -210,7 +175,6 @@
 upstream_df["serie"].unique()
 
 upstream_df.shape
-drop_empty_lines(upstream_df).shape
 
 upstream_df = drop_empty_lines(upstream_df)