NANs Safegraph:

dshemetov · dshemetov · commit 7c2be7133eaf · 2021-02-18T15:57:20.000-08:00
* add missingness columns to safegraph
* add data insufficient if the stderr is missing
* add tests
diff --git a/safegraph/delphi_safegraph/process.py b/safegraph/delphi_safegraph/process.py
@@ -4,9 +4,12 @@
 from typing import List
 import numpy as np
 import pandas as pd
-from delphi_utils.signal import add_prefix
-from delphi_utils.export import create_export_csv
-from delphi_utils.geomap import GeoMapper
+from delphi_utils import (
+    add_prefix,
+    create_export_csv, 
+    GeoMapper,
+    NAN_CODES,
+)
 
 from .constants import HOME_DWELL, COMPLETELY_HOME, FULL_TIME_WORK, PART_TIME_WORK, GEO_RESOLUTIONS
 
@@ -172,7 +175,7 @@ def process_window(df_list: List[pd.DataFrame],
 
     Parameters
     ----------
-    cbg_df: pd.DataFrame
+    df_list: pd.DataFrame
         list of census block group-level frames.
     signal_names: List[str]
         signal names to be processed
@@ -192,15 +195,34 @@ def process_window(df_list: List[pd.DataFrame],
     for geo_res in geo_resolutions:
         aggregated_df = aggregate(cbg_df, signal_names, geo_res)
         for signal in signal_names:
+            columns_to_export = (
+                ['geo_id'] + 
+                [f'{signal}_{x}' for x in ('mean', 'se', 'n')]
+            )
             df_export = aggregated_df[
-                ['geo_id']
-                + [f'{signal}_{x}' for x in ('mean', 'se', 'n')]
+                columns_to_export
             ].rename({
                 f'{signal}_mean': 'val',
                 f'{signal}_se': 'se',
                 f'{signal}_n': 'sample_size',
             }, axis=1)
             df_export["timestamp"] = date.strftime('%Y%m%d')
+
+            # Default missingness codes
+            df_export["missing_val"] = NAN_CODES["Not Missing"]
+            df_export["missing_se"] = NAN_CODES["Not Missing"]
+            # Sample size will never be missing in this indicator
+            # since sample_size just counts the presence of rows for a geo region
+            df_export["missing_sample_size"] = NAN_CODES["Not Missing"]
+            # Add missingness codes as detected
+            # This may occur if all the values are missing for a geographic region
+            remaining_nans_mask = df_export["val"].isnull()
+            df_export.loc[remaining_nans_mask, "missing_val"] = NAN_CODES["Unknown"]
+            # This may occur if all the values are missing for a geographic region
+            # or if the sample size is 1
+            remaining_nans_mask = df_export["se"].isnull()
+            df_export.loc[remaining_nans_mask, "missing_se"] = NAN_CODES["Data Insufficient"]
+
             create_export_csv(df_export,
                               export_dir,
                               geo_res,
diff --git a/safegraph/tests/test_process.py b/safegraph/tests/test_process.py
@@ -155,7 +155,10 @@ def test_process_window(self, tmp_path):
             'geo_id': [1053, 1073],
             'val': [0.04, 0.14],
             'se': [0.02, 0.10],
-            'sample_size': [2, 2]
+            'sample_size': [2, 2],
+            'missing_val': [0, 0],
+            'missing_se': [0, 0],
+            'missing_sample_size': [0, 0],
         })
         actual = pd.read_csv(
             export_dir / '20200214_county_completely_home_prop.csv')
@@ -183,49 +186,73 @@ def test_process(self, tmp_path):
                 'geo_id': ['al', 'ga'],
                 'val': [6, 3.5],
                 'se': [None, 0.5],
-                'sample_size': [1, 2]
+                'sample_size': [1, 2],
+                'missing_val': [0, 0],
+                'missing_se': [4, 0],
+                'missing_sample_size': [0, 0],
             }),
             'completely_home_prop': pd.DataFrame(data={
                 'geo_id': ['al', 'ga'],
                 'val': [0.15, 0.055],
                 'se': [None, 0.005],
-                'sample_size': [1, 2]
+                'sample_size': [1, 2],
+                'missing_val': [0, 0],
+                'missing_se': [4, 0],
+                'missing_sample_size': [0, 0],
             }),
             'part_time_work_prop': pd.DataFrame(data={
                 'geo_id': ['al', 'ga'],
                 'val': [0.35, 0.055],
                 'se': [None, 0.005],
-                'sample_size': [1, 2]
+                'sample_size': [1, 2],
+                'missing_val': [0, 0],
+                'missing_se': [4, 0],
+                'missing_sample_size': [0, 0],
             }),
             'full_time_work_prop': pd.DataFrame(data={
                 'geo_id': ['al', 'ga'],
                 'val': [0.45, 0.055],
                 'se': [None, 0.005],
-                'sample_size': [1, 2]
+                'sample_size': [1, 2],
+                'missing_val': [0, 0],
+                'missing_se': [4, 0],
+                'missing_sample_size': [0, 0],
             }),
             'median_home_dwell_time_7dav': pd.DataFrame(data={
                 'geo_id': ['al', 'ga', 'pa'],
                 'val': [4.5, 3.5, 7.5],
                 'se': [1.5, 0.5, 0.5],
-                'sample_size': [2, 2, 2]
+                'sample_size': [2, 2, 2],
+                'missing_val': [0, 0, 0],
+                'missing_se': [0, 0, 0],
+                'missing_sample_size': [0, 0, 0],
             }),
             'wip_completely_home_prop_7dav': pd.DataFrame(data={
                 'geo_id': ['al', 'ga', 'pa'],
                 'val': [0.1, 0.055, 0.15],
                 'se': [0.05, 0.005, 0.05],
-                'sample_size': [2, 2, 2]
+                'sample_size': [2, 2, 2],
+                'missing_val': [0, 0, 0],
+                'missing_se': [0, 0, 0],
+                'missing_sample_size': [0, 0, 0],
             }),
             'part_time_work_prop_7dav': pd.DataFrame(data={
                 'geo_id': ['al', 'ga', 'pa'],
                 'val': [0.25, 0.055, 0.25],
                 'se': [0.1, 0.005, 0.05],
-                'sample_size': [2, 2, 2]
+                'sample_size': [2, 2, 2],
+                'missing_val': [0, 0, 0],
+                'missing_se': [0, 0, 0],
+                'missing_sample_size': [0, 0, 0],
             }),
             'full_time_work_prop_7dav': pd.DataFrame(data={
                 'geo_id': ['al', 'ga', 'pa'],
                 'val': [0.35, 0.055, 0.35],
                 'se': [0.1, 0.005, 0.05],
-                'sample_size': [2, 2, 2]
+                'sample_size': [2, 2, 2],
+                'missing_val': [0, 0, 0],
+                'missing_se': [0, 0, 0],
+                'missing_sample_size': [0, 0, 0],
             })
         }
         actual = {signal: pd.read_csv(
diff --git a/safegraph/tests/test_run.py b/safegraph/tests/test_run.py
@@ -37,5 +37,13 @@ def test_output_files_format(self, run_as_module):
             # triggered the error.
             print(filename)
             df = pd.read_csv(os.path.join("receiving", filename))
-            assert (df.columns.values ==
-                ["geo_id", "val", "se", "sample_size"]).all()
+            expected_columns = [
+                "geo_id", 
+                "val", 
+                "se", 
+                "sample_size", 
+                "missing_val", 
+                "missing_se", 
+                "missing_sample_size"
+            ]
+            assert (df.columns.values == expected_columns).all()