shared_utils to calitp_data_analysis for msd_dashboard_metric/

tiffanychu90 · tiffanychu90 · commit 5ee01552dd1d · 2023-09-29T00:30:21.000Z
diff --git a/msd_dashboard_metric/01_area_population_metrics.ipynb b/msd_dashboard_metric/01_area_population_metrics.ipynb
@@ -22,11 +22,10 @@
     "\n",
     "os.environ[\"CALITP_BQ_MAX_BYTES\"] = str(100_000_000_000)\n",
     "\n",
-    "from calitp.tables import tbl\n",
+    "from calitp_data_analysis.tables import tbls\n",
     "from siuba import *\n",
     "from IPython.display import Markdown\n",
     "\n",
-    "import shared_utils\n",
     "from utils import *"
    ]
   },
@@ -40,22 +39,20 @@
     "#create_coverage_data.save_initial_data()\n",
     "\n",
     "# Read in data from queries\n",
-    "ca_block_joined = shared_utils.utils.download_geoparquet(GCS_FILE_PATH, \n",
-    "                                                         'block_population_joined')\n",
+    "ca_block_joined = gpd.read_parquet(\n",
+    "    f\"{GCS_FILE_PATH}block_population_joined.parquet\")\n",
     "rt_complete = pd.read_parquet(f\"{GCS_FILE_PATH}rt_complete.parquet\")\n",
-    "all_stops = shared_utils.utils.download_geoparquet(GCS_FILE_PATH, \n",
-    "                                                   'all_stops')\n",
-    "accessible_stops_trips = shared_utils.utils.download_geoparquet(GCS_FILE_PATH, \n",
-    "                                                                'accessible_stops_trips')\n",
+    "all_stops = gpd.read_parquet(f\"{GCS_FILE_PATH}all_stops.parquet\")\n",
+    "accessible_stops_trips = gpd.read_parquet(\n",
+    "    f\"{GCS_FILE_PATH}accessible_stops_trips.parquet\")\n",
     "\n",
     "# Read in employment data by tract\n",
     "#tract_pop_employ_filtered = create_coverage_data.get_employment_tract_data()\n",
     "#shared_utils.utils.geoparquet_gcs_export(tract_pop_employ_filtered, \n",
     "#                                         GCS_FILE_PATH, 'tract_pop_employ_filtered')\n",
     "\n",
-    "tract_pop_employ_filtered = shared_utils.utils.download_geoparquet(GCS_FILE_PATH,\n",
-    "                                                                   'tract_pop_employ_filtered'\n",
-    "                                                                  )"
+    "tract_pop_employ_filtered = gpd.read_parquet(\n",
+    "    f\"{GCS_FILE_PATH}tract_pop_employ_filtered.parquet\")"
    ]
   },
   {
@@ -98,8 +95,7 @@
     "\n",
     "for key, value in rename_block_files.items():\n",
     "    print(key)\n",
-    "    sjoin_blocks[key] = shared_utils.utils.download_geoparquet(\n",
-    "        GCS_FILE_PATH, value)"
+    "    sjoin_blocks[key] = gpd.read_parquet(f\"{GCS_FILE_PATH}{value}.parquet\")"
    ]
   },
   {
@@ -256,8 +252,8 @@
     }
    ],
    "source": [
-    "block_level_static = shared_utils.utils.download_geoparquet(\n",
-    "        GCS_FILE_PATH, \"block_level_static\")\n",
+    "block_level_static = gpd.read_parquet(\n",
+    "    f\"{GCS_FILE_PATH}block_level_static.parquet\")\n",
     "\n",
     "display(Markdown(f\"### All Stops Static\"))\n",
     "\n",
@@ -541,8 +537,8 @@
     "\n",
     "for t in tract_files:\n",
     "    print(t)\n",
-    "    sjoin_tracts[t] = shared_utils.utils.download_geoparquet(\n",
-    "        GCS_FILE_PATH, t)"
+    "    sjoin_tracts[t] = gpd.read_parquet(\n",
+    "        f\"{GCS_FILE_PATH}{t}.parquet\")"
    ]
   },
   {
@@ -596,8 +592,8 @@
    "source": [
     "def make_coverage_summary():\n",
     "    \n",
-    "    tract_df = shared_utils.utils.download_geoparquet(\n",
-    "        GCS_FILE_PATH, \"tract_all_stops\")\n",
+    "    tract_df = gpd.read_parquet(\n",
+    "        f\"{GCS_FILE_PATH}tract_all_stops.parquet\")\n",
     "    \n",
     "    ## since employment data is tract-level, only includes tracts < 4 sq km (~60% of jobs)\n",
     "    employment_summary = (tract_df\n",
@@ -610,11 +606,11 @@
     "\n",
     "    SQ_MI_PER_SQ_M = 3.86e-7\n",
     "    \n",
-    "    block_level_static = shared_utils.utils.download_geoparquet(\n",
-    "        GCS_FILE_PATH, \"block_level_static\")\n",
+    "    block_level_static = gpd.read_parquet(\n",
+    "        f\"{GCS_FILE_PATH}block_level_static.parquet\")\n",
     "    \n",
-    "    block_level_accessible = shared_utils.utils.download_geoparquet(\n",
-    "        GCS_FILE_PATH, \"block_level_accessible\")\n",
+    "    block_level_accessible = gpd.read_parquet(\n",
+    "        f\"{GCS_FILE_PATH}block_level_accessible.parquet\")\n",
     "    \n",
     "    coverage_summary = (block_level_static\n",
     "                        >> group_by(_.calitp_itp_id)\n",
@@ -688,7 +684,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.9.7"
+   "version": "3.9.13"
   }
  },
  "nbformat": 4,
diff --git a/msd_dashboard_metric/02_coverage_mapping.ipynb b/msd_dashboard_metric/02_coverage_mapping.ipynb
@@ -22,8 +22,7 @@
     "\n",
     "from siuba import *\n",
     "\n",
-    "from shared_utils import map_utils\n",
-    "from shared_utils import calitp_color_palette as cp\n",
+    "from calitp_data_analysis import calitp_color_palette as cp\n",
     "from utils import *"
    ]
   },
@@ -515,7 +514,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.9.7"
+   "version": "3.9.13"
   }
  },
  "nbformat": 4,
diff --git a/msd_dashboard_metric/03_accessibility_feeds.ipynb b/msd_dashboard_metric/03_accessibility_feeds.ipynb
@@ -44,8 +44,8 @@
     "import warehouse_queries\n",
     "import create_accessibility_data\n",
     "import setup_charts\n",
-    "from shared_utils import styleguide\n",
-    "from shared_utils import calitp_color_palette as cp\n",
+    "from calitp_data_analysis import styleguide\n",
+    "from calitp_data_analysis import calitp_color_palette as cp\n",
     "\n",
     "alt.themes.register(\"calitp_theme\", styleguide.calitp_theme)\n",
     "# enable\n",
@@ -508,7 +508,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.9.7"
+   "version": "3.9.13"
   }
  },
  "nbformat": 4,
diff --git a/msd_dashboard_metric/06_summary_metrics.ipynb b/msd_dashboard_metric/06_summary_metrics.ipynb
@@ -20,8 +20,6 @@
     "import geopandas as gpd\n",
     "\n",
     "from siuba import *\n",
-    "\n",
-    "import shared_utils\n",
     "from utils import *"
    ]
   },
@@ -32,11 +30,11 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "ca_block_joined = shared_utils.utils.download_geoparquet(GCS_FILE_PATH, \n",
-    "                                                         'block_population_joined')\n",
-    "tract_pop_employ_filtered = shared_utils.utils.download_geoparquet(GCS_FILE_PATH,\n",
-    "                                                                   'tract_pop_employ_filtered'\n",
-    "                                                                  )"
+    "ca_block_joined = gpd.read_parquet(\n",
+    "    f\"{GCS_FILE_PATH}block_population_joined.parquet\")\n",
+    "\n",
+    "tract_pop_employ_filtered = gpd.read_parquet(\n",
+    "    f\"{GCS_FILE_PATH}tract_pop_employ_filtered.parquet\")"
    ]
   },
   {
@@ -67,12 +65,11 @@
     "\n",
     "for key, value in rename_block_files.items():\n",
     "    print(key)\n",
-    "    sjoin_blocks[key] = shared_utils.utils.download_geoparquet(\n",
-    "        GCS_FILE_PATH, value)\n",
+    "    sjoin_blocks[key] = gpd.read_parquet(f\"{GCS_FILE_PATH}{value}.parquet\")\n",
     "\n",
     "# This one needs to be read in as df, in a dict, kernel will crash\n",
-    "block_level_static = shared_utils.utils.download_geoparquet(GCS_FILE_PATH, \n",
-    "                                                            \"block_level_static\")"
+    "block_level_static = gpd.read_parquet(\n",
+    "    f\"{GCS_FILE_PATH}block_level_static.parquet\")"
    ]
   },
   {
@@ -101,8 +98,8 @@
     "\n",
     "for t in tract_files:\n",
     "    print(t)\n",
-    "    sjoin_tracts[t] = shared_utils.utils.download_geoparquet(\n",
-    "        GCS_FILE_PATH, t)"
+    "    sjoin_tracts[t] = gpd.read_parquet(\n",
+    "        f\"{GCS_FILE_PATH}{t}.parquet\")"
    ]
   },
   {
@@ -282,7 +279,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.9.7"
+   "version": "3.9.13"
   }
  },
  "nbformat": 4,
diff --git a/msd_dashboard_metric/07_fares_v2.ipynb b/msd_dashboard_metric/07_fares_v2.ipynb
@@ -42,8 +42,9 @@
     "import create_accessibility_data\n",
     "import setup_charts\n",
     "import utils\n",
-    "from shared_utils import geography_utils, styleguide\n",
-    "from shared_utils import calitp_color_palette as cp\n",
+    "from calitp_data_analysis import styleguide\n",
+    "from calitp_data_analysis import calitp_color_palette as cp\n",
+    "from shared_utils import portfolio_utils\n",
     "\n",
     "display(Markdown(\n",
     "        f\"<b>Report updated / data available through: \"\n",
@@ -69,7 +70,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "feeds_by_date = (geography_utils.aggregate_by_geography(\n",
+    "feeds_by_date = (portfolio_utils.aggregate_by_geography(\n",
     "        fares_feeds,\n",
     "        group_cols = [\"date\"],\n",
     "        count_cols = [\"feed_key\"]\n",
@@ -200,7 +201,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.9.7"
+   "version": "3.9.13"
   }
  },
  "nbformat": 4,
diff --git a/msd_dashboard_metric/create_coverage_data.py b/msd_dashboard_metric/create_coverage_data.py
@@ -6,12 +6,12 @@
 
 os.environ["CALITP_BQ_MAX_BYTES"] = str(100_000_000_000)
 
-from calitp.tables import tbl
+from calitp_data_analysis.tables import tbls
 from calitp_data_analysis.sql import query_sql
 from siuba import *
 
-import utils
-import shared_utils
+import utils as _utils
+from calitp_data_analysis import geography_utils, utils
 
 
 catalog = intake.open_catalog("./catalog.yml")
@@ -41,7 +41,7 @@ def get_employment_tract_data():
                        )
     
     tract_pop_employ = tract_pop_employ.to_crs(
-                        shared_utils.geography_utils.CA_NAD83Albers)
+                        geography_utils.CA_NAD83Albers)
     tract_pop_employ['area'] = tract_pop_employ.geometry.area
     
     
@@ -70,18 +70,18 @@ def get_employment_tract_data():
 
 
 def save_initial_data():
-    ca_block_joined = utils.get_ca_block_geo()
-    shared_utils.utils.geoparquet_gcs_export(ca_block_joined, utils.GCS_FILE_PATH, 
+    ca_block_joined = _utils.get_ca_block_geo()
+    utils.geoparquet_gcs_export(ca_block_joined, _utils.GCS_FILE_PATH, 
                                              'block_population_joined')
     
-    all_stops = utils.get_stops_and_trips(filter_accessible = False)
+    all_stops = _utils.get_stops_and_trips(filter_accessible = False)
     all_stops = all_stops.apply(buffer_by_route_type, axis=1)
-    shared_utils.utils.geoparquet_gcs_export(all_stops, utils.GCS_FILE_PATH, 
+    utils.geoparquet_gcs_export(all_stops, _utils.GCS_FILE_PATH, 
                                              'all_stops')
     
-    accessible_stops_trips = utils.get_stops_and_trips(filter_accessible = True)
+    accessible_stops_trips = _utils.get_stops_and_trips(filter_accessible = True)
     accessible_stops_trips = accessible_stops_trips.apply(buffer_by_route_type, axis=1)
-    shared_utils.utils.geoparquet_gcs_export(accessible_stops_trips, utils.GCS_FILE_PATH, 
+    utils.geoparquet_gcs_export(accessible_stops_trips, _utils.GCS_FILE_PATH, 
                                              'accessible_stops_trips')
     
     
@@ -107,7 +107,7 @@ def save_initial_data():
                          _.calitp_url_number == _.url_number)
               )
 
-    rt_complete.to_parquet(f'{utils.GCS_FILE_PATH}rt_complete.parquet')
+    rt_complete.to_parquet(f'{_utils.GCS_FILE_PATH}rt_complete.parquet')
     
     
 
@@ -223,12 +223,12 @@ def spatial_joins_to_blocks_and_tracts():
     Return 2 dictionaries of results.
     '''
     # Read in parquets from above
-    ca_block_joined = shared_utils.utils.download_geoparquet(
-        utils.GCS_FILE_PATH, 'block_population_joined')
-    all_stops = shared_utils.utils.download_geoparquet(utils.GCS_FILE_PATH, 'all_stops')
-    accessible_stops_trips = shared_utils.utils.download_geoparquet(
-        utils.GCS_FILE_PATH, 'accessible_stops_trips')
-    rt_complete = pd.read_parquet(f"{utils.GCS_FILE_PATH}rt_complete.parquet") 
+    ca_block_joined = gpd.read_parquet(
+        f"{_utils.GCS_FILE_PATH}block_population_joined.parquet")
+    all_stops = gpd.read_parquet(f"{_utils.GCS_FILE_PATH}all_stops.parquet")
+    accessible_stops_trips = gpd.read_parquet(
+        f"{_utils.GCS_FILE_PATH}accessible_stops_trips.parquet")
+    rt_complete = pd.read_parquet(f"{_utils.GCS_FILE_PATH}rt_complete.parquet") 
     
     # Read in employment data by tract
     tract_pop_employ_filtered = get_employment_tract_data()
@@ -265,8 +265,8 @@ def spatial_joins_to_blocks_and_tracts():
     for key, value in sjoin_blocks.items():
         print(key)
         new_name = rename_block_files[key]
-        shared_utils.utils.geoparquet_gcs_export(value, GCS_FILE_PATH, f"{new_name}")
+        utils.geoparquet_gcs_export(value, GCS_FILE_PATH, f"{new_name}")
     
     for key, value in sjoin_tracts.items():
         print(key)
-        shared_utils.utils.geoparquet_gcs_export(value, GCS_FILE_PATH, f"{key}")
+        utils.geoparquet_gcs_export(value, GCS_FILE_PATH, f"{key}")
diff --git a/msd_dashboard_metric/setup_charts.py b/msd_dashboard_metric/setup_charts.py
@@ -1,8 +1,8 @@
 import altair as alt
 import pandas as pd
 
-from shared_utils import styleguide
-from shared_utils import calitp_color_palette as cp
+from calitp_data_analysis import styleguide
+from calitp_data_analysis import calitp_color_palette as cp
 
 AXIS_DATE_FORMAT ="%-m/%-d/%y"
 
diff --git a/msd_dashboard_metric/utils.py b/msd_dashboard_metric/utils.py
@@ -3,10 +3,8 @@
 import geopandas as gpd
 import datetime as dt
 
-import shared_utils
-
-import calitp
-from calitp.tables import tbl
+from calitp_data_analysis.tables import tbls
+from calitp_data_analysis import geography_utils
 from siuba import *
 
 import requests
@@ -30,20 +28,20 @@ def get_ca_block_group_geo():
     stanford_shorelines = catalog.stanford_shorelines.read()
     ca_shoreline = stanford_shorelines >> filter(_.STFIPS == '06')
     ca_block_geo = ca_block_geo.clip(ca_shoreline)
-    ca_block_geo = ca_block_geo.to_crs(shared_utils.geography_utils.CA_NAD83Albers)
+    ca_block_geo = ca_block_geo.to_crs(geography_utils.CA_NAD83Albers)
     
     return ca_block_geo
 
 # Use this one, move to TIGER file
 def get_ca_block_geo():
     # Bring in block geometry
-    ca_blocks = gpd.read_parquet(f'{utils.GCS_FILE_PATH}2020_tiger_block_geo.parquet')
+    ca_blocks = gpd.read_parquet(f'{GCS_FILE_PATH}2020_tiger_block_geo.parquet')
     ca_blocks = (ca_blocks >> filter(_.ALAND20 > 10) ## remove water
                  >> select(_.county == _.COUNTYFP20, 
                            _.tract == _.TRACTCE20, 
                            _.block == _.BLOCKCE20,
                            _.geo_id == _.GEOID20, _.geometry))
-    ca_blocks = ca_blocks.to_crs(shared_utils.geography_utils.CA_NAD83Albers)
+    ca_blocks = ca_blocks.to_crs(geography_utils.CA_NAD83Albers)
     
     # Bring in block population
     ca_block_pop = catalog.ca_block_population.read()
@@ -105,7 +103,7 @@ def get_stops_and_trips(filter_accessible):
                         geometry=gpd.points_from_xy(stops_trips.stop_lon,
                                                    stops_trips.stop_lat),
                         crs = 'EPSG:4326')
-                   .to_crs(shared_utils.geography_utils.CA_NAD83Albers)
+                   .to_crs(geography_utils.CA_NAD83Albers)
                   )
     
     return stops_trips