posit-dev
diff --git a/‎data_raw/nycflights.csv
Lines changed: 336777 additions & 0 deletions b/‎data_raw/nycflights.csv
Lines changed: 336777 additions & 0 deletions
diff --git a/‎data_raw/nycflights.ddb
7.01 MB b/‎data_raw/nycflights.ddb
7.01 MB
diff --git a/‎data_raw/x-02-duckdb.qmd
Lines changed: 8 additions & 0 deletions b/‎data_raw/x-02-duckdb.qmd
Lines changed: 8 additions & 0 deletions
diff --git a/‎pointblank/data/nycflights-duckdb.zip
5.05 MB b/‎pointblank/data/nycflights-duckdb.zip
5.05 MB
diff --git a/‎pointblank/data/nycflights.zip
7.47 MB b/‎pointblank/data/nycflights.zip
7.47 MB
diff --git a/‎pointblank/validate.py
Lines changed: 2 additions & 1 deletion b/‎pointblank/validate.py
Lines changed: 2 additions & 1 deletion
@@ -21,6 +21,7 @@ tbl_dates_times_text = pl.DataFrame(
 )
 small_table = pb.load_dataset(dataset="small_table", tbl_type="polars")
 game_revenue = pb.load_dataset(dataset="game_revenue", tbl_type="polars")
+nycflights = pb.load_dataset(dataset="nycflights", tbl_type="polars")
 ```
 
 
@@ -59,3 +60,10 @@ with duckdb.connect(database="game_revenue.ddb", read_only=False) as con:
         CREATE TABLE IF NOT EXISTS 'game_revenue' AS SELECT * FROM game_revenue;
     """)
 ```
+
+```{python}
+with duckdb.connect(database="nycflights.ddb", read_only=False) as con:
+    con.execute(f"""
+        CREATE TABLE IF NOT EXISTS 'nycflights' AS SELECT * FROM nycflights;
+    """)
+```
@@ -202,7 +202,7 @@ def load_dataset(
     """
 
     # Raise an error if the dataset is from the list of provided datasets
-    if dataset not in ["small_table", "game_revenue"]:
+    if dataset not in ["small_table", "game_revenue", "nycflights"]:
         raise ValueError(
             f"The dataset name `{dataset}` is not valid. Choose one of the following:\n"
             "- `small_table`\n"
@@ -245,6 +245,7 @@ def load_dataset(
         parse_date_columns = {
             "small_table": ["date_time", "date"],
             "game_revenue": ["session_start", "time", "start_day"],
+            "nycflights": [],
         }
 
         dataset = pd.read_csv(data_path, parse_dates=parse_date_columns[dataset])