slightly nicer typing

johnseekins · johnseekins · commit 0c25f4ac9025 · 2025-09-30T20:38:16.000-06:00
Signed-off-by: John Seekins &lt;john@robot-house.us&gt;
diff --git a/file_utils.py b/file_utils.py
@@ -23,12 +23,14 @@ def export_to_file(
         match file_type:
             case "xlsx":
                 with xlsxwriter.Workbook(full_name, {"remove_timezone": True}) as wb:
-                    writer.write_excel(workbook=wb, include_header=True, autofit=True)
+                    _ = writer.write_excel(workbook=wb, include_header=True, autofit=True)
             case "csv":
                 with open(full_name, "w", newline="", encoding="utf-8") as f_out:
                     writer.write_csv(file=f_out, include_header=True)
             case "parquet":
                 writer.write_parquet(full_name, use_pyarrow=True)
+            case _:
+                logger.warning("Invalid dataframe output type %s", file_type)
     elif file_type == "json":
         with open(full_name, "w", encoding="utf-8") as f_out:
             json.dump(facilities_data, f_out, indent=2, sort_keys=True, default=str)
@@ -103,7 +105,7 @@ def print_summary(facilities_data: dict) -> None:
         false_positives = 0
         errors = 0
         for facility in facilities_data["facilities"].values():
-            query = facility.get("wikipedia", {}).get("search_query", "")
+            query: str = facility.get("wikipedia", {}).get("search_query", "")
             if "REJECTED" in query:
                 false_positives += 1
             elif "ERROR" in query:
diff --git a/ice_scrapers/custom_facilities.py b/ice_scrapers/custom_facilities.py
@@ -3,7 +3,7 @@
 """
 Handle manually discovered/managed facilities
 """
-custom_facilities = {
+custom_facilities: dict = {
     "2309 North Highway 83,McCook,NE,69001": {
         "_repaired_record": False,
         "address": {
diff --git a/ice_scrapers/facilities_scraper.py b/ice_scrapers/facilities_scraper.py
@@ -83,7 +83,7 @@ def scrape_facilities(facilities_data: dict) -> dict:
     return facilities_data
 
 
-def _scrape_updated(url: str):
+def _scrape_updated(url: str) -> datetime.datetime:
     """
     Scrape url to get "last updated" time
     Is specifically oriented around ice.gov facility pages
@@ -97,7 +97,7 @@ def _scrape_updated(url: str):
         response.raise_for_status()
     except Exception as e:
         logger.error("  Error parsing %s: %s", url, e)
-        return []
+        return datetime.datetime.strptime(default_timestamp, timestamp_format)
     soup = BeautifulSoup(response.content, "html.parser")
     times = soup.findAll("time")
     if not times:
@@ -181,7 +181,6 @@ def _scrape_page(page_url: str) -> list:
             facilities.append(facility_data)
 
     logger.info("  Extracted %s facilities from page", len(facilities))
-
     return facilities
 
 
@@ -194,7 +193,6 @@ def _find_facility_patterns(container):
         r"([A-Z][^|]+(?:\|[^|]+)?)\s*([A-Z][^A-Z]*Field Office)",
         r"([^-]+)\s*-\s*([A-Z][^A-Z]*Field Office)",
     ]
-
     text_content = container.get_text()
 
     for pattern in facility_patterns:
diff --git a/schemas.py b/schemas.py
@@ -1,7 +1,7 @@
 import copy
 import datetime
 
-facilities_schema = {
+facilities_schema: dict = {
     "enrich_runtime": 0,
     "facilities": {},
     "scrape_runtime": 0,
@@ -107,7 +107,7 @@
 
 
 # enrichment response object
-enrich_resp_schema = {
+enrich_resp_schema: dict = {
     "cleaned_name": "",
     "details": {},
     "enrichment_type": "",