more numpy 2.0 readiness

fgregg · fgregg · commit 8a0817f13b23 · 2024-06-21T09:23:47.000-04:00
diff --git a/dedupe/clustering.py b/dedupe/clustering.py
@@ -177,7 +177,7 @@ def union_find(scored_pairs: Scores) -> numpy.typing.NDArray[numpy.int_]:
 
 def condensedDistance(
     dupes: Scores,
-) -> tuple[dict[int, RecordID], numpy.typing.NDArray[numpy.float_], int]:
+) -> tuple[dict[int, RecordID], numpy.typing.NDArray[numpy.float64], int]:
     """
     Convert the pairwise list of distances in dupes to "condensed
     distance matrix" required by the hierarchical clustering
@@ -262,16 +262,16 @@ def cluster(
 
 def confidences(
     cluster: Sequence[int],
-    squared_distances: numpy.typing.NDArray[numpy.float_],
+    squared_distances: numpy.typing.NDArray[numpy.float64],
     d: int,
-) -> numpy.typing.NDArray[numpy.float_]:
+) -> numpy.typing.NDArray[numpy.float64]:
     """
     We calculate a per record score that is similar to a standard
     deviation.  The main reason is that these record scores can be
     used to calculate the standard deviation of an entire cluster,
     which is a reasonable metric for clusters.
     """
-    scores: numpy.typing.NDArray[numpy.float_]
+    scores: numpy.typing.NDArray[numpy.float64]
     scores_d = dict.fromkeys(cluster, 0.0)
     C = 2 * d - 3
     for i, j in itertools.combinations(cluster, 2):
diff --git a/dedupe/datamodel.py b/dedupe/datamodel.py
@@ -79,7 +79,7 @@ def predicates(self) -> set[Predicate]:
 
     def distances(
         self, record_pairs: Sequence[RecordDictPair]
-    ) -> numpy.typing.NDArray[numpy.float_]:
+    ) -> numpy.typing.NDArray[numpy.float64]:
         num_records = len(record_pairs)
 
         distances = numpy.empty((num_records, len(self)), "f4")
@@ -98,8 +98,8 @@ def distances(
         return distances
 
     def _add_derived_distances(
-        self, distances: numpy.typing.NDArray[numpy.float_]
-    ) -> numpy.typing.NDArray[numpy.float_]:
+        self, distances: numpy.typing.NDArray[numpy.float64]
+    ) -> numpy.typing.NDArray[numpy.float64]:
         current_column = self._derived_start
 
         for indices in self._interaction_indices:
diff --git a/dedupe/labeler.py b/dedupe/labeler.py
@@ -56,7 +56,7 @@ def fit(self, pairs: TrainingExamples, y: LabelsLike) -> None:
         """Train on the given data."""
 
     @abstractmethod
-    def candidate_scores(self) -> numpy.typing.NDArray[numpy.float_]:
+    def candidate_scores(self) -> numpy.typing.NDArray[numpy.float64]:
         """For each of self.candidates, return our current guess [0,1] of if a match."""
 
     @abstractmethod
@@ -92,7 +92,7 @@ def remove(self, index: int) -> None:
         self._candidates.pop(index)
         self._features = numpy.delete(self._features, index, axis=0)
 
-    def candidate_scores(self) -> numpy.typing.NDArray[numpy.float_]:
+    def candidate_scores(self) -> numpy.typing.NDArray[numpy.float64]:
         if not self._fitted:
             raise ValueError("Must call fit() before candidate_scores()")
         return self._classifier.predict_proba(self._features)[:, 1].reshape(-1, 1)
@@ -103,7 +103,7 @@ class BlockLearner(Learner):
 
     def __init__(self):
         self.current_predicates: tuple[Predicate, ...] = ()
-        self._cached_scores: numpy.typing.NDArray[numpy.float_] | None = None
+        self._cached_scores: numpy.typing.NDArray[numpy.float64] | None = None
         self._old_dupes: TrainingExamples = []
 
     def fit(self, pairs: TrainingExamples, y: LabelsLike) -> None:
@@ -121,7 +121,7 @@ def fit(self, pairs: TrainingExamples, y: LabelsLike) -> None:
             self._old_dupes = dupes
         self._fitted = True
 
-    def candidate_scores(self) -> numpy.typing.NDArray[numpy.float_]:
+    def candidate_scores(self) -> numpy.typing.NDArray[numpy.float64]:
         if not self._fitted:
             raise ValueError("Must call fit() before candidate_scores()")
         if self._cached_scores is None: