ENH add Array API support for d2_pinball_score and d2_absolute_error_score (#31671)

virchan · ogrisel · web-flow · commit b5f8f1c6aadd · 2025-12-12T10:58:18.000Z
Co-authored-by: Olivier Grisel &lt;olivier.grisel@ensta.org&gt;
diff --git a/doc/modules/array_api.rst b/doc/modules/array_api.rst
@@ -164,8 +164,10 @@ Metrics
 - :func:`sklearn.metrics.cluster.calinski_harabasz_score`
 - :func:`sklearn.metrics.cohen_kappa_score`
 - :func:`sklearn.metrics.confusion_matrix`
+- :func:`sklearn.metrics.d2_absolute_error_score`
 - :func:`sklearn.metrics.d2_brier_score`
 - :func:`sklearn.metrics.d2_log_loss_score`
+- :func:`sklearn.metrics.d2_pinball_score`
 - :func:`sklearn.metrics.d2_tweedie_score`
 - :func:`sklearn.metrics.det_curve`
 - :func:`sklearn.metrics.explained_variance_score`
diff --git a/doc/whats_new/upcoming_changes/array-api/31671.feature.rst b/doc/whats_new/upcoming_changes/array-api/31671.feature.rst
@@ -0,0 +1,3 @@
+- :func:`sklearn.metrics.d2_absolute_error_score` and
+  :func:`sklearn.metrics.d2_pinball_score` now support array API compatible inputs.
+  By :user:`Virgil Chan <virchan>`.
diff --git a/doc/whats_new/upcoming_changes/sklearn.metrics/31671.fix.rst b/doc/whats_new/upcoming_changes/sklearn.metrics/31671.fix.rst
@@ -0,0 +1,8 @@
+- :func:`metrics.d2_pinball_score` and :func:`metrics.d2_absolute_error_score` now
+  always use the `"averaged_inverted_cdf"` quantile method, both with and
+  without sample weights. Previously, the `"linear"` quantile method was used only
+  for the unweighted case leading the surprising discrepancies when comparing the
+  results with unit weights. Note that all quantile interpolation methods are
+  asymptotically equivalent in the large sample limit, but this fix can cause score
+  value changes on small evaluation sets (without weights).
+  By :user:`Virgil Chan <virchan>`.
diff --git a/sklearn/metrics/_regression.py b/sklearn/metrics/_regression.py
@@ -936,7 +936,7 @@ def median_absolute_error(
     return float(_average(output_errors, weights=multioutput, xp=xp))
 
 
-def _assemble_r2_explained_variance(
+def _assemble_fraction_of_explained_deviance(
     numerator, denominator, n_outputs, multioutput, force_finite, xp, device
 ):
     """Common part used by explained variance score and :math:`R^2` score."""
@@ -1121,7 +1121,7 @@ def explained_variance_score(
         (y_true - y_true_avg) ** 2, weights=sample_weight, axis=0, xp=xp
     )
 
-    return _assemble_r2_explained_variance(
+    return _assemble_fraction_of_explained_deviance(
         numerator=numerator,
         denominator=denominator,
         n_outputs=y_true.shape[1],
@@ -1300,7 +1300,7 @@ def r2_score(
         axis=0,
     )
 
-    return _assemble_r2_explained_variance(
+    return _assemble_fraction_of_explained_deviance(
         numerator=numerator,
         denominator=denominator,
         n_outputs=y_true.shape[1],
@@ -1779,9 +1779,9 @@ def d2_pinball_score(
     >>> d2_pinball_score(y_true, y_pred)
     0.5
     >>> d2_pinball_score(y_true, y_pred, alpha=0.9)
-    0.772...
+    0.666...
     >>> d2_pinball_score(y_true, y_pred, alpha=0.1)
-    -1.045...
+    -1.999...
     >>> d2_pinball_score(y_true, y_true, alpha=0.1)
     1.0
 
@@ -1803,9 +1803,14 @@ def d2_pinball_score(
     >>> grid.best_params_
     {'fit_intercept': True}
     """
-    _, y_true, y_pred, sample_weight, multioutput = _check_reg_targets(
+    xp, _, device_ = get_namespace_and_device(
         y_true, y_pred, sample_weight, multioutput
     )
+    _, y_true, y_pred, sample_weight, multioutput = (
+        _check_reg_targets_with_floating_dtype(
+            y_true, y_pred, sample_weight, multioutput, xp=xp
+        )
+    )
 
     if _num_samples(y_pred) < 2:
         msg = "D^2 score is not well-defined with less than two samples."
@@ -1821,16 +1826,18 @@ def d2_pinball_score(
     )
 
     if sample_weight is None:
-        y_quantile = np.tile(
-            np.percentile(y_true, q=alpha * 100, axis=0), (len(y_true), 1)
-        )
-    else:
-        y_quantile = np.tile(
-            _weighted_percentile(
-                y_true, sample_weight=sample_weight, percentile_rank=alpha * 100
-            ),
-            (len(y_true), 1),
-        )
+        sample_weight = xp.ones([y_true.shape[0]], dtype=y_true.dtype, device=device_)
+
+    y_quantile = xp.tile(
+        _weighted_percentile(
+            y_true,
+            sample_weight=sample_weight,
+            percentile_rank=alpha * 100,
+            average=True,
+            xp=xp,
+        ),
+        (y_true.shape[0], 1),
+    )
 
     denominator = mean_pinball_loss(
         y_true,
@@ -1840,25 +1847,15 @@ def d2_pinball_score(
         multioutput="raw_values",
     )
 
-    nonzero_numerator = numerator != 0
-    nonzero_denominator = denominator != 0
-    valid_score = nonzero_numerator & nonzero_denominator
-    output_scores = np.ones(y_true.shape[1])
-
-    output_scores[valid_score] = 1 - (numerator[valid_score] / denominator[valid_score])
-    output_scores[nonzero_numerator & ~nonzero_denominator] = 0.0
-
-    if isinstance(multioutput, str):
-        if multioutput == "raw_values":
-            # return scores individually
-            return output_scores
-        else:  # multioutput == "uniform_average"
-            # passing None as weights to np.average results in uniform mean
-            avg_weights = None
-    else:
-        avg_weights = multioutput
-
-    return float(np.average(output_scores, weights=avg_weights))
+    return _assemble_fraction_of_explained_deviance(
+        numerator=numerator,
+        denominator=denominator,
+        n_outputs=y_true.shape[1],
+        multioutput=multioutput,
+        force_finite=True,
+        xp=xp,
+        device=device_,
+    )
 
 
 @validate_params(
diff --git a/sklearn/metrics/tests/test_common.py b/sklearn/metrics/tests/test_common.py
@@ -148,6 +148,11 @@
     "mean_compound_poisson_deviance": partial(mean_tweedie_deviance, power=1.4),
     "d2_tweedie_score": partial(d2_tweedie_score, power=1.4),
     "d2_pinball_score": d2_pinball_score,
+    # The default `alpha=0.5` (median) masks differences between quantile methods,
+    # so we also test `alpha=0.1` and `alpha=0.9` to ensure correctness
+    # for non-median quantiles.
+    "d2_pinball_score_01": partial(d2_pinball_score, alpha=0.1),
+    "d2_pinball_score_09": partial(d2_pinball_score, alpha=0.9),
     "d2_absolute_error_score": d2_absolute_error_score,
 }
 
@@ -492,6 +497,8 @@ def precision_recall_curve_padded_thresholds(*args, **kwargs):
     "mean_absolute_percentage_error",
     "mean_pinball_loss",
     "d2_pinball_score",
+    "d2_pinball_score_01",
+    "d2_pinball_score_09",
     "d2_absolute_error_score",
 }
 
@@ -563,6 +570,8 @@ def precision_recall_curve_padded_thresholds(*args, **kwargs):
     "mean_compound_poisson_deviance",
     "d2_tweedie_score",
     "d2_pinball_score",
+    "d2_pinball_score_01",
+    "d2_pinball_score_09",
     "d2_absolute_error_score",
     "mean_absolute_percentage_error",
 }
@@ -2358,6 +2367,22 @@ def check_array_api_metric_pairwise(metric, array_namespace, device, dtype_name)
         check_array_api_regression_metric,
         check_array_api_regression_metric_multioutput,
     ],
+    d2_absolute_error_score: [
+        check_array_api_regression_metric,
+        check_array_api_regression_metric_multioutput,
+    ],
+    d2_pinball_score: [
+        check_array_api_regression_metric,
+        check_array_api_regression_metric_multioutput,
+    ],
+    partial(d2_pinball_score, alpha=0.1): [
+        check_array_api_regression_metric,
+        check_array_api_regression_metric_multioutput,
+    ],
+    partial(d2_pinball_score, alpha=0.9): [
+        check_array_api_regression_metric,
+        check_array_api_regression_metric_multioutput,
+    ],
     d2_tweedie_score: [
         check_array_api_regression_metric,
     ],

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	+- :func:`sklearn.metrics.d2_absolute_error_score` and
	`2`	+ :func:`sklearn.metrics.d2_pinball_score` now support array API compatible inputs.
	`3`	+ By :user:`Virgil Chan <virchan>`.