Add fallbacks when retrieving databricks ids (#5910)

paul-laffon-dd · web-flow · commit 1659cd3d863a · 2023-09-19T18:38:08.000+02:00
Add fallbacks when extracting databricks_job_id and databricks_task_run_id by adding searching in other properties if spark.databricks.job.id and spark.databricks.job.runId are not present
- spark.jobGroup.id that has the pattern &lt;scheduler_id&gt;_job-&lt;job_id&gt;-run-&lt;task_run_id&gt;-action-&lt;action_id&gt;
- spark.databricks.workload.id that has the pattern &lt;org_id&gt;-&lt;job_id&gt;-&lt;task_run_id&gt;

For databricks_job_run_id it will use:
- The new property spark.databricks.job.parentRunId as the default
- The current method of extracting the id present in the clusterName of job clusters as a fallback

The properties spark.databricks.job.id and spark.databricks.job.runId set by databricks are missing in some customer environnements

The property spark.databricks.job.parentRunId is a more robust way to extract the databricks_job_run_id
diff --git a/dd-java-agent/instrumentation/spark/src/main/java/datadog/trace/instrumentation/spark/DatadogSparkListener.java b/dd-java-agent/instrumentation/spark/src/main/java/datadog/trace/instrumentation/spark/DatadogSparkListener.java
@@ -201,11 +201,9 @@ private void addDatabricksSpecificTags(
     captureJobParameters(builder, properties);
 
     if (properties != null) {
-      String databricksJobId = properties.getProperty("spark.databricks.job.id");
+      String databricksJobId = getDatabricksJobId(properties);
       String databricksJobRunId = getDatabricksJobRunId(properties, databricksClusterName);
-
-      // spark.databricks.job.runId is the runId of the task, not of the Job
-      String databricksTaskRunId = properties.getProperty("spark.databricks.job.runId");
+      String databricksTaskRunId = getDatabricksTaskRunId(properties);
 
       // ids to link those spans to databricks job/task traces
       builder.withTag("databricks_job_id", databricksJobId);
@@ -769,11 +767,48 @@ private long stageSpanKey(int stageId, int attemptId) {
     return ((long) stageId << 32) + attemptId;
   }
 
+  @SuppressForbidden // split with one-char String use a fast-path without regex usage
+  private static String getDatabricksJobId(Properties properties) {
+    String jobId = properties.getProperty("spark.databricks.job.id");
+    if (jobId != null) {
+      return jobId;
+    }
+
+    // First fallback, use spark.jobGroup.id with the pattern
+    // <scheduler_id>_job-<job_id>-run-<task_run_id>-action-<action_id>
+    String jobGroupId = properties.getProperty("spark.jobGroup.id");
+    if (jobGroupId != null) {
+      int startIndex = jobGroupId.indexOf("job-");
+      int endIndex = jobGroupId.indexOf("-run", startIndex);
+      if (startIndex != -1 && endIndex != -1) {
+        return jobGroupId.substring(startIndex + 4, endIndex);
+      }
+    }
+
+    // Second fallback, use spark.databricks.workload.id with pattern
+    // <org_id>-<job_id>-<task_run_id>
+    String workloadId = properties.getProperty("spark.databricks.workload.id");
+    if (workloadId != null) {
+      String[] parts = workloadId.split("-");
+      if (parts.length > 1) {
+        return parts[1];
+      }
+    }
+
+    return null;
+  }
+
   @SuppressForbidden // split with one-char String use a fast-path without regex usage
   private static String getDatabricksJobRunId(
       Properties jobProperties, String databricksClusterName) {
-    String clusterName =
-        (String) jobProperties.get("spark.databricks.clusterUsageTags.clusterName");
+    String jobRunId = jobProperties.getProperty("spark.databricks.job.parentRunId");
+    if (jobRunId != null) {
+      return jobRunId;
+    }
+
+    // Fallback, extract the jobRunId from the cluster name for job clusters having the pattern
+    // job-<job_id>-run-<job_run_id>
+    String clusterName = jobProperties.getProperty("spark.databricks.clusterUsageTags.clusterName");
 
     // Using the databricksClusterName as fallback, if not present in jobProperties
     clusterName = (clusterName == null) ? databricksClusterName : clusterName;
@@ -791,6 +826,38 @@ private static String getDatabricksJobRunId(
     return null;
   }
 
+  @SuppressForbidden // split with one-char String use a fast-path without regex usage
+  private static String getDatabricksTaskRunId(Properties properties) {
+    // spark.databricks.job.runId is the runId of the task, not of the Job
+    String taskRunId = properties.getProperty("spark.databricks.job.runId");
+    if (taskRunId != null) {
+      return taskRunId;
+    }
+
+    // First fallback, use spark.jobGroup.id with the pattern
+    // <scheduler_id>_job-<job_id>-run-<task_run_id>-action-<action_id>
+    String jobGroupId = properties.getProperty("spark.jobGroup.id");
+    if (jobGroupId != null) {
+      int startIndex = jobGroupId.indexOf("run-");
+      int endIndex = jobGroupId.indexOf("-action", startIndex);
+      if (startIndex != -1 && endIndex != -1) {
+        return jobGroupId.substring(startIndex + 4, endIndex);
+      }
+    }
+
+    // Second fallback, use spark.databricks.workload.id with pattern
+    // <org_id>-<job_id>-<task_run_id>
+    String workloadId = properties.getProperty("spark.databricks.workload.id");
+    if (workloadId != null) {
+      String[] parts = workloadId.split("-");
+      if (parts.length > 2) {
+        return parts[2];
+      }
+    }
+
+    return null;
+  }
+
   private String stackTraceToString(Throwable e) {
     StringWriter stringWriter = new StringWriter();
     e.printStackTrace(new PrintWriter(stringWriter));
diff --git a/dd-java-agent/instrumentation/spark/src/main/java/datadog/trace/instrumentation/spark/SparkConfAllowList.java b/dd-java-agent/instrumentation/spark/src/main/java/datadog/trace/instrumentation/spark/SparkConfAllowList.java
@@ -66,8 +66,10 @@ class SparkConfAllowList {
               "spark.databricks.clusterUsageTags.sparkVersion",
               "spark.databricks.clusterUsageTags.workerEnvironmentId",
               "spark.databricks.env",
+              "spark.databricks.job.parentRunId",
               "spark.databricks.job.type",
               "spark.databricks.sparkContextId",
+              "spark.databricks.workload.name",
               "spark.job.description",
               "spark.jobGroup.id",
               "spark.sql.execution.id",
diff --git a/dd-java-agent/instrumentation/spark/src/test/groovy/SparkTest.groovy b/dd-java-agent/instrumentation/spark/src/test/groovy/SparkTest.groovy
@@ -223,63 +223,112 @@ class SparkTest extends AgentTestRunner {
       .config("spark.default.parallelism", "2") // Small parallelism to speed up tests
       .config("spark.sql.shuffle.partitions", "2")
       .config("spark.databricks.sparkContextId", "some_id")
-      .config("spark.databricks.clusterUsageTags.clusterName", "job-1234-run-5678-Job_cluster")
+      .config("spark.databricks.clusterUsageTags.clusterName", "job-1234-run-8765-Job_cluster")
       .getOrCreate()
 
     sparkSession.sparkContext().setLocalProperty("spark.databricks.job.id", "1234")
     sparkSession.sparkContext().setLocalProperty("spark.databricks.job.runId", "9012")
+    sparkSession.sparkContext().setLocalProperty("spark.jobGroup.id", "0000_job-3456-run-7890-action-0000")
+    sparkSession.sparkContext().setLocalProperty("spark.databricks.workload.id", "01-123-456")
+    sparkSession.sparkContext().setLocalProperty("spark.databricks.job.parentRunId", "5678")
+    sparkSession.sparkContext().setLocalProperty("spark.databricks.clusterUsageTags.clusterName", "job-1234-run-901-Job_cluster")
     TestSparkComputation.generateTestSparkComputation(sparkSession)
 
     sparkSession.sparkContext().setLocalProperty("spark.databricks.job.id", null)
     sparkSession.sparkContext().setLocalProperty("spark.databricks.job.runId", null)
+    sparkSession.sparkContext().setLocalProperty("spark.databricks.job.parentRunId", null)
+    TestSparkComputation.generateTestSparkComputation(sparkSession)
+
+    sparkSession.sparkContext().setLocalProperty("spark.jobGroup.id", null)
+    sparkSession.sparkContext().setLocalProperty("spark.databricks.job.parentRunId", null)
+    sparkSession.sparkContext().setLocalProperty("spark.databricks.clusterUsageTags.clusterName", null)
+    TestSparkComputation.generateTestSparkComputation(sparkSession)
+
+    sparkSession.sparkContext().setLocalProperty("spark.databricks.workload.id", null)
     TestSparkComputation.generateTestSparkComputation(sparkSession)
 
     expect:
-    assertTraces(2) {
+    assertTraces(4) {
       trace(3) {
         span {
           operationName "spark.job"
-          resourceName "count at TestSparkComputation.java:17"
           spanType "spark"
-          errored false
           traceId 8944764253919609482G
           parentSpanId 15104224823446433673G
+          assert span.tags["databricks_job_id"] == "1234"
+          assert span.tags["databricks_job_run_id"] == "5678"
+          assert span.tags["databricks_task_run_id"] == "9012"
+        }
+        span {
+          operationName "spark.stage"
+          spanType "spark"
+          childOf(span(0))
+        }
+        span {
+          operationName "spark.stage"
+          spanType "spark"
+          childOf(span(0))
+        }
+      }
+      trace(3) {
+        span {
+          operationName "spark.job"
+          spanType "spark"
+          traceId 5240384461065211484G
+          parentSpanId 14128229261586201946G
+          assert span.tags["databricks_job_id"] == "3456"
+          assert span.tags["databricks_job_run_id"] == "901"
+          assert span.tags["databricks_task_run_id"] == "7890"
+        }
+        span {
+          operationName "spark.stage"
+          spanType "spark"
+          childOf(span(0))
+        }
+        span {
+          operationName "spark.stage"
+          spanType "spark"
+          childOf(span(0))
+        }
+      }
+      trace(3) {
+        span {
+          operationName "spark.job"
+          spanType "spark"
+          traceId 2235374731114184741G
+          parentSpanId 8956125882166502063G
+          assert span.tags["databricks_job_id"] == "123"
+          assert span.tags["databricks_job_run_id"] == "8765"
+          assert span.tags["databricks_task_run_id"] == "456"
         }
         span {
           operationName "spark.stage"
-          resourceName "count at TestSparkComputation.java:17"
           spanType "spark"
-          errored false
           childOf(span(0))
         }
         span {
           operationName "spark.stage"
-          resourceName "distinct at TestSparkComputation.java:17"
           spanType "spark"
-          errored false
           childOf(span(0))
         }
       }
       trace(3) {
         span {
           operationName "spark.job"
-          resourceName "count at TestSparkComputation.java:17"
           spanType "spark"
-          errored false
           parent()
+          assert span.tags["databricks_job_id"] == null
+          assert span.tags["databricks_job_run_id"] == "8765"
+          assert span.tags["databricks_task_run_id"] == null
         }
         span {
           operationName "spark.stage"
-          resourceName "count at TestSparkComputation.java:17"
           spanType "spark"
-          errored false
           childOf(span(0))
         }
         span {
           operationName "spark.stage"
-          resourceName "distinct at TestSparkComputation.java:17"
           spanType "spark"
-          errored false
           childOf(span(0))
         }
       }