Changes to support NeMo Evaluator 25.06

shivamerla · shivamerla · commit dd95ee92ba67 · 2025-06-13T07:04:36.000-07:00
* New evaluation images support (BFCL, Agentic Evaluation)
* Remove the evaluation image validation markers (as some are optional across versions)
* Update Unit tests

Signed-off-by: Shiva Krishna, Merla &lt;smerla@nvidia.com&gt;
diff --git a/api/apps/v1alpha1/nemo_evaluator_types.go b/api/apps/v1alpha1/nemo_evaluator_types.go
@@ -119,21 +119,17 @@ type NemoEvaluatorSpec struct {
 	EvaluationImages EvaluationImages `json:"evaluationImages"`
 }
 
+// EvaluationImages for different evaluation targets
 type EvaluationImages struct {
-	// +kubebuilder:validation:MinLength=1
-	BigcodeEvalHarness string `json:"bigcodeEvalHarness"`
-	// +kubebuilder:validation:MinLength=1
-	LmEvalHarness string `json:"lmEvalHarness"`
-	// +kubebuilder:validation:MinLength=1
-	SimilarityMetrics string `json:"similarityMetrics"`
-	// +kubebuilder:validation:MinLength=1
-	LlmAsJudge string `json:"llmAsJudge"`
-	// +kubebuilder:validation:MinLength=1
-	MtBench string `json:"mtBench"`
-	// +kubebuilder:validation:MinLength=1
-	Retriever string `json:"retriever"`
-	// +kubebuilder:validation:MinLength=1
-	Rag string `json:"rag"`
+	BigcodeEvalHarness string `json:"bigcodeEvalHarness,omitempty"`
+	LmEvalHarness      string `json:"lmEvalHarness,omitempty"`
+	SimilarityMetrics  string `json:"similarityMetrics,omitempty"`
+	LlmAsJudge         string `json:"llmAsJudge,omitempty"`
+	MtBench            string `json:"mtBench,omitempty"`
+	Retriever          string `json:"retriever,omitempty"`
+	Rag                string `json:"rag,omitempty"`
+	BFCL               string `json:"bfcl,omitempty"`
+	AgenticEval        string `json:"agenticEval,omitempty"`
 }
 
 // NemoEvaluatorStatus defines the observed state of NemoEvaluator.
@@ -197,6 +193,14 @@ func (ei EvaluationImages) GetEvaluationImageEnv() []corev1.EnvVar {
 			Name:  "RAG",
 			Value: ei.Rag,
 		},
+		{
+			Name:  "BFCL",
+			Value: ei.BFCL,
+		},
+		{
+			Name:  "AGENTIC_EVAL",
+			Value: ei.AgenticEval,
+		},
 	}
 }
 
diff --git a/bundle/manifests/apps.nvidia.com_nemoevaluators.yaml b/bundle/manifests/apps.nvidia.com_nemoevaluators.yaml
@@ -291,35 +291,24 @@ spec:
                 description: EvaluationImages defines the external images used for
                   evaluation
                 properties:
+                  agenticEval:
+                    type: string
+                  bfcl:
+                    type: string
                   bigcodeEvalHarness:
-                    minLength: 1
                     type: string
                   llmAsJudge:
-                    minLength: 1
                     type: string
                   lmEvalHarness:
-                    minLength: 1
                     type: string
                   mtBench:
-                    minLength: 1
                     type: string
                   rag:
-                    minLength: 1
                     type: string
                   retriever:
-                    minLength: 1
                     type: string
                   similarityMetrics:
-                    minLength: 1
                     type: string
-                required:
-                - bigcodeEvalHarness
-                - llmAsJudge
-                - lmEvalHarness
-                - mtBench
-                - rag
-                - retriever
-                - similarityMetrics
                 type: object
               expose:
                 description: ExposeV1 defines attributes to expose the service.
diff --git a/config/crd/bases/apps.nvidia.com_nemoevaluators.yaml b/config/crd/bases/apps.nvidia.com_nemoevaluators.yaml
@@ -291,35 +291,24 @@ spec:
                 description: EvaluationImages defines the external images used for
                   evaluation
                 properties:
+                  agenticEval:
+                    type: string
+                  bfcl:
+                    type: string
                   bigcodeEvalHarness:
-                    minLength: 1
                     type: string
                   llmAsJudge:
-                    minLength: 1
                     type: string
                   lmEvalHarness:
-                    minLength: 1
                     type: string
                   mtBench:
-                    minLength: 1
                     type: string
                   rag:
-                    minLength: 1
                     type: string
                   retriever:
-                    minLength: 1
                     type: string
                   similarityMetrics:
-                    minLength: 1
                     type: string
-                required:
-                - bigcodeEvalHarness
-                - llmAsJudge
-                - lmEvalHarness
-                - mtBench
-                - rag
-                - retriever
-                - similarityMetrics
                 type: object
               expose:
                 description: ExposeV1 defines attributes to expose the service.
diff --git a/config/samples/nemo/latest/apps_v1alpha1_nemoevaluator.yaml b/config/samples/nemo/latest/apps_v1alpha1_nemoevaluator.yaml
@@ -5,16 +5,18 @@ metadata:
   namespace: nemo
 spec:
   evaluationImages:
-    bigcodeEvalHarness: "nvcr.io/nvidia/nemo-microservices/eval-tool-benchmark-bigcode:0.12.13"
-    lmEvalHarness: "nvcr.io/nvidia/nemo-microservices/eval-tool-benchmark-lm-eval-harness:0.12.15"
-    similarityMetrics: "nvcr.io/nvidia/nemo-microservices/eval-tool-benchmark-custom-eval:0.12.13"
-    llmAsJudge: "nvcr.io/nvidia/nemo-microservices/eval-tool-benchmark-llm-as-a-judge:0.12.15"
-    mtBench: "nvcr.io/nvidia/nemo-microservices/eval-tool-benchmark-llm-as-a-judge:0.12.15"
-    retriever: "nvcr.io/nvidia/nemo-microservices/eval-tool-benchmark-retriever:0.12.13"
-    rag: "nvcr.io/nvidia/nemo-microservices/eval-tool-benchmark-rag:0.12.13"
+    bigcodeEvalHarness: "nvcr.io/nvidia/nemo-microservices/eval-tool-benchmark-bigcode:0.12.21"
+    lmEvalHarness: "nvcr.io/nvidia/nemo-microservices/eval-tool-benchmark-lm-eval-harness:0.12.21"
+    similarityMetrics: "nvcr.io/nvidia/nemo-microservices/eval-tool-benchmark-custom-eval:0.12.21"
+    llmAsJudge: "nvcr.io/nvidia/nemo-microservices/eval-tool-benchmark-llm-as-a-judge:0.12.21"
+    mtBench: "nvcr.io/nvidia/nemo-microservices/eval-tool-benchmark-llm-as-a-judge:0.12.21"
+    retriever: "nvcr.io/nvidia/nemo-microservices/eval-tool-benchmark-retriever:0.12.21"
+    rag: "nvcr.io/nvidia/nemo-microservices/eval-tool-benchmark-rag:0.12.21"
+    bfcl: "nvcr.io/nvidia/nemo-microservices/eval-factory-benchmark-bfcl:25.6.1"
+    agenticEval: "nvcr.io/nvidia/nemo-microservices/eval-factory-benchmark-agentic-eval:25.6.1"
   image:
     repository: nvcr.io/nvidia/nemo-microservices/evaluator
-    tag: "25.04"
+    tag: "25.06"
     pullPolicy: IfNotPresent
     pullSecrets:
       - ngc-secret
diff --git a/deployments/helm/k8s-nim-operator/crds/apps.nvidia.com_nemoevaluators.yaml b/deployments/helm/k8s-nim-operator/crds/apps.nvidia.com_nemoevaluators.yaml
@@ -291,35 +291,24 @@ spec:
                 description: EvaluationImages defines the external images used for
                   evaluation
                 properties:
+                  agenticEval:
+                    type: string
+                  bfcl:
+                    type: string
                   bigcodeEvalHarness:
-                    minLength: 1
                     type: string
                   llmAsJudge:
-                    minLength: 1
                     type: string
                   lmEvalHarness:
-                    minLength: 1
                     type: string
                   mtBench:
-                    minLength: 1
                     type: string
                   rag:
-                    minLength: 1
                     type: string
                   retriever:
-                    minLength: 1
                     type: string
                   similarityMetrics:
-                    minLength: 1
                     type: string
-                required:
-                - bigcodeEvalHarness
-                - llmAsJudge
-                - lmEvalHarness
-                - mtBench
-                - rag
-                - retriever
-                - similarityMetrics
                 type: object
               expose:
                 description: ExposeV1 defines attributes to expose the service.
diff --git a/internal/controller/nemo_evaluator_controller_test.go b/internal/controller/nemo_evaluator_controller_test.go
@@ -206,6 +206,8 @@ var _ = Describe("NemoEvaluator Controller", func() {
 					MtBench:            "MtBench",
 					Retriever:          "Retriever",
 					Rag:                "Rag",
+					BFCL:               "BFCL",
+					AgenticEval:        "AgenticEval",
 				},
 			},
 			Status: appsv1alpha1.NemoEvaluatorStatus{
@@ -462,6 +464,8 @@ var _ = Describe("NemoEvaluator Controller", func() {
 				corev1.EnvVar{Name: "MT_BENCH", Value: nemoEvaluator.Spec.EvaluationImages.MtBench},
 				corev1.EnvVar{Name: "RETRIEVER", Value: nemoEvaluator.Spec.EvaluationImages.Retriever},
 				corev1.EnvVar{Name: "RAG", Value: nemoEvaluator.Spec.EvaluationImages.Rag},
+				corev1.EnvVar{Name: "BFCL", Value: nemoEvaluator.Spec.EvaluationImages.BFCL},
+				corev1.EnvVar{Name: "AgenticEval", Value: nemoEvaluator.Spec.EvaluationImages.AgenticEval},
 			))
 		})