NVIDIA · shivamerla · Aug 21, 2024 · Aug 21, 2024 · Aug 21, 2024
@@ -10,10 +10,6 @@ metadata:
           "apiVersion": "apps.nvidia.com/v1alpha1",
           "kind": "NIMCache",
           "metadata": {
-            "labels": {
-              "app.kubernetes.io/name": "k8s-nim-operator",
-              "app.kubernetes.io/managed-by": "kustomize"
-            },
             "name": "meta-llama3-8b-instruct",
             "namespace": "nim-service"
           },
@@ -38,10 +34,6 @@ metadata:
                 }
               }
             },
-            "resources": {
-              "gpus": 0,
-              "cpu": "500m"
-            },
             "storage": {
               "pvc": {
                 "create": true,
@@ -56,10 +48,6 @@ metadata:
           "apiVersion": "apps.nvidia.com/v1alpha1",
           "kind": "NIMService",
           "metadata": {
-            "labels": {
-              "app.kubernetes.io/name": "k8s-nim-operator",
-              "app.kubernetes.io/managed-by": "kustomize"
-            },
             "name": "meta-llama3-8b-instruct",
             "namespace": "nim-service"
           },
@@ -73,13 +61,18 @@ metadata:
               ]
             },
             "authSecret": "ngc-api-secret",
-            "externalPVC": "",
-            "nimCache": {
-              "name": "meta-llama3-8b-instruct",
-              "profile": ""
+            "storage": {
+              "nimCache": {
+                "name": "meta-llama3-8b-instruct",
+                "profile": ""
+              }
             },
             "scale": {
-              "minReplicas": 1
+              "enabled": false,
+              "hpa": {
+                "minReplicas": 1,
+                "maxReplicas": 10
+              }
             },
             "resources": {
               "limits": {

@@ -6,4 +6,25 @@ metadata:
     app.kubernetes.io/managed-by: kustomize
   name: nimcache-sample
 spec:
-  # TODO(user): Add fields here
+  source:
+    ngc:
+      modelPuller: nvcr.io/nim/meta/llama3-8b-instruct:1.0.0
+      pullSecret: ngc-secret
+      authSecret: ngc-api-secret
+      model:
+        profiles: []
+        autoDetect: true
+        precision: "fp8"
+        engine: "tensorrt_llm"
+        qosProfile: "throughput"
+        gpus:
+          product: "l40s"
+          ids:
+            - "26b5"
+        tensorParallelism: "1"
+  storage:
+    pvc:
+      create: true
+      storageClass: "local-path"
+      size: "50Gi"
+      volumeAccessMode: ReadWriteOnce
@@ -4,6 +4,24 @@ metadata:
   labels:
     app.kubernetes.io/name: k8s-nim-operator
     app.kubernetes.io/managed-by: kustomize
-  name: nimservice-sample
+  name: meta-llama3-8b-instruct
 spec:
-  # TODO(user): Add fields here
+  image:
+    repository: nvcr.io/nim/meta/llama3-8b-instruct
+    tag: 1.0.0
+    pullPolicy: IfNotPresent
+    pullSecrets:
+      - ngc-secret
+  authSecret: ngc-api-secret
+  storage:
+    nimCache:
+      name: meta-llama3-8b-instruct
+      profile: ''
+  replicas: 1
+  resources:
+    limits:
+      nvidia.com/gpu: 1
+  expose:
+    service:
+      type: ClusterIP
+      openaiPort: 8000
@@ -60,9 +60,6 @@ Alternatively, if you specify `model.profiles`, then the model puller downloads
 apiVersion: apps.nvidia.com/v1alpha1
 kind: NIMCache
 metadata:
-  labels:
-    app.kubernetes.io/name: k8s-nim-operator
-    app.kubernetes.io/managed-by: kustomize
   name: meta-llama3-8b-instruct
 spec:
   source:
@@ -124,9 +121,6 @@ metadata:
   finalizers:
   - finalizer.nimcache.apps.nvidia.com
   generation: 2
-  labels:
-    app.kubernetes.io/managed-by: kustomize
-    app.kubernetes.io/name: k8s-nim-operator
   name: meta-llama3-8b-instruct
   namespace: nim-cache
   resourceVersion: "16539047"

@@ -17,9 +17,6 @@ Create a file, such as `nimservice.yaml`, with contents like the following examp
 apiVersion: apps.nvidia.com/v1alpha1
 kind: NIMService
 metadata:
-  labels:
-    app.kubernetes.io/name: k8s-nim-operator
-    app.kubernetes.io/managed-by: kustomize
   name: meta-llama3-8b-instruct
 spec:
   image: