Better sampler params

joelkuiper · joelkuiper · commit e5c419389364 · 2023-10-02T15:07:55.000+02:00
diff --git a/examples/grammar/grammar.cpp b/examples/grammar/grammar.cpp
@@ -28,17 +28,7 @@ struct llama_grammar * llama_cached_parse_grammar(const char * grammar_str) {
 }
 
 struct llama_sampler_params llama_sampler_default_params() {
-  struct llama_sampler_params result = {
-    0.80f, // temp;
-    1.10f, // repeat_penalty
-    64, // last_n_repeat
-    0.00f, // frequency_penalty
-    0.00f, // presence_penalty
-    2, // mirostat
-    5.00f, // mirostat_tau
-    0.10f, // mirostat_eta
-  };
-  return result;
+  return  llama_sampler_params();
 }
 
 llama_token llama_grammar_sample_token(struct llama_context * ctx,
@@ -66,8 +56,14 @@ llama_token llama_grammar_sample_token(struct llama_context * ctx,
   const int     mirostat        = params.mirostat;
   const float   mirostat_tau    = params.mirostat_tau;
   const float   mirostat_eta    = params.mirostat_eta;
+  const int32_t top_k           = params.top_k <= 0 ? llama_n_vocab(llama_get_model(ctx)) : params.top_k;
+  const float top_p             = params.top_p;
+  const float tfs_z             = params.tfs_z;
+  const float typical_p         = params.typical_p;
+  const int32_t n_probs = params.n_probs;
+
 
-  llama_token id = 0;
+  llama_token result = -1;
 
   // apply penalties
   if (!last_tokens.empty()) {
@@ -88,27 +84,37 @@ llama_token llama_grammar_sample_token(struct llama_context * ctx,
 
   if (temp <= 0) {
     // Greedy sampling
-    id = llama_sample_token_greedy(ctx, cur_p);
+    result = llama_sample_token_greedy(ctx, cur_p);
   } else {
     if (mirostat == 1) {
       static float mirostat_mu = 2.0f * mirostat_tau;
       const int mirostat_m = 100;
-      llama_sample_temperature(ctx, cur_p, temp);
-      id = llama_sample_token_mirostat(ctx, cur_p, mirostat_tau, mirostat_eta, mirostat_m, &mirostat_mu);
+      llama_sample_temp(ctx, cur_p, temp);
+      result = llama_sample_token_mirostat(ctx, cur_p, mirostat_tau, mirostat_eta, mirostat_m, &mirostat_mu);
     } else if (mirostat == 2) {
       static float mirostat_mu = 2.0f * mirostat_tau;
-      llama_sample_temperature(ctx, cur_p, temp);
-      id = llama_sample_token_mirostat_v2(ctx, cur_p, mirostat_tau, mirostat_eta, &mirostat_mu);
+      llama_sample_temp(ctx, cur_p, temp);
+      result = llama_sample_token_mirostat_v2(ctx, cur_p, mirostat_tau, mirostat_eta, &mirostat_mu);
+    } else {
+      // Temperature sampling
+      size_t min_keep = std::max(1, n_probs);
+      llama_sample_top_k(ctx, cur_p, top_k, min_keep);
+      llama_sample_tail_free(ctx, cur_p, tfs_z, min_keep);
+      llama_sample_typical(ctx, cur_p, typical_p, min_keep);
+      llama_sample_top_p(ctx, cur_p, top_p, min_keep);
+      llama_sample_temp(ctx, cur_p, temp);
+      result = llama_sample_token(ctx, cur_p);
     }
   }
+
   // printf("`%d`", candidates_p.size);
 
   if (grammar != NULL) {
-    llama_grammar_accept_token(ctx, grammar, id);
+    llama_grammar_accept_token(ctx, grammar, result);
   }
 
   last_tokens.erase(last_tokens.begin());
-  last_tokens.push_back(id);
+  last_tokens.push_back(result);
 
-  return id;
+  return result;
 }
diff --git a/examples/grammar/grammar.h b/examples/grammar/grammar.h
@@ -3,26 +3,38 @@
 
 #include <string>
 #include <vector>
+#include <cstdint>
 #include <unordered_map>
 #include <stddef.h>
 #include <stdint.h>
 #include <stdbool.h>
 
+
 #include "llama.h"
 #include "grammar-parser.h"
 
 #ifdef __cplusplus
 extern "C" {
 #endif
+  // llama_sampler.h
+
+#pragma once
+
+
   struct llama_sampler_params {
-    float   temp;
-    float   repeat_penalty;
-    int32_t repeat_last_n;
-    float   frequency_penalty;
-    float   presence_penalty;
-    int32_t mirostat;
-    float   mirostat_tau;
-    float   mirostat_eta;
+    float   temp = 0.80f;               // Temperature
+    float   repeat_penalty = 1.10f;     // Penalty for repeated tokens
+    int32_t repeat_last_n = 64;         // Number of tokens to consider for repeat penalty
+    float   frequency_penalty = 0.00f;  // Penalty for frequent tokens
+    float   presence_penalty = 0.00f;   // Penalty for present tokens
+    int32_t mirostat = 2;               // Mirostat version (0 = disabled, 1 = mirostat, 2 = mirostat 2.0)
+    float   mirostat_tau = 5.00f;       // Mirostat target entropy
+    float   mirostat_eta = 0.10f;       // Mirostat learning rate
+    int32_t top_k = 40;                 // Top-K for sampling
+    float   top_p = 0.95f;              // Top-P for sampling
+    float   tfs_z = 1.0f;               // TFS-Z value
+    float   typical_p = 1.0f;           // Typical-P value
+    int32_t n_probs = 0;                // Number of probabilities to output (0 for no output)
   };
 
   llama_sampler_params  llama_sampler_default_params();