Add "Processing: %" status update for pre-processing

cristianadam · cristianadam · commit 772584b82cda · 2026-04-13T00:03:43.000+02:00
Fixes: #7
diff --git a/llamachateditor.cpp b/llamachateditor.cpp
@@ -152,7 +152,10 @@ ChatEditor::ChatEditor()
             &ChatManager::followUpQuestionsReceived,
             this,
             &ChatEditor::createFollowUpWidget);
-    connect(&chatManager, &ChatManager::messageExtraUpdated, this, &ChatEditor::onMessageExtraUpdated);
+    connect(&chatManager,
+            &ChatManager::messageExtraUpdated,
+            this,
+            &ChatEditor::onMessageExtraUpdated);
 
     connect(m_input, &ChatInput::sendRequested, this, &ChatEditor::onSendRequested);
     connect(m_input, &ChatInput::stopRequested, this, &ChatEditor::onStopRequested);
@@ -812,22 +815,42 @@ void ChatEditor::updateSpeedLabel(const Message &msg)
 {
     // Update the speed label using the latest timings
     if (settings().showTokensPerSecond.value()) {
-        const auto &t = msg.timings;
-        if (t.predicted_ms > 0 && t.prompt_ms > 0) {
-            qreal tokensPerSec = (t.predicted_n + t.prompt_n) * 1000.0
-                                 / (t.predicted_ms + t.prompt_ms);
-            m_speedLabel->setText(Tr::tr("Speed: %1 t/s").arg(tokensPerSec, 0, 'f', 1));
-
-            QString labelTooltip(
-                Tr::tr("<b>Prompt:</b><br>Tokens: %1<br>Time: %2 ms<br>Speed: %3 t/s<br><br>"
-                       "<b>Generation:</b><br>Tokens: %4<br>Time: %5 ms<br>Speed: %6 t/s")
-                    .arg(t.prompt_n)
-                    .arg(t.prompt_ms)
-                    .arg(t.prompt_n * 1000.0 / t.prompt_ms, 0, 'f', 1)
-                    .arg(t.predicted_n)
-                    .arg(t.predicted_ms)
-                    .arg(t.predicted_n * 1000.0 / t.predicted_ms, 0, 'f', 1));
+        if (msg.content.isEmpty() && msg.promptProgress.total > 0) {
+            double processed = msg.promptProgress.processed + msg.promptProgress.cache;
+            double percent = (processed / msg.promptProgress.total) * 100.0;
+
+            percent = qBound(0.0, percent, 100.0);
+
+            m_speedLabel->setText(Tr::tr("Processing: %1%").arg(percent, 0, 'f', 0));
+
+            QString labelTooltip = Tr::tr("<b>Prompt Processing:</b><br>"
+                                          "Total Tokens: %1<br>"
+                                          "Processed: %2<br>"
+                                          "Cached: %3<br>"
+                                          "Time: %4 ms")
+                                       .arg(msg.promptProgress.total)
+                                       .arg(processed)
+                                       .arg(msg.promptProgress.cache)
+                                       .arg(msg.timings.prompt_ms);
             m_speedLabel->setToolTip(labelTooltip);
+        } else if (!msg.content.isEmpty()) {
+            const auto &t = msg.timings;
+            if (t.predicted_ms > 0 && t.prompt_ms > 0) {
+                qreal tokensPerSec = (t.predicted_n + t.prompt_n) * 1000.0
+                                     / (t.predicted_ms + t.prompt_ms);
+                m_speedLabel->setText(Tr::tr("Speed: %1 t/s").arg(tokensPerSec, 0, 'f', 1));
+
+                QString labelTooltip(
+                    Tr::tr("<b>Prompt:</b><br>Tokens: %1<br>Time: %2 ms<br>Speed: %3 t/s<br><br>"
+                           "<b>Generation:</b><br>Tokens: %4<br>Time: %5 ms<br>Speed: %6 t/s")
+                        .arg(t.prompt_n)
+                        .arg(t.prompt_ms)
+                        .arg(t.prompt_n * 1000.0 / t.prompt_ms, 0, 'f', 1)
+                        .arg(t.predicted_n)
+                        .arg(t.predicted_ms)
+                        .arg(t.predicted_n * 1000.0 / t.predicted_ms, 0, 'f', 1));
+                m_speedLabel->setToolTip(labelTooltip);
+            }
         }
     }
 }
diff --git a/llamachatmanager.cpp b/llamachatmanager.cpp
@@ -47,6 +47,7 @@ static void addCommonPayloadParams(QJsonObject &payload)
     payload["dry_penalty_last_n"] = settings().dry_penalty_last_n.value();
     payload["max_tokens"] = settings().max_tokens.value();
     payload["timings_per_token"] = settings().showTokensPerSecond.value();
+    payload["return_progress"] = settings().showTokensPerSecond.value();
 }
 
 static void addToolsToPayload(QJsonObject &payload)
@@ -659,6 +660,18 @@ void ChatManager::sendChatRequest(const QString &convId,
                 return;
             }
 
+            if (chunk.contains("prompt_progress")) {
+                QJsonObject progressObj = chunk["prompt_progress"].toObject();
+                Message &pm = m_pendingMessages[convId];
+
+                pm.promptProgress.total = progressObj["total"].toInt();
+                pm.promptProgress.cache = progressObj["cache"].toInt();
+                pm.promptProgress.processed = progressObj["processed"].toInt();
+                pm.promptProgress.time_ms = progressObj["time_ms"].toInteger();
+
+                emit pendingMessageChanged(pm);
+            }
+
             if (settings().showTokensPerSecond.value() && chunk.contains("timings")) {
                 QJsonObject t = chunk["timings"].toObject();
                 TimingReport tr;
@@ -670,7 +683,7 @@ void ChatManager::sendChatRequest(const QString &convId,
             }
 
             QJsonArray choices = chunk["choices"].toArray();
-            if (!choices.isEmpty()) {                                
+            if (!choices.isEmpty()) {
                 const QJsonObject &delta = choices[0].toObject()["delta"].toObject();
 
                 if (delta.contains("reasoning_content")) {
diff --git a/llamatypes.h b/llamatypes.h
@@ -17,6 +17,14 @@ struct TimingReport
     double predicted_ms{0};
 };
 
+struct PromptProgress
+{
+    int total{0};
+    int cache{0};
+    int processed{0};
+    qint64 time_ms{0};
+};
+
 /**
  * What is conversation "branching"? It is a feature that allows the user to edit an old message
  * in the history, while still keeping the conversation flow.
@@ -56,6 +64,7 @@ struct Message
     QString role;     // "user" | "assistant" | "system" | "tool"
     QString content;
     TimingReport timings;
+    PromptProgress promptProgress;
     QList<QVariantMap> extra; // array of MessageExtra
 
     // Node relations – stored in the DB, not serialised directly