diff --git a/notebooks/length_correction.ipynb b/notebooks/length_correction.ipynb
index cb0edac6..800bba1b 100644
--- a/notebooks/length_correction.ipynb
+++ b/notebooks/length_correction.ipynb
@@ -148,7 +148,7 @@
"name": "stdout",
"output_type": "stream",
"text": [
- "We are comparing to 33 Arena models\n"
+ "We are comparing to 36 Arena models\n"
]
}
],
@@ -444,8 +444,8 @@
"output_type": "stream",
"text": [
"Arena vs Length\n",
- "Spearman Corr: 0.281\n",
- "Kendall Corr: 0.194\n"
+ "Spearman Corr: 0.284\n",
+ "Kendall Corr: 0.197\n"
]
}
],
@@ -492,12 +492,12 @@
"Adversarial rank gain: 0.0\n",
"\n",
"## Correlation with Arena (higher is better)\n",
- "Spearman Corr: 0.930\n",
- "Kendall Corr: 0.811\n",
+ "Spearman Corr: 0.939\n",
+ "Kendall Corr: 0.826\n",
"\n",
- "## Correlation with length (closer to spearman=0.28, kendall=0.19 is better)\n",
- "Spearman Corr: 0.467\n",
- "Kendall Corr: 0.324\n",
+ "## Correlation with length (closer to spearman=0.28, kendall=0.20 is better)\n",
+ "Spearman Corr: 0.465\n",
+ "Kendall Corr: 0.322\n",
"\n",
"## Top 10 models\n"
]
@@ -508,13 +508,13 @@
"gpt4_1106_preview_verbose 64.303601\n",
"gpt4_1106_preview 50.000000\n",
"Snorkel-Mistral-PairRM-DPO-best-of-16 34.860133\n",
+ "Contextual-KTO-Mistral-PairRM 33.227355\n",
"pairrm-Yi-34B-Chat 31.241283\n",
"Snorkel-Mistral-PairRM-DPO 30.220053\n",
"Yi-34B-Chat 29.659947\n",
"claude-3-opus-20240229 29.041764\n",
"Qwen1.5-72B-Chat 26.498283\n",
"claude-3-sonnet-20240229 25.556325\n",
- "Mixtral-8x7B-Instruct-v0.1_verbose 24.614063\n",
"Name: win_rate, dtype: float64"
]
},
@@ -700,18 +700,18 @@
"# Report for **balanced_win_rate**\n",
"\n",
"## Gameability (lower is better)\n",
- "Verbosity gameability (relative std metric): 12.0%\n",
- "Conciseness gameability (relative std metric): 18.2%\n",
+ "Verbosity gameability (relative std metric): 12.1%\n",
+ "Conciseness gameability (relative std metric): 18.4%\n",
"Adversarial winrate gain: 40.8\n",
- "Adversarial rank gain: 108.0\n",
+ "Adversarial rank gain: 110.0\n",
"\n",
"## Correlation with Arena (higher is better)\n",
- "Spearman Corr: 0.933\n",
- "Kendall Corr: 0.807\n",
+ "Spearman Corr: 0.947\n",
+ "Kendall Corr: 0.829\n",
"\n",
- "## Correlation with length (closer to spearman=0.28, kendall=0.19 is better)\n",
- "Spearman Corr: 0.125\n",
- "Kendall Corr: 0.085\n",
+ "## Correlation with length (closer to spearman=0.28, kendall=0.20 is better)\n",
+ "Spearman Corr: 0.148\n",
+ "Kendall Corr: 0.103\n",
"\n",
"## Top 10 models\n"
]
@@ -719,16 +719,16 @@
{
"data": {
"text/plain": [
- "gpt4_1106_preview_verbose 55.464179\n",
- "gpt4_1106_preview 50.0\n",
- "gpt4_gamed 44.532377\n",
- "gpt4_1106_preview_concise 42.476316\n",
- "claude-3-opus-20240229 39.494379\n",
- "Qwen1.5-72B-Chat 37.072419\n",
- "gpt4 36.503486\n",
- "claude-3-sonnet-20240229 35.516836\n",
- "gpt4_0613_verbose 32.752569\n",
- "Snorkel-Mistral-PairRM-DPO-best-of-16 31.50451\n",
+ "gpt4_1106_preview_verbose 55.464179\n",
+ "gpt4_1106_preview 50.0\n",
+ "gpt4_gamed 44.532377\n",
+ "gpt4_1106_preview_concise 42.476316\n",
+ "claude-3-opus-20240229 39.494379\n",
+ "mistral-large-2402 37.141506\n",
+ "Qwen1.5-72B-Chat 37.072419\n",
+ "gpt4 36.503486\n",
+ "claude-3-sonnet-20240229 35.516836\n",
+ "gpt4_0613_verbose 32.752569\n",
"Name: balanced_win_rate, dtype: object"
]
},
@@ -792,1504 +792,1532 @@
"data": {
"text/html": [
"\n",
- "
\n",
+ "\n",
" \n",
" \n",
" | \n",
- " avg_length | \n",
- " win_rate | \n",
- " new_win_rate | \n",
- " delta_win_rate | \n",
- " rank_win_rate | \n",
- " rank_new_win_rate | \n",
- " delta_rank | \n",
+ " avg_length | \n",
+ " win_rate | \n",
+ " new_win_rate | \n",
+ " delta_win_rate | \n",
+ " rank_win_rate | \n",
+ " rank_new_win_rate | \n",
+ " delta_rank | \n",
"
\n",
" \n",
" \n",
" \n",
- " gpt4_1106_preview_verbose | \n",
- " 2402 | \n",
- " 64.303601 | \n",
- " 55.464179 | \n",
- " -8.839422 | \n",
- " 0 | \n",
- " 0 | \n",
- " 0 | \n",
- "
\n",
- " \n",
- " gpt4_1106_preview | \n",
- " 2049 | \n",
- " 50.000000 | \n",
- " 50.000000 | \n",
- " 0.000000 | \n",
- " 1 | \n",
- " 1 | \n",
- " 0 | \n",
- "
\n",
- " \n",
- " gpt4_1106_preview_concise | \n",
- " 1136 | \n",
- " 22.920194 | \n",
- " 42.476316 | \n",
- " 19.556121 | \n",
- " 13 | \n",
- " 3 | \n",
- " 10 | \n",
- "
\n",
- " \n",
- " claude-3-opus-20240229 | \n",
- " 1388 | \n",
- " 29.041764 | \n",
- " 39.494379 | \n",
- " 10.452615 | \n",
- " 6 | \n",
- " 4 | \n",
- " 2 | \n",
- "
\n",
- " \n",
- " gpt4 | \n",
- " 1365 | \n",
- " 23.576789 | \n",
- " 36.503486 | \n",
- " 12.926697 | \n",
- " 11 | \n",
- " 6 | \n",
- " 5 | \n",
- "
\n",
- " \n",
- " Qwen1.5-72B-Chat | \n",
- " 1549 | \n",
- " 26.498283 | \n",
- " 37.072419 | \n",
- " 10.574135 | \n",
- " 7 | \n",
- " 5 | \n",
- " 2 | \n",
- "
\n",
- " \n",
- " gpt4_0314 | \n",
- " 1371 | \n",
- " 22.073259 | \n",
- " 30.972772 | \n",
- " 8.899513 | \n",
- " 14 | \n",
- " 11 | \n",
- " 3 | \n",
- "
\n",
- " \n",
- " claude-3-sonnet-20240229 | \n",
- " 1420 | \n",
- " 25.556325 | \n",
- " 35.516836 | \n",
- " 9.960510 | \n",
- " 8 | \n",
- " 7 | \n",
- " 1 | \n",
- "
\n",
- " \n",
- " gpt4_0613_verbose | \n",
- " 1473 | \n",
- " 23.237360 | \n",
- " 32.752569 | \n",
- " 9.515209 | \n",
- " 12 | \n",
- " 8 | \n",
- " 4 | \n",
- "
\n",
- " \n",
- " claude-2.1_verbose | \n",
- " 1414 | \n",
- " 24.354071 | \n",
- " 30.614862 | \n",
- " 6.260791 | \n",
- " 10 | \n",
- " 13 | \n",
- " -3 | \n",
- "
\n",
- " \n",
- " gpt4_0613 | \n",
- " 1140 | \n",
- " 15.755038 | \n",
- " 29.528662 | \n",
- " 13.773624 | \n",
- " 28 | \n",
- " 17 | \n",
- " 11 | \n",
- "
\n",
- " \n",
- " Snorkel-Mistral-PairRM-DPO-best-of-16 | \n",
- " 2616 | \n",
- " 34.860133 | \n",
- " 31.504510 | \n",
- " -3.355623 | \n",
- " 2 | \n",
- " 9 | \n",
- " -7 | \n",
- "
\n",
- " \n",
- " pairrm-Yi-34B-Chat | \n",
- " 2195 | \n",
- " 31.241283 | \n",
- " 29.895164 | \n",
- " -1.346119 | \n",
- " 3 | \n",
- " 14 | \n",
- " -11 | \n",
- "
\n",
- " \n",
- " mistral-medium | \n",
- " 1500 | \n",
- " 21.855773 | \n",
- " 30.845477 | \n",
- " 8.989704 | \n",
- " 15 | \n",
- " 12 | \n",
- " 3 | \n",
- "
\n",
- " \n",
- " claude-2 | \n",
- " 1069 | \n",
- " 17.188240 | \n",
- " 29.813958 | \n",
- " 12.625718 | \n",
- " 23 | \n",
- " 15 | \n",
- " 8 | \n",
- "
\n",
- " \n",
- " claude | \n",
- " 1082 | \n",
- " 16.985344 | \n",
- " 31.090175 | \n",
- " 14.104832 | \n",
- " 24 | \n",
- " 10 | \n",
- " 14 | \n",
- "
\n",
- " \n",
- " Yi-34B-Chat | \n",
- " 2123 | \n",
- " 29.659947 | \n",
- " 28.477128 | \n",
- " -1.182818 | \n",
- " 5 | \n",
- " 21 | \n",
- " -16 | \n",
- "
\n",
- " \n",
- " Snorkel-Mistral-PairRM-DPO | \n",
- " 2736 | \n",
- " 30.220053 | \n",
- " 27.673988 | \n",
- " -2.546065 | \n",
- " 4 | \n",
- " 24 | \n",
- " -20 | \n",
- "
\n",
- " \n",
- " claude-instant-1.2 | \n",
- " 1112 | \n",
- " 16.127400 | \n",
- " 28.730484 | \n",
- " 12.603085 | \n",
- " 25 | \n",
- " 19 | \n",
- " 6 | \n",
- "
\n",
- " \n",
- " claude-2.1 | \n",
- " 1096 | \n",
- " 15.733507 | \n",
- " 29.562828 | \n",
- " 13.829321 | \n",
- " 29 | \n",
- " 16 | \n",
- " 13 | \n",
- "
\n",
- " \n",
- " xwinlm-70b-v0.1 | \n",
- " 1775 | \n",
- " 21.812957 | \n",
- " 25.825081 | \n",
- " 4.012124 | \n",
- " 16 | \n",
- " 26 | \n",
- " -10 | \n",
- "
\n",
- " \n",
- " gemini-pro | \n",
- " 1456 | \n",
- " 18.177645 | \n",
- " 24.449134 | \n",
- " 6.271490 | \n",
- " 21 | \n",
- " 29 | \n",
- " -8 | \n",
- "
\n",
- " \n",
- " Mixtral-8x7B-Instruct-v0.1 | \n",
- " 1465 | \n",
- " 18.255318 | \n",
- " 26.083414 | \n",
- " 7.828096 | \n",
- " 20 | \n",
- " 25 | \n",
- " -5 | \n",
- "
\n",
- " \n",
- " evo-v2-7b | \n",
- " 1754 | \n",
- " 20.834113 | \n",
- " 22.778849 | \n",
- " 1.944736 | \n",
- " 18 | \n",
- " 32 | \n",
- " -14 | \n",
- "
\n",
- " \n",
- " Mixtral-8x7B-Instruct-v0.1_verbose | \n",
- " 2083 | \n",
- " 24.614063 | \n",
- " 24.503900 | \n",
- " -0.110163 | \n",
- " 9 | \n",
- " 28 | \n",
- " -19 | \n",
- "
\n",
- " \n",
- " Mixtral-8x7B-Instruct-v0.1_concise | \n",
- " 910 | \n",
- " 13.744040 | \n",
- " 28.436687 | \n",
- " 14.692646 | \n",
- " 39 | \n",
- " 22 | \n",
- " 17 | \n",
- "
\n",
- " \n",
- " gpt-3.5-turbo-16k-0613 | \n",
- " 1328 | \n",
- " 14.132391 | \n",
- " 22.695292 | \n",
- " 8.562902 | \n",
- " 34 | \n",
- " 34 | \n",
- " 0 | \n",
- "
\n",
- " \n",
- " gpt-3.5-turbo-0613 | \n",
- " 1331 | \n",
- " 14.095799 | \n",
- " 20.421657 | \n",
- " 6.325858 | \n",
- " 35 | \n",
- " 40 | \n",
- " -5 | \n",
- "
\n",
- " \n",
- " gpt-3.5-turbo-1106_verbose | \n",
- " 1058 | \n",
- " 12.763170 | \n",
- " 28.251113 | \n",
- " 15.487943 | \n",
- " 43 | \n",
- " 23 | \n",
- " 20 | \n",
- "
\n",
- " \n",
- " gpt4_0613_concise | \n",
- " 627 | \n",
- " 9.400321 | \n",
- " 28.602992 | \n",
- " 19.202671 | \n",
- " 61 | \n",
- " 20 | \n",
- " 41 | \n",
- "
\n",
- " \n",
- " pairrm-tulu-2-70b | \n",
- " 1607 | \n",
- " 18.638963 | \n",
- " 23.943414 | \n",
- " 5.304451 | \n",
- " 19 | \n",
- " 30 | \n",
- " -11 | \n",
- "
\n",
- " \n",
- " tulu-2-dpo-70b | \n",
- " 1418 | \n",
- " 15.982854 | \n",
- " 24.924799 | \n",
- " 8.941945 | \n",
- " 27 | \n",
- " 27 | \n",
- " 0 | \n",
- "
\n",
- " \n",
- " Mistral-7B-ReMax-v0.1 | \n",
- " 1478 | \n",
- " 15.999331 | \n",
- " 23.779278 | \n",
- " 7.779946 | \n",
- " 26 | \n",
- " 31 | \n",
- " -5 | \n",
- "
\n",
- " \n",
- " gpt-3.5-turbo-1106 | \n",
- " 796 | \n",
- " 9.177965 | \n",
- " 21.197910 | \n",
- " 12.019945 | \n",
- " 64 | \n",
- " 37 | \n",
- " 27 | \n",
- "
\n",
- " \n",
- " LMCocktail-10.7B-v1 | \n",
- " 1203 | \n",
- " 13.153431 | \n",
- " 22.716773 | \n",
- " 9.563342 | \n",
- " 40 | \n",
- " 33 | \n",
- " 7 | \n",
- "
\n",
- " \n",
- " internlm2-chat-20b-ppo | \n",
- " 2373 | \n",
- " 21.749155 | \n",
- " 20.927878 | \n",
- " -0.821277 | \n",
- " 17 | \n",
- " 39 | \n",
- " -22 | \n",
- "
\n",
- " \n",
- " claude-2.1_concise | \n",
- " 573 | \n",
- " 9.227125 | \n",
- " 19.030658 | \n",
- " 9.803532 | \n",
- " 63 | \n",
- " 45 | \n",
- " 18 | \n",
- "
\n",
- " \n",
- " gpt-3.5-turbo-0301 | \n",
- " 827 | \n",
- " 9.622453 | \n",
- " 21.634439 | \n",
- " 12.011986 | \n",
- " 58 | \n",
- " 36 | \n",
- " 22 | \n",
- "
\n",
- " \n",
- " xwinlm-13b-v0.1 | \n",
- " 1894 | \n",
- " 17.427935 | \n",
- " 18.845262 | \n",
- " 1.417327 | \n",
- " 22 | \n",
- " 46 | \n",
- " -24 | \n",
- "
\n",
- " \n",
- " deepseek-llm-67b-chat | \n",
- " 1151 | \n",
- " 12.093422 | \n",
- " 21.888822 | \n",
- " 9.795400 | \n",
- " 46 | \n",
- " 35 | \n",
- " 11 | \n",
- "
\n",
- " \n",
- " gpt35_turbo_instruct | \n",
- " 1018 | \n",
- " 8.462447 | \n",
- " 14.933606 | \n",
- " 6.471160 | \n",
- " 68 | \n",
- " 67 | \n",
- " 1 | \n",
- "
\n",
- " \n",
- " wizardlm-70b | \n",
- " 1545 | \n",
- " 14.383896 | \n",
- " 18.441779 | \n",
- " 4.057883 | \n",
- " 32 | \n",
- " 47 | \n",
- " -15 | \n",
- "
\n",
- " \n",
- " vicuna-33b-v1.3 | \n",
- " 1479 | \n",
- " 12.705948 | \n",
- " 18.269349 | \n",
- " 5.563401 | \n",
- " 44 | \n",
- " 48 | \n",
- " -4 | \n",
- "
\n",
- " \n",
- " pairrm-tulu-2-13b | \n",
- " 1454 | \n",
- " 13.831901 | \n",
- " 20.187366 | \n",
- " 6.355465 | \n",
- " 38 | \n",
- " 41 | \n",
- " -3 | \n",
- "
\n",
- " \n",
- " Mistral-7B-Instruct-v0.2 | \n",
- " 1676 | \n",
- " 14.722773 | \n",
- " 17.503610 | \n",
- " 2.780837 | \n",
- " 31 | \n",
- " 51 | \n",
- " -20 | \n",
- "
\n",
- " \n",
- " evo-7b | \n",
- " 1774 | \n",
- " 15.577437 | \n",
- " 17.702745 | \n",
- " 2.125307 | \n",
- " 30 | \n",
- " 50 | \n",
- " -20 | \n",
- "
\n",
- " \n",
- " humpback-llama2-70b | \n",
- " 1107 | \n",
- " 10.121772 | \n",
- " 19.416493 | \n",
- " 9.294722 | \n",
- " 56 | \n",
- " 44 | \n",
- " 12 | \n",
- "
\n",
- " \n",
- " OpenHermes-2.5-Mistral-7B | \n",
- " 1107 | \n",
- " 10.340416 | \n",
- " 16.352879 | \n",
- " 6.012464 | \n",
- " 55 | \n",
- " 57 | \n",
- " -2 | \n",
- "
\n",
- " \n",
- " deita-7b-v1.0 | \n",
- " 1417 | \n",
- " 12.646639 | \n",
- " 19.855339 | \n",
- " 7.208699 | \n",
- " 45 | \n",
- " 42 | \n",
- " 3 | \n",
- "
\n",
- " \n",
- " jina-chat | \n",
- " 676 | \n",
- " 7.786130 | \n",
- " 21.063020 | \n",
- " 13.276889 | \n",
- " 74 | \n",
- " 38 | \n",
- " 36 | \n",
- "
\n",
- " \n",
- " gpt-3.5-turbo-1106_concise | \n",
- " 431 | \n",
- " 7.415865 | \n",
- " 29.490736 | \n",
- " 22.074871 | \n",
- " 82 | \n",
- " 18 | \n",
- " 64 | \n",
- "
\n",
- " \n",
- " causallm-14b | \n",
- " 1391 | \n",
- " 11.146161 | \n",
- " 15.225911 | \n",
- " 4.079750 | \n",
- " 51 | \n",
- " 66 | \n",
- " -15 | \n",
- "
\n",
- " \n",
- " pairrm-zephyr-7b-beta | \n",
- " 1487 | \n",
- " 12.841278 | \n",
- " 18.046105 | \n",
- " 5.204827 | \n",
- " 42 | \n",
- " 49 | \n",
- " -7 | \n",
- "
\n",
- " \n",
- " Starling-LM-7B-alpha | \n",
- " 1895 | \n",
- " 14.245924 | \n",
- " 15.838749 | \n",
- " 1.592826 | \n",
- " 33 | \n",
- " 59 | \n",
- " -26 | \n",
- "
\n",
- " \n",
- " llama-2-70b-chat-hf | \n",
- " 1790 | \n",
- " 13.888258 | \n",
- " 16.317284 | \n",
- " 2.429026 | \n",
- " 36 | \n",
- " 58 | \n",
- " -22 | \n",
- "
\n",
- " \n",
- " openchat-v3.1-13b | \n",
- " 1484 | \n",
- " 11.082230 | \n",
- " 16.885199 | \n",
- " 5.802969 | \n",
- " 52 | \n",
- " 52 | \n",
- " 0 | \n",
- "
\n",
- " \n",
- " wizardlm-13b-v1.2 | \n",
- " 1635 | \n",
- " 12.027480 | \n",
- " 15.578715 | \n",
- " 3.551234 | \n",
- " 47 | \n",
- " 62 | \n",
- " -15 | \n",
- "
\n",
- " \n",
- " ultralm-13b-v2.0-best-of-16 | \n",
- " 1720 | \n",
- " 13.853373 | \n",
- " 16.749030 | \n",
- " 2.895657 | \n",
- " 37 | \n",
- " 53 | \n",
- " -16 | \n",
- "
\n",
- " \n",
- " wizardlm-13b-v1.1 | \n",
- " 1525 | \n",
- " 11.233910 | \n",
- " 15.777430 | \n",
- " 4.543520 | \n",
- " 50 | \n",
- " 60 | \n",
- " -10 | \n",
- "
\n",
- " \n",
- " zephyr-7b-beta | \n",
- " 1444 | \n",
- " 10.992886 | \n",
- " 14.824691 | \n",
- " 3.831805 | \n",
- " 53 | \n",
- " 68 | \n",
- " -15 | \n",
- "
\n",
- " \n",
- " dolphin-2.2.1-mistral-7b | \n",
- " 1130 | \n",
- " 9.039800 | \n",
- " 13.974427 | \n",
- " 4.934628 | \n",
- " 66 | \n",
- " 73 | \n",
- " -7 | \n",
- "
\n",
- " \n",
- " humpback-llama-65b | \n",
- " 1232 | \n",
- " 9.425139 | \n",
- " 15.277149 | \n",
- " 5.852010 | \n",
- " 60 | \n",
- " 65 | \n",
- " -5 | \n",
- "
\n",
- " \n",
- " openbuddy-llama2-70b-v10.1 | \n",
- " 1077 | \n",
- " 8.096422 | \n",
- " 13.879050 | \n",
- " 5.782628 | \n",
- " 72 | \n",
- " 74 | \n",
- " -2 | \n",
- "
\n",
- " \n",
- " openbuddy-llama-65b-v8 | \n",
- " 1162 | \n",
- " 8.770650 | \n",
- " 16.487347 | \n",
- " 7.716697 | \n",
- " 67 | \n",
- " 55 | \n",
- " 12 | \n",
- "
\n",
- " \n",
- " Qwen-14B-Chat | \n",
- " 1013 | \n",
- " 7.502333 | \n",
- " 19.464203 | \n",
- " 11.961870 | \n",
- " 79 | \n",
- " 43 | \n",
- " 36 | \n",
- "
\n",
- " \n",
- " gpt4_gamed | \n",
- " 68 | \n",
- " 3.738337 | \n",
- " 44.532377 | \n",
- " 40.794040 | \n",
- " 110 | \n",
- " 2 | \n",
- " 108 | \n",
- "
\n",
- " \n",
- " cut-13b | \n",
- " 1637 | \n",
- " 10.779089 | \n",
- " 14.074431 | \n",
- " 3.295342 | \n",
- " 54 | \n",
- " 72 | \n",
- " -18 | \n",
- "
\n",
- " \n",
- " openchat-v2-w-13b | \n",
- " 1566 | \n",
- " 9.615344 | \n",
- " 14.106426 | \n",
- " 4.491082 | \n",
- " 59 | \n",
- " 71 | \n",
- " -12 | \n",
- "
\n",
- " \n",
- " tulu-2-dpo-13b | \n",
- " 1614 | \n",
- " 10.119788 | \n",
- " 15.521773 | \n",
- " 5.401985 | \n",
- " 57 | \n",
- " 63 | \n",
- " -6 | \n",
- "
\n",
- " \n",
- " claude2-alpaca-13b | \n",
- " 1127 | \n",
- " 7.437351 | \n",
- " 16.733107 | \n",
- " 9.295755 | \n",
- " 81 | \n",
- " 54 | \n",
- " 27 | \n",
- "
\n",
- " \n",
- " minotaur-13b | \n",
- " 881 | \n",
- " 5.738964 | \n",
- " 16.471708 | \n",
- " 10.732744 | \n",
- " 98 | \n",
- " 56 | \n",
- " 42 | \n",
- "
\n",
- " \n",
- " airoboros-65b | \n",
- " 1512 | \n",
- " 9.388950 | \n",
- " 13.035846 | \n",
- " 3.646896 | \n",
- " 62 | \n",
- " 81 | \n",
- " -19 | \n",
- "
\n",
- " \n",
- " cohere | \n",
- " 1983 | \n",
- " 12.901455 | \n",
- " 13.147459 | \n",
- " 0.246004 | \n",
- " 41 | \n",
- " 79 | \n",
- " -38 | \n",
- "
\n",
- " \n",
- " vicuna-13b-v1.3 | \n",
- " 1132 | \n",
- " 7.137240 | \n",
- " 14.467847 | \n",
- " 7.330607 | \n",
- " 85 | \n",
- " 70 | \n",
- " 15 | \n",
- "
\n",
- " \n",
- " xwinlm-7b-v0.1 | \n",
- " 1894 | \n",
- " 11.245652 | \n",
- " 12.644308 | \n",
- " 1.398656 | \n",
- " 49 | \n",
- " 84 | \n",
- " -35 | \n",
- "
\n",
- " \n",
- " airoboros-33b | \n",
- " 1514 | \n",
- " 9.053160 | \n",
- " 12.840199 | \n",
- " 3.787039 | \n",
- " 65 | \n",
- " 82 | \n",
- " -17 | \n",
- "
\n",
- " \n",
- " platolm-7b | \n",
- " 1344 | \n",
- " 6.320828 | \n",
- " 11.443269 | \n",
- " 5.122441 | \n",
- " 91 | \n",
- " 93 | \n",
- " -2 | \n",
- "
\n",
- " \n",
- " vicuna-13b-v1.5 | \n",
- " 1061 | \n",
- " 6.722122 | \n",
- " 9.559231 | \n",
- " 2.837109 | \n",
- " 88 | \n",
- " 104 | \n",
- " -16 | \n",
- "
\n",
- " \n",
- " gemma-7b-it | \n",
- " 1115 | \n",
- " 6.937294 | \n",
- " 13.780013 | \n",
- " 6.842719 | \n",
- " 86 | \n",
- " 76 | \n",
- " 10 | \n",
- "
\n",
- " \n",
- " openchat-v2-13b | \n",
- " 1564 | \n",
- " 8.435076 | \n",
- " 10.921402 | \n",
- " 2.486326 | \n",
- " 69 | \n",
- " 94 | \n",
- " -25 | \n",
- "
\n",
- " \n",
- " zephyr-7b-alpha | \n",
- " 1302 | \n",
- " 8.352664 | \n",
- " 12.315627 | \n",
- " 3.962963 | \n",
- " 70 | \n",
- " 86 | \n",
- " -16 | \n",
- "
\n",
- " \n",
- " openbuddy-llama-30b-v7.1 | \n",
- " 968 | \n",
- " 6.130015 | \n",
- " 13.506367 | \n",
- " 7.376352 | \n",
- " 94 | \n",
- " 77 | \n",
- " 17 | \n",
- "
\n",
- " \n",
- " ultralm-13b-best-of-16 | \n",
- " 1980 | \n",
- " 11.307315 | \n",
- " 12.037139 | \n",
- " 0.729824 | \n",
- " 48 | \n",
- " 88 | \n",
- " -40 | \n",
- "
\n",
- " \n",
- " oasst-sft-llama-33b | \n",
- " 748 | \n",
- " 4.770391 | \n",
- " 12.742207 | \n",
- " 7.971816 | \n",
- " 104 | \n",
- " 83 | \n",
- " 21 | \n",
- "
\n",
- " \n",
- " wizardlm-13b | \n",
- " 985 | \n",
- " 5.878153 | \n",
- " 13.845511 | \n",
- " 7.967358 | \n",
- " 96 | \n",
- " 75 | \n",
- " 21 | \n",
- "
\n",
- " \n",
- " nous-hermes-13b | \n",
- " 844 | \n",
- " 5.411879 | \n",
- " 14.553850 | \n",
- " 9.141971 | \n",
- " 99 | \n",
- " 69 | \n",
- " 30 | \n",
- "
\n",
- " \n",
- " vicuna-13b | \n",
- " 1037 | \n",
- " 5.831103 | \n",
- " 12.121340 | \n",
- " 6.290237 | \n",
- " 97 | \n",
- " 87 | \n",
- " 10 | \n",
- "
\n",
- " \n",
- " tulu-2-dpo-7b | \n",
- " 1663 | \n",
- " 8.197515 | \n",
- " 13.475569 | \n",
- " 5.278053 | \n",
- " 71 | \n",
- " 78 | \n",
- " -7 | \n",
- "
\n",
- " \n",
- " openbuddy-llama2-13b-v11.1 | \n",
- " 1057 | \n",
- " 6.174716 | \n",
- " 15.665046 | \n",
- " 9.490330 | \n",
- " 93 | \n",
- " 61 | \n",
- " 32 | \n",
- "
\n",
- " \n",
- " ultralm-13b-v2.0 | \n",
- " 1399 | \n",
- " 7.504623 | \n",
- " 12.353613 | \n",
- " 4.848990 | \n",
- " 78 | \n",
- " 85 | \n",
- " -7 | \n",
- "
\n",
- " \n",
- " text_davinci_001 | \n",
- " 296 | \n",
- " 2.764005 | \n",
- " 8.565768 | \n",
- " 5.801762 | \n",
- " 120 | \n",
- " 109 | \n",
- " 11 | \n",
- "
\n",
- " \n",
- " openbuddy-falcon-40b-v9 | \n",
- " 1089 | \n",
- " 5.955743 | \n",
- " 13.140887 | \n",
- " 7.185144 | \n",
- " 95 | \n",
- " 80 | \n",
- " 15 | \n",
- "
\n",
- " \n",
- " openchat-13b | \n",
- " 1632 | \n",
- " 8.022386 | \n",
- " 10.899403 | \n",
- " 2.877017 | \n",
- " 73 | \n",
- " 95 | \n",
- " -22 | \n",
- "
\n",
- " \n",
- " llama-2-13b-chat-hf | \n",
- " 1513 | \n",
- " 7.702310 | \n",
- " 11.844717 | \n",
- " 4.142407 | \n",
- " 76 | \n",
- " 89 | \n",
- " -13 | \n",
- "
\n",
- " \n",
- " guanaco-65b | \n",
- " 1249 | \n",
- " 6.858495 | \n",
- " 11.653236 | \n",
- " 4.794742 | \n",
- " 87 | \n",
- " 90 | \n",
- " -3 | \n",
- "
\n",
- " \n",
- " opencoderplus-15b | \n",
- " 1628 | \n",
- " 7.406222 | \n",
- " 9.927700 | \n",
- " 2.521477 | \n",
- " 83 | \n",
- " 101 | \n",
- " -18 | \n",
- "
\n",
- " \n",
- " oasst-rlhf-llama-33b | \n",
- " 1079 | \n",
- " 6.296435 | \n",
- " 10.199504 | \n",
- " 3.903069 | \n",
- " 92 | \n",
- " 98 | \n",
- " -6 | \n",
- "
\n",
- " \n",
- " openchat8192-13b | \n",
- " 1664 | \n",
- " 7.472767 | \n",
- " 9.674293 | \n",
- " 2.201526 | \n",
- " 80 | \n",
- " 103 | \n",
- " -23 | \n",
- "
\n",
- " \n",
- " phi-2-dpo | \n",
- " 1687 | \n",
- " 7.757096 | \n",
- " 10.102981 | \n",
- " 2.345885 | \n",
- " 75 | \n",
- " 99 | \n",
- " -24 | \n",
- "
\n",
- " \n",
- " minichat-1.5-3b | \n",
- " 1545 | \n",
- " 6.553443 | \n",
- " 8.493973 | \n",
- " 1.940530 | \n",
- " 90 | \n",
- " 110 | \n",
- " -20 | \n",
- "
\n",
- " \n",
- " vicuna-7b-v1.5 | \n",
- " 1083 | \n",
- " 4.797494 | \n",
- " 9.831513 | \n",
- " 5.034019 | \n",
- " 103 | \n",
- " 102 | \n",
- " 1 | \n",
- "
\n",
- " \n",
- " llama-2-chat-7b-evol70k-neft | \n",
- " 1612 | \n",
- " 7.602384 | \n",
- " 10.530830 | \n",
- " 2.928447 | \n",
- " 77 | \n",
- " 96 | \n",
- " -19 | \n",
- "
\n",
- " \n",
- " recycled-wizardlm-7b-v2.0 | \n",
- " 1583 | \n",
- " 7.337129 | \n",
- " 10.438112 | \n",
- " 3.100983 | \n",
- " 84 | \n",
- " 97 | \n",
- " -13 | \n",
- "
\n",
- " \n",
- " vicuna-7b-v1.3 | \n",
- " 1110 | \n",
- " 4.642512 | \n",
- " 11.599864 | \n",
- " 6.957352 | \n",
- " 105 | \n",
- " 91 | \n",
- " 14 | \n",
- "
\n",
- " \n",
- " alpaca-farm-ppo-sim-gpt4-20k | \n",
- " 511 | \n",
- " 3.450342 | \n",
- " 7.809135 | \n",
- " 4.358793 | \n",
- " 113 | \n",
- " 113 | \n",
- " 0 | \n",
- "
\n",
- " \n",
- " ultralm-13b | \n",
- " 1087 | \n",
- " 5.074590 | \n",
- " 11.539285 | \n",
- " 6.464695 | \n",
- " 100 | \n",
- " 92 | \n",
- " 8 | \n",
- "
\n",
- " \n",
- " baize-v2-13b | \n",
- " 930 | \n",
- " 4.590545 | \n",
- " 9.054781 | \n",
- " 4.464236 | \n",
- " 106 | \n",
- " 107 | \n",
- " -1 | \n",
- "
\n",
- " \n",
- " recycled-wizardlm-7b-v1.0 | \n",
- " 1494 | \n",
- " 6.632750 | \n",
- " 9.200354 | \n",
- " 2.567604 | \n",
- " 89 | \n",
- " 106 | \n",
- " -17 | \n",
- "
\n",
- " \n",
- " alpaca-7b_verbose | \n",
- " 537 | \n",
- " 2.933102 | \n",
- " 8.155702 | \n",
- " 5.222601 | \n",
- " 118 | \n",
- " 112 | \n",
- " 6 | \n",
- "
\n",
- " \n",
- " alpaca-farm-ppo-human | \n",
- " 803 | \n",
- " 4.100427 | \n",
- " 9.954076 | \n",
- " 5.853649 | \n",
- " 108 | \n",
- " 100 | \n",
- " 8 | \n",
- "
\n",
- " \n",
- " vicuna-7b | \n",
- " 1044 | \n",
- " 4.162611 | \n",
- " 8.263311 | \n",
- " 4.100700 | \n",
- " 107 | \n",
- " 111 | \n",
- " -4 | \n",
- "
\n",
- " \n",
- " alpaca-7b | \n",
- " 396 | \n",
- " 2.591451 | \n",
- " 15.393406 | \n",
- " 12.801955 | \n",
- " 122 | \n",
- " 64 | \n",
- " 58 | \n",
- "
\n",
- " \n",
- " phi-2-sft | \n",
- " 1068 | \n",
- " 3.977568 | \n",
- " 7.608799 | \n",
- " 3.631231 | \n",
- " 109 | \n",
- " 114 | \n",
- " -5 | \n",
- "
\n",
- " \n",
- " minichat-3b | \n",
- " 868 | \n",
- " 3.007151 | \n",
- " 9.394740 | \n",
- " 6.387589 | \n",
- " 117 | \n",
- " 105 | \n",
- " 12 | \n",
- "
\n",
- " \n",
- " guanaco-33b | \n",
- " 1311 | \n",
- " 5.002494 | \n",
- " 7.568960 | \n",
- " 2.566467 | \n",
- " 101 | \n",
- " 115 | \n",
- " -14 | \n",
- "
\n",
- " \n",
- " falcon-40b-instruct | \n",
- " 662 | \n",
- " 3.342919 | \n",
- " 8.765865 | \n",
- " 5.422946 | \n",
- " 116 | \n",
- " 108 | \n",
- " 8 | \n",
- "
\n",
- " \n",
- " gemma-2b-it | \n",
- " 1041 | \n",
- " 3.401971 | \n",
- " 6.002278 | \n",
- " 2.600306 | \n",
- " 115 | \n",
- " 120 | \n",
- " -5 | \n",
- "
\n",
- " \n",
- " llama-2-7b-chat-hf | \n",
- " 1479 | \n",
- " 4.961340 | \n",
- " 6.711881 | \n",
- " 1.750541 | \n",
- " 102 | \n",
- " 118 | \n",
- " -16 | \n",
- "
\n",
- " \n",
- " openbuddy-falcon-7b-v6 | \n",
- " 1152 | \n",
- " 3.521174 | \n",
- " 6.978847 | \n",
- " 3.457673 | \n",
- " 111 | \n",
- " 116 | \n",
- " -5 | \n",
- "
\n",
- " \n",
- " alpaca-7b_concise | \n",
- " 351 | \n",
- " 1.991176 | \n",
- " 6.673438 | \n",
- " 4.682261 | \n",
- " 127 | \n",
- " 119 | \n",
- " 8 | \n",
- "
\n",
- " \n",
- " phi-2 | \n",
- " 626 | \n",
- " 2.350210 | \n",
- " 3.105325 | \n",
- " 0.755115 | \n",
- " 124 | \n",
- " 126 | \n",
- " -2 | \n",
- "
\n",
- " \n",
- " baize-v2-7b | \n",
- " 1127 | \n",
- " 3.404815 | \n",
- " 5.322234 | \n",
- " 1.917420 | \n",
- " 114 | \n",
- " 121 | \n",
- " -7 | \n",
- "
\n",
- " \n",
- " chatglm2-6b | \n",
- " 1027 | \n",
- " 2.762185 | \n",
- " 4.570916 | \n",
- " 1.808732 | \n",
- " 121 | \n",
- " 123 | \n",
- " -2 | \n",
- "
\n",
- " \n",
- " pythia-12b-mix-sft | \n",
- " 913 | \n",
- " 2.578090 | \n",
- " 3.344637 | \n",
- " 0.766547 | \n",
- " 123 | \n",
- " 125 | \n",
- " -2 | \n",
- "
\n",
- " \n",
- " falcon-7b-instruct | \n",
- " 478 | \n",
- " 2.146618 | \n",
- " 6.787961 | \n",
- " 4.641344 | \n",
- " 125 | \n",
- " 117 | \n",
- " 8 | \n",
- "
\n",
- " \n",
- " oasst-sft-pythia-12b | \n",
- " 726 | \n",
- " 1.790114 | \n",
- " 2.274166 | \n",
- " 0.484052 | \n",
- " 128 | \n",
- " 128 | \n",
- " 0 | \n",
- "
\n",
- " \n",
- " guanaco-13b | \n",
- " 1774 | \n",
- " 3.469597 | \n",
- " 4.103434 | \n",
- " 0.633838 | \n",
- " 112 | \n",
- " 124 | \n",
- " -12 | \n",
- "
\n",
- " \n",
- " guanaco-7b | \n",
- " 1364 | \n",
- " 2.880002 | \n",
- " 4.644985 | \n",
- " 1.764983 | \n",
- " 119 | \n",
- " 122 | \n",
- " -3 | \n",
- "
\n",
- " \n",
- " baichuan-13b-chat | \n",
- " 1727 | \n",
- " 1.992146 | \n",
- " 2.464749 | \n",
- " 0.472603 | \n",
- " 126 | \n",
- " 127 | \n",
- " -1 | \n",
+ " gpt4_1106_preview_verbose | \n",
+ " 2402 | \n",
+ " 64.303601 | \n",
+ " 55.464179 | \n",
+ " -8.839422 | \n",
+ " 0 | \n",
+ " 0 | \n",
+ " 0 | \n",
+ "
\n",
+ " \n",
+ " gpt4_1106_preview | \n",
+ " 2049 | \n",
+ " 50.000000 | \n",
+ " 50.000000 | \n",
+ " 0.000000 | \n",
+ " 1 | \n",
+ " 1 | \n",
+ " 0 | \n",
+ "
\n",
+ " \n",
+ " gpt4_1106_preview_concise | \n",
+ " 1136 | \n",
+ " 22.920194 | \n",
+ " 42.476316 | \n",
+ " 19.556121 | \n",
+ " 14 | \n",
+ " 3 | \n",
+ " 11 | \n",
+ "
\n",
+ " \n",
+ " claude-3-opus-20240229 | \n",
+ " 1388 | \n",
+ " 29.041764 | \n",
+ " 39.494379 | \n",
+ " 10.452615 | \n",
+ " 7 | \n",
+ " 4 | \n",
+ " 3 | \n",
+ "
\n",
+ " \n",
+ " gpt4 | \n",
+ " 1365 | \n",
+ " 23.576789 | \n",
+ " 36.503486 | \n",
+ " 12.926697 | \n",
+ " 12 | \n",
+ " 7 | \n",
+ " 5 | \n",
+ "
\n",
+ " \n",
+ " Qwen1.5-72B-Chat | \n",
+ " 1549 | \n",
+ " 26.498283 | \n",
+ " 37.072419 | \n",
+ " 10.574135 | \n",
+ " 8 | \n",
+ " 6 | \n",
+ " 2 | \n",
+ "
\n",
+ " \n",
+ " gpt4_0314 | \n",
+ " 1371 | \n",
+ " 22.073259 | \n",
+ " 30.972772 | \n",
+ " 8.899513 | \n",
+ " 15 | \n",
+ " 13 | \n",
+ " 2 | \n",
+ "
\n",
+ " \n",
+ " claude-3-sonnet-20240229 | \n",
+ " 1420 | \n",
+ " 25.556325 | \n",
+ " 35.516836 | \n",
+ " 9.960510 | \n",
+ " 9 | \n",
+ " 8 | \n",
+ " 1 | \n",
+ "
\n",
+ " \n",
+ " gpt4_0613_verbose | \n",
+ " 1473 | \n",
+ " 23.237360 | \n",
+ " 32.752569 | \n",
+ " 9.515209 | \n",
+ " 13 | \n",
+ " 9 | \n",
+ " 4 | \n",
+ "
\n",
+ " \n",
+ " mistral-large-2402 | \n",
+ " 1362 | \n",
+ " 21.438776 | \n",
+ " 37.141506 | \n",
+ " 15.702730 | \n",
+ " 19 | \n",
+ " 5 | \n",
+ " 14 | \n",
+ "
\n",
+ " \n",
+ " claude-2.1_verbose | \n",
+ " 1414 | \n",
+ " 24.354071 | \n",
+ " 30.614862 | \n",
+ " 6.260791 | \n",
+ " 11 | \n",
+ " 15 | \n",
+ " -4 | \n",
+ "
\n",
+ " \n",
+ " gpt4_0613 | \n",
+ " 1140 | \n",
+ " 15.755038 | \n",
+ " 29.528662 | \n",
+ " 13.773624 | \n",
+ " 30 | \n",
+ " 19 | \n",
+ " 11 | \n",
+ "
\n",
+ " \n",
+ " Snorkel-Mistral-PairRM-DPO-best-of-16 | \n",
+ " 2616 | \n",
+ " 34.860133 | \n",
+ " 31.504510 | \n",
+ " -3.355623 | \n",
+ " 2 | \n",
+ " 10 | \n",
+ " -8 | \n",
+ "
\n",
+ " \n",
+ " Contextual-KTO-Mistral-PairRM | \n",
+ " 2521 | \n",
+ " 33.227355 | \n",
+ " 31.198200 | \n",
+ " -2.029155 | \n",
+ " 3 | \n",
+ " 11 | \n",
+ " -8 | \n",
+ "
\n",
+ " \n",
+ " pairrm-Yi-34B-Chat | \n",
+ " 2195 | \n",
+ " 31.241283 | \n",
+ " 29.895164 | \n",
+ " -1.346119 | \n",
+ " 4 | \n",
+ " 16 | \n",
+ " -12 | \n",
+ "
\n",
+ " \n",
+ " mistral-medium | \n",
+ " 1500 | \n",
+ " 21.855773 | \n",
+ " 30.845477 | \n",
+ " 8.989704 | \n",
+ " 16 | \n",
+ " 14 | \n",
+ " 2 | \n",
+ "
\n",
+ " \n",
+ " claude-2 | \n",
+ " 1069 | \n",
+ " 17.188240 | \n",
+ " 29.813958 | \n",
+ " 12.625718 | \n",
+ " 25 | \n",
+ " 17 | \n",
+ " 8 | \n",
+ "
\n",
+ " \n",
+ " claude | \n",
+ " 1082 | \n",
+ " 16.985344 | \n",
+ " 31.090175 | \n",
+ " 14.104832 | \n",
+ " 26 | \n",
+ " 12 | \n",
+ " 14 | \n",
+ "
\n",
+ " \n",
+ " Yi-34B-Chat | \n",
+ " 2123 | \n",
+ " 29.659947 | \n",
+ " 28.477128 | \n",
+ " -1.182818 | \n",
+ " 6 | \n",
+ " 23 | \n",
+ " -17 | \n",
+ "
\n",
+ " \n",
+ " Snorkel-Mistral-PairRM-DPO | \n",
+ " 2736 | \n",
+ " 30.220053 | \n",
+ " 27.673988 | \n",
+ " -2.546065 | \n",
+ " 5 | \n",
+ " 26 | \n",
+ " -21 | \n",
+ "
\n",
+ " \n",
+ " claude-instant-1.2 | \n",
+ " 1112 | \n",
+ " 16.127400 | \n",
+ " 28.730484 | \n",
+ " 12.603085 | \n",
+ " 27 | \n",
+ " 21 | \n",
+ " 6 | \n",
+ "
\n",
+ " \n",
+ " claude-2.1 | \n",
+ " 1096 | \n",
+ " 15.733507 | \n",
+ " 29.562828 | \n",
+ " 13.829321 | \n",
+ " 31 | \n",
+ " 18 | \n",
+ " 13 | \n",
+ "
\n",
+ " \n",
+ " xwinlm-70b-v0.1 | \n",
+ " 1775 | \n",
+ " 21.812957 | \n",
+ " 25.825081 | \n",
+ " 4.012124 | \n",
+ " 17 | \n",
+ " 28 | \n",
+ " -11 | \n",
+ "
\n",
+ " \n",
+ " gemini-pro | \n",
+ " 1456 | \n",
+ " 18.177645 | \n",
+ " 24.449134 | \n",
+ " 6.271490 | \n",
+ " 23 | \n",
+ " 31 | \n",
+ " -8 | \n",
+ "
\n",
+ " \n",
+ " Mixtral-8x7B-Instruct-v0.1 | \n",
+ " 1465 | \n",
+ " 18.255318 | \n",
+ " 26.083414 | \n",
+ " 7.828096 | \n",
+ " 22 | \n",
+ " 27 | \n",
+ " -5 | \n",
+ "
\n",
+ " \n",
+ " evo-v2-7b | \n",
+ " 1754 | \n",
+ " 20.834113 | \n",
+ " 22.778849 | \n",
+ " 1.944736 | \n",
+ " 20 | \n",
+ " 34 | \n",
+ " -14 | \n",
+ "
\n",
+ " \n",
+ " Mixtral-8x7B-Instruct-v0.1_verbose | \n",
+ " 2083 | \n",
+ " 24.614063 | \n",
+ " 24.503900 | \n",
+ " -0.110163 | \n",
+ " 10 | \n",
+ " 30 | \n",
+ " -20 | \n",
+ "
\n",
+ " \n",
+ " Mixtral-8x7B-Instruct-v0.1_concise | \n",
+ " 910 | \n",
+ " 13.744040 | \n",
+ " 28.436687 | \n",
+ " 14.692646 | \n",
+ " 41 | \n",
+ " 24 | \n",
+ " 17 | \n",
+ "
\n",
+ " \n",
+ " gpt-3.5-turbo-16k-0613 | \n",
+ " 1328 | \n",
+ " 14.132391 | \n",
+ " 22.695292 | \n",
+ " 8.562902 | \n",
+ " 36 | \n",
+ " 36 | \n",
+ " 0 | \n",
+ "
\n",
+ " \n",
+ " gpt-3.5-turbo-0613 | \n",
+ " 1331 | \n",
+ " 14.095799 | \n",
+ " 20.421657 | \n",
+ " 6.325858 | \n",
+ " 37 | \n",
+ " 42 | \n",
+ " -5 | \n",
+ "
\n",
+ " \n",
+ " gpt-3.5-turbo-1106_verbose | \n",
+ " 1058 | \n",
+ " 12.763170 | \n",
+ " 28.251113 | \n",
+ " 15.487943 | \n",
+ " 45 | \n",
+ " 25 | \n",
+ " 20 | \n",
+ "
\n",
+ " \n",
+ " gpt4_0613_concise | \n",
+ " 627 | \n",
+ " 9.400321 | \n",
+ " 28.602992 | \n",
+ " 19.202671 | \n",
+ " 63 | \n",
+ " 22 | \n",
+ " 41 | \n",
+ "
\n",
+ " \n",
+ " pairrm-tulu-2-70b | \n",
+ " 1607 | \n",
+ " 18.638963 | \n",
+ " 23.943414 | \n",
+ " 5.304451 | \n",
+ " 21 | \n",
+ " 32 | \n",
+ " -11 | \n",
+ "
\n",
+ " \n",
+ " tulu-2-dpo-70b | \n",
+ " 1418 | \n",
+ " 15.982854 | \n",
+ " 24.924799 | \n",
+ " 8.941945 | \n",
+ " 29 | \n",
+ " 29 | \n",
+ " 0 | \n",
+ "
\n",
+ " \n",
+ " Mistral-7B-ReMax-v0.1 | \n",
+ " 1478 | \n",
+ " 15.999331 | \n",
+ " 23.779278 | \n",
+ " 7.779946 | \n",
+ " 28 | \n",
+ " 33 | \n",
+ " -5 | \n",
+ "
\n",
+ " \n",
+ " gpt-3.5-turbo-1106 | \n",
+ " 796 | \n",
+ " 9.177965 | \n",
+ " 21.197910 | \n",
+ " 12.019945 | \n",
+ " 66 | \n",
+ " 39 | \n",
+ " 27 | \n",
+ "
\n",
+ " \n",
+ " LMCocktail-10.7B-v1 | \n",
+ " 1203 | \n",
+ " 13.153431 | \n",
+ " 22.716773 | \n",
+ " 9.563342 | \n",
+ " 42 | \n",
+ " 35 | \n",
+ " 7 | \n",
+ "
\n",
+ " \n",
+ " internlm2-chat-20b-ppo | \n",
+ " 2373 | \n",
+ " 21.749155 | \n",
+ " 20.927878 | \n",
+ " -0.821277 | \n",
+ " 18 | \n",
+ " 41 | \n",
+ " -23 | \n",
+ "
\n",
+ " \n",
+ " claude-2.1_concise | \n",
+ " 573 | \n",
+ " 9.227125 | \n",
+ " 19.030658 | \n",
+ " 9.803532 | \n",
+ " 65 | \n",
+ " 47 | \n",
+ " 18 | \n",
+ "
\n",
+ " \n",
+ " gpt-3.5-turbo-0301 | \n",
+ " 827 | \n",
+ " 9.622453 | \n",
+ " 21.634439 | \n",
+ " 12.011986 | \n",
+ " 60 | \n",
+ " 38 | \n",
+ " 22 | \n",
+ "
\n",
+ " \n",
+ " xwinlm-13b-v0.1 | \n",
+ " 1894 | \n",
+ " 17.427935 | \n",
+ " 18.845262 | \n",
+ " 1.417327 | \n",
+ " 24 | \n",
+ " 48 | \n",
+ " -24 | \n",
+ "
\n",
+ " \n",
+ " deepseek-llm-67b-chat | \n",
+ " 1151 | \n",
+ " 12.093422 | \n",
+ " 21.888822 | \n",
+ " 9.795400 | \n",
+ " 48 | \n",
+ " 37 | \n",
+ " 11 | \n",
+ "
\n",
+ " \n",
+ " gpt35_turbo_instruct | \n",
+ " 1018 | \n",
+ " 8.462447 | \n",
+ " 14.933606 | \n",
+ " 6.471160 | \n",
+ " 70 | \n",
+ " 69 | \n",
+ " 1 | \n",
+ "
\n",
+ " \n",
+ " wizardlm-70b | \n",
+ " 1545 | \n",
+ " 14.383896 | \n",
+ " 18.441779 | \n",
+ " 4.057883 | \n",
+ " 34 | \n",
+ " 49 | \n",
+ " -15 | \n",
+ "
\n",
+ " \n",
+ " vicuna-33b-v1.3 | \n",
+ " 1479 | \n",
+ " 12.705948 | \n",
+ " 18.269349 | \n",
+ " 5.563401 | \n",
+ " 46 | \n",
+ " 50 | \n",
+ " -4 | \n",
+ "
\n",
+ " \n",
+ " pairrm-tulu-2-13b | \n",
+ " 1454 | \n",
+ " 13.831901 | \n",
+ " 20.187366 | \n",
+ " 6.355465 | \n",
+ " 40 | \n",
+ " 43 | \n",
+ " -3 | \n",
+ "
\n",
+ " \n",
+ " Mistral-7B-Instruct-v0.2 | \n",
+ " 1676 | \n",
+ " 14.722773 | \n",
+ " 17.503610 | \n",
+ " 2.780837 | \n",
+ " 33 | \n",
+ " 53 | \n",
+ " -20 | \n",
+ "
\n",
+ " \n",
+ " evo-7b | \n",
+ " 1774 | \n",
+ " 15.577437 | \n",
+ " 17.702745 | \n",
+ " 2.125307 | \n",
+ " 32 | \n",
+ " 52 | \n",
+ " -20 | \n",
+ "
\n",
+ " \n",
+ " humpback-llama2-70b | \n",
+ " 1107 | \n",
+ " 10.121772 | \n",
+ " 19.416493 | \n",
+ " 9.294722 | \n",
+ " 58 | \n",
+ " 46 | \n",
+ " 12 | \n",
+ "
\n",
+ " \n",
+ " OpenHermes-2.5-Mistral-7B | \n",
+ " 1107 | \n",
+ " 10.340416 | \n",
+ " 16.352879 | \n",
+ " 6.012464 | \n",
+ " 57 | \n",
+ " 59 | \n",
+ " -2 | \n",
+ "
\n",
+ " \n",
+ " deita-7b-v1.0 | \n",
+ " 1417 | \n",
+ " 12.646639 | \n",
+ " 19.855339 | \n",
+ " 7.208699 | \n",
+ " 47 | \n",
+ " 44 | \n",
+ " 3 | \n",
+ "
\n",
+ " \n",
+ " jina-chat | \n",
+ " 676 | \n",
+ " 7.786130 | \n",
+ " 21.063020 | \n",
+ " 13.276889 | \n",
+ " 76 | \n",
+ " 40 | \n",
+ " 36 | \n",
+ "
\n",
+ " \n",
+ " gpt-3.5-turbo-1106_concise | \n",
+ " 431 | \n",
+ " 7.415865 | \n",
+ " 29.490736 | \n",
+ " 22.074871 | \n",
+ " 84 | \n",
+ " 20 | \n",
+ " 64 | \n",
+ "
\n",
+ " \n",
+ " causallm-14b | \n",
+ " 1391 | \n",
+ " 11.146161 | \n",
+ " 15.225911 | \n",
+ " 4.079750 | \n",
+ " 53 | \n",
+ " 68 | \n",
+ " -15 | \n",
+ "
\n",
+ " \n",
+ " pairrm-zephyr-7b-beta | \n",
+ " 1487 | \n",
+ " 12.841278 | \n",
+ " 18.046105 | \n",
+ " 5.204827 | \n",
+ " 44 | \n",
+ " 51 | \n",
+ " -7 | \n",
+ "
\n",
+ " \n",
+ " Starling-LM-7B-alpha | \n",
+ " 1895 | \n",
+ " 14.245924 | \n",
+ " 15.838749 | \n",
+ " 1.592826 | \n",
+ " 35 | \n",
+ " 61 | \n",
+ " -26 | \n",
+ "
\n",
+ " \n",
+ " llama-2-70b-chat-hf | \n",
+ " 1790 | \n",
+ " 13.888258 | \n",
+ " 16.317284 | \n",
+ " 2.429026 | \n",
+ " 38 | \n",
+ " 60 | \n",
+ " -22 | \n",
+ "
\n",
+ " \n",
+ " openchat-v3.1-13b | \n",
+ " 1484 | \n",
+ " 11.082230 | \n",
+ " 16.885199 | \n",
+ " 5.802969 | \n",
+ " 54 | \n",
+ " 54 | \n",
+ " 0 | \n",
+ "
\n",
+ " \n",
+ " wizardlm-13b-v1.2 | \n",
+ " 1635 | \n",
+ " 12.027480 | \n",
+ " 15.578715 | \n",
+ " 3.551234 | \n",
+ " 49 | \n",
+ " 64 | \n",
+ " -15 | \n",
+ "
\n",
+ " \n",
+ " ultralm-13b-v2.0-best-of-16 | \n",
+ " 1720 | \n",
+ " 13.853373 | \n",
+ " 16.749030 | \n",
+ " 2.895657 | \n",
+ " 39 | \n",
+ " 55 | \n",
+ " -16 | \n",
+ "
\n",
+ " \n",
+ " wizardlm-13b-v1.1 | \n",
+ " 1525 | \n",
+ " 11.233910 | \n",
+ " 15.777430 | \n",
+ " 4.543520 | \n",
+ " 52 | \n",
+ " 62 | \n",
+ " -10 | \n",
+ "
\n",
+ " \n",
+ " zephyr-7b-beta | \n",
+ " 1444 | \n",
+ " 10.992886 | \n",
+ " 14.824691 | \n",
+ " 3.831805 | \n",
+ " 55 | \n",
+ " 70 | \n",
+ " -15 | \n",
+ "
\n",
+ " \n",
+ " dolphin-2.2.1-mistral-7b | \n",
+ " 1130 | \n",
+ " 9.039800 | \n",
+ " 13.974427 | \n",
+ " 4.934628 | \n",
+ " 68 | \n",
+ " 75 | \n",
+ " -7 | \n",
+ "
\n",
+ " \n",
+ " humpback-llama-65b | \n",
+ " 1232 | \n",
+ " 9.425139 | \n",
+ " 15.277149 | \n",
+ " 5.852010 | \n",
+ " 62 | \n",
+ " 67 | \n",
+ " -5 | \n",
+ "
\n",
+ " \n",
+ " openbuddy-llama2-70b-v10.1 | \n",
+ " 1077 | \n",
+ " 8.096422 | \n",
+ " 13.879050 | \n",
+ " 5.782628 | \n",
+ " 74 | \n",
+ " 76 | \n",
+ " -2 | \n",
+ "
\n",
+ " \n",
+ " openbuddy-llama-65b-v8 | \n",
+ " 1162 | \n",
+ " 8.770650 | \n",
+ " 16.487347 | \n",
+ " 7.716697 | \n",
+ " 69 | \n",
+ " 57 | \n",
+ " 12 | \n",
+ "
\n",
+ " \n",
+ " Qwen-14B-Chat | \n",
+ " 1013 | \n",
+ " 7.502333 | \n",
+ " 19.464203 | \n",
+ " 11.961870 | \n",
+ " 81 | \n",
+ " 45 | \n",
+ " 36 | \n",
+ "
\n",
+ " \n",
+ " gpt4_gamed | \n",
+ " 68 | \n",
+ " 3.738337 | \n",
+ " 44.532377 | \n",
+ " 40.794040 | \n",
+ " 112 | \n",
+ " 2 | \n",
+ " 110 | \n",
+ "
\n",
+ " \n",
+ " cut-13b | \n",
+ " 1637 | \n",
+ " 10.779089 | \n",
+ " 14.074431 | \n",
+ " 3.295342 | \n",
+ " 56 | \n",
+ " 74 | \n",
+ " -18 | \n",
+ "
\n",
+ " \n",
+ " openchat-v2-w-13b | \n",
+ " 1566 | \n",
+ " 9.615344 | \n",
+ " 14.106426 | \n",
+ " 4.491082 | \n",
+ " 61 | \n",
+ " 73 | \n",
+ " -12 | \n",
+ "
\n",
+ " \n",
+ " tulu-2-dpo-13b | \n",
+ " 1614 | \n",
+ " 10.119788 | \n",
+ " 15.521773 | \n",
+ " 5.401985 | \n",
+ " 59 | \n",
+ " 65 | \n",
+ " -6 | \n",
+ "
\n",
+ " \n",
+ " claude2-alpaca-13b | \n",
+ " 1127 | \n",
+ " 7.437351 | \n",
+ " 16.733107 | \n",
+ " 9.295755 | \n",
+ " 83 | \n",
+ " 56 | \n",
+ " 27 | \n",
+ "
\n",
+ " \n",
+ " minotaur-13b | \n",
+ " 881 | \n",
+ " 5.738964 | \n",
+ " 16.471708 | \n",
+ " 10.732744 | \n",
+ " 100 | \n",
+ " 58 | \n",
+ " 42 | \n",
+ "
\n",
+ " \n",
+ " airoboros-65b | \n",
+ " 1512 | \n",
+ " 9.388950 | \n",
+ " 13.035846 | \n",
+ " 3.646896 | \n",
+ " 64 | \n",
+ " 83 | \n",
+ " -19 | \n",
+ "
\n",
+ " \n",
+ " cohere | \n",
+ " 1983 | \n",
+ " 12.901455 | \n",
+ " 13.147459 | \n",
+ " 0.246004 | \n",
+ " 43 | \n",
+ " 81 | \n",
+ " -38 | \n",
+ "
\n",
+ " \n",
+ " vicuna-13b-v1.3 | \n",
+ " 1132 | \n",
+ " 7.137240 | \n",
+ " 14.467847 | \n",
+ " 7.330607 | \n",
+ " 87 | \n",
+ " 72 | \n",
+ " 15 | \n",
+ "
\n",
+ " \n",
+ " xwinlm-7b-v0.1 | \n",
+ " 1894 | \n",
+ " 11.245652 | \n",
+ " 12.644308 | \n",
+ " 1.398656 | \n",
+ " 51 | \n",
+ " 86 | \n",
+ " -35 | \n",
+ "
\n",
+ " \n",
+ " airoboros-33b | \n",
+ " 1514 | \n",
+ " 9.053160 | \n",
+ " 12.840199 | \n",
+ " 3.787039 | \n",
+ " 67 | \n",
+ " 84 | \n",
+ " -17 | \n",
+ "
\n",
+ " \n",
+ " platolm-7b | \n",
+ " 1344 | \n",
+ " 6.320828 | \n",
+ " 11.443269 | \n",
+ " 5.122441 | \n",
+ " 93 | \n",
+ " 95 | \n",
+ " -2 | \n",
+ "
\n",
+ " \n",
+ " vicuna-13b-v1.5 | \n",
+ " 1061 | \n",
+ " 6.722122 | \n",
+ " 9.559231 | \n",
+ " 2.837109 | \n",
+ " 90 | \n",
+ " 106 | \n",
+ " -16 | \n",
+ "
\n",
+ " \n",
+ " gemma-7b-it | \n",
+ " 1115 | \n",
+ " 6.937294 | \n",
+ " 13.780013 | \n",
+ " 6.842719 | \n",
+ " 88 | \n",
+ " 78 | \n",
+ " 10 | \n",
+ "
\n",
+ " \n",
+ " openchat-v2-13b | \n",
+ " 1564 | \n",
+ " 8.435076 | \n",
+ " 10.921402 | \n",
+ " 2.486326 | \n",
+ " 71 | \n",
+ " 96 | \n",
+ " -25 | \n",
+ "
\n",
+ " \n",
+ " zephyr-7b-alpha | \n",
+ " 1302 | \n",
+ " 8.352664 | \n",
+ " 12.315627 | \n",
+ " 3.962963 | \n",
+ " 72 | \n",
+ " 88 | \n",
+ " -16 | \n",
+ "
\n",
+ " \n",
+ " openbuddy-llama-30b-v7.1 | \n",
+ " 968 | \n",
+ " 6.130015 | \n",
+ " 13.506367 | \n",
+ " 7.376352 | \n",
+ " 96 | \n",
+ " 79 | \n",
+ " 17 | \n",
+ "
\n",
+ " \n",
+ " ultralm-13b-best-of-16 | \n",
+ " 1980 | \n",
+ " 11.307315 | \n",
+ " 12.037139 | \n",
+ " 0.729824 | \n",
+ " 50 | \n",
+ " 90 | \n",
+ " -40 | \n",
+ "
\n",
+ " \n",
+ " oasst-sft-llama-33b | \n",
+ " 748 | \n",
+ " 4.770391 | \n",
+ " 12.742207 | \n",
+ " 7.971816 | \n",
+ " 106 | \n",
+ " 85 | \n",
+ " 21 | \n",
+ "
\n",
+ " \n",
+ " wizardlm-13b | \n",
+ " 985 | \n",
+ " 5.878153 | \n",
+ " 13.845511 | \n",
+ " 7.967358 | \n",
+ " 98 | \n",
+ " 77 | \n",
+ " 21 | \n",
+ "
\n",
+ " \n",
+ " nous-hermes-13b | \n",
+ " 844 | \n",
+ " 5.411879 | \n",
+ " 14.553850 | \n",
+ " 9.141971 | \n",
+ " 101 | \n",
+ " 71 | \n",
+ " 30 | \n",
+ "
\n",
+ " \n",
+ " vicuna-13b | \n",
+ " 1037 | \n",
+ " 5.831103 | \n",
+ " 12.121340 | \n",
+ " 6.290237 | \n",
+ " 99 | \n",
+ " 89 | \n",
+ " 10 | \n",
+ "
\n",
+ " \n",
+ " tulu-2-dpo-7b | \n",
+ " 1663 | \n",
+ " 8.197515 | \n",
+ " 13.475569 | \n",
+ " 5.278053 | \n",
+ " 73 | \n",
+ " 80 | \n",
+ " -7 | \n",
+ "
\n",
+ " \n",
+ " openbuddy-llama2-13b-v11.1 | \n",
+ " 1057 | \n",
+ " 6.174716 | \n",
+ " 15.665046 | \n",
+ " 9.490330 | \n",
+ " 95 | \n",
+ " 63 | \n",
+ " 32 | \n",
+ "
\n",
+ " \n",
+ " ultralm-13b-v2.0 | \n",
+ " 1399 | \n",
+ " 7.504623 | \n",
+ " 12.353613 | \n",
+ " 4.848990 | \n",
+ " 80 | \n",
+ " 87 | \n",
+ " -7 | \n",
+ "
\n",
+ " \n",
+ " text_davinci_001 | \n",
+ " 296 | \n",
+ " 2.764005 | \n",
+ " 8.565768 | \n",
+ " 5.801762 | \n",
+ " 122 | \n",
+ " 111 | \n",
+ " 11 | \n",
+ "
\n",
+ " \n",
+ " openbuddy-falcon-40b-v9 | \n",
+ " 1089 | \n",
+ " 5.955743 | \n",
+ " 13.140887 | \n",
+ " 7.185144 | \n",
+ " 97 | \n",
+ " 82 | \n",
+ " 15 | \n",
+ "
\n",
+ " \n",
+ " openchat-13b | \n",
+ " 1632 | \n",
+ " 8.022386 | \n",
+ " 10.899403 | \n",
+ " 2.877017 | \n",
+ " 75 | \n",
+ " 97 | \n",
+ " -22 | \n",
+ "
\n",
+ " \n",
+ " llama-2-13b-chat-hf | \n",
+ " 1513 | \n",
+ " 7.702310 | \n",
+ " 11.844717 | \n",
+ " 4.142407 | \n",
+ " 78 | \n",
+ " 91 | \n",
+ " -13 | \n",
+ "
\n",
+ " \n",
+ " guanaco-65b | \n",
+ " 1249 | \n",
+ " 6.858495 | \n",
+ " 11.653236 | \n",
+ " 4.794742 | \n",
+ " 89 | \n",
+ " 92 | \n",
+ " -3 | \n",
+ "
\n",
+ " \n",
+ " opencoderplus-15b | \n",
+ " 1628 | \n",
+ " 7.406222 | \n",
+ " 9.927700 | \n",
+ " 2.521477 | \n",
+ " 85 | \n",
+ " 103 | \n",
+ " -18 | \n",
+ "
\n",
+ " \n",
+ " oasst-rlhf-llama-33b | \n",
+ " 1079 | \n",
+ " 6.296435 | \n",
+ " 10.199504 | \n",
+ " 3.903069 | \n",
+ " 94 | \n",
+ " 100 | \n",
+ " -6 | \n",
+ "
\n",
+ " \n",
+ " openchat8192-13b | \n",
+ " 1664 | \n",
+ " 7.472767 | \n",
+ " 9.674293 | \n",
+ " 2.201526 | \n",
+ " 82 | \n",
+ " 105 | \n",
+ " -23 | \n",
+ "
\n",
+ " \n",
+ " phi-2-dpo | \n",
+ " 1687 | \n",
+ " 7.757096 | \n",
+ " 10.102981 | \n",
+ " 2.345885 | \n",
+ " 77 | \n",
+ " 101 | \n",
+ " -24 | \n",
+ "
\n",
+ " \n",
+ " minichat-1.5-3b | \n",
+ " 1545 | \n",
+ " 6.553443 | \n",
+ " 8.493973 | \n",
+ " 1.940530 | \n",
+ " 92 | \n",
+ " 112 | \n",
+ " -20 | \n",
+ "
\n",
+ " \n",
+ " vicuna-7b-v1.5 | \n",
+ " 1083 | \n",
+ " 4.797494 | \n",
+ " 9.831513 | \n",
+ " 5.034019 | \n",
+ " 105 | \n",
+ " 104 | \n",
+ " 1 | \n",
+ "
\n",
+ " \n",
+ " llama-2-chat-7b-evol70k-neft | \n",
+ " 1612 | \n",
+ " 7.602384 | \n",
+ " 10.530830 | \n",
+ " 2.928447 | \n",
+ " 79 | \n",
+ " 98 | \n",
+ " -19 | \n",
+ "
\n",
+ " \n",
+ " recycled-wizardlm-7b-v2.0 | \n",
+ " 1583 | \n",
+ " 7.337129 | \n",
+ " 10.438112 | \n",
+ " 3.100983 | \n",
+ " 86 | \n",
+ " 99 | \n",
+ " -13 | \n",
+ "
\n",
+ " \n",
+ " vicuna-7b-v1.3 | \n",
+ " 1110 | \n",
+ " 4.642512 | \n",
+ " 11.599864 | \n",
+ " 6.957352 | \n",
+ " 107 | \n",
+ " 93 | \n",
+ " 14 | \n",
+ "
\n",
+ " \n",
+ " alpaca-farm-ppo-sim-gpt4-20k | \n",
+ " 511 | \n",
+ " 3.450342 | \n",
+ " 7.809135 | \n",
+ " 4.358793 | \n",
+ " 115 | \n",
+ " 115 | \n",
+ " 0 | \n",
+ "
\n",
+ " \n",
+ " ultralm-13b | \n",
+ " 1087 | \n",
+ " 5.074590 | \n",
+ " 11.539285 | \n",
+ " 6.464695 | \n",
+ " 102 | \n",
+ " 94 | \n",
+ " 8 | \n",
+ "
\n",
+ " \n",
+ " baize-v2-13b | \n",
+ " 930 | \n",
+ " 4.590545 | \n",
+ " 9.054781 | \n",
+ " 4.464236 | \n",
+ " 108 | \n",
+ " 109 | \n",
+ " -1 | \n",
+ "
\n",
+ " \n",
+ " recycled-wizardlm-7b-v1.0 | \n",
+ " 1494 | \n",
+ " 6.632750 | \n",
+ " 9.200354 | \n",
+ " 2.567604 | \n",
+ " 91 | \n",
+ " 108 | \n",
+ " -17 | \n",
+ "
\n",
+ " \n",
+ " alpaca-7b_verbose | \n",
+ " 537 | \n",
+ " 2.933102 | \n",
+ " 8.155702 | \n",
+ " 5.222601 | \n",
+ " 120 | \n",
+ " 114 | \n",
+ " 6 | \n",
+ "
\n",
+ " \n",
+ " alpaca-farm-ppo-human | \n",
+ " 803 | \n",
+ " 4.100427 | \n",
+ " 9.954076 | \n",
+ " 5.853649 | \n",
+ " 110 | \n",
+ " 102 | \n",
+ " 8 | \n",
+ "
\n",
+ " \n",
+ " vicuna-7b | \n",
+ " 1044 | \n",
+ " 4.162611 | \n",
+ " 8.263311 | \n",
+ " 4.100700 | \n",
+ " 109 | \n",
+ " 113 | \n",
+ " -4 | \n",
+ "
\n",
+ " \n",
+ " alpaca-7b | \n",
+ " 396 | \n",
+ " 2.591451 | \n",
+ " 15.393406 | \n",
+ " 12.801955 | \n",
+ " 124 | \n",
+ " 66 | \n",
+ " 58 | \n",
+ "
\n",
+ " \n",
+ " phi-2-sft | \n",
+ " 1068 | \n",
+ " 3.977568 | \n",
+ " 7.608799 | \n",
+ " 3.631231 | \n",
+ " 111 | \n",
+ " 116 | \n",
+ " -5 | \n",
+ "
\n",
+ " \n",
+ " minichat-3b | \n",
+ " 868 | \n",
+ " 3.007151 | \n",
+ " 9.394740 | \n",
+ " 6.387589 | \n",
+ " 119 | \n",
+ " 107 | \n",
+ " 12 | \n",
+ "
\n",
+ " \n",
+ " guanaco-33b | \n",
+ " 1311 | \n",
+ " 5.002494 | \n",
+ " 7.568960 | \n",
+ " 2.566467 | \n",
+ " 103 | \n",
+ " 117 | \n",
+ " -14 | \n",
+ "
\n",
+ " \n",
+ " falcon-40b-instruct | \n",
+ " 662 | \n",
+ " 3.342919 | \n",
+ " 8.765865 | \n",
+ " 5.422946 | \n",
+ " 118 | \n",
+ " 110 | \n",
+ " 8 | \n",
+ "
\n",
+ " \n",
+ " gemma-2b-it | \n",
+ " 1041 | \n",
+ " 3.401971 | \n",
+ " 6.002278 | \n",
+ " 2.600306 | \n",
+ " 117 | \n",
+ " 122 | \n",
+ " -5 | \n",
+ "
\n",
+ " \n",
+ " llama-2-7b-chat-hf | \n",
+ " 1479 | \n",
+ " 4.961340 | \n",
+ " 6.711881 | \n",
+ " 1.750541 | \n",
+ " 104 | \n",
+ " 120 | \n",
+ " -16 | \n",
+ "
\n",
+ " \n",
+ " openbuddy-falcon-7b-v6 | \n",
+ " 1152 | \n",
+ " 3.521174 | \n",
+ " 6.978847 | \n",
+ " 3.457673 | \n",
+ " 113 | \n",
+ " 118 | \n",
+ " -5 | \n",
+ "
\n",
+ " \n",
+ " alpaca-7b_concise | \n",
+ " 351 | \n",
+ " 1.991176 | \n",
+ " 6.673438 | \n",
+ " 4.682261 | \n",
+ " 129 | \n",
+ " 121 | \n",
+ " 8 | \n",
+ "
\n",
+ " \n",
+ " phi-2 | \n",
+ " 626 | \n",
+ " 2.350210 | \n",
+ " 3.105325 | \n",
+ " 0.755115 | \n",
+ " 126 | \n",
+ " 128 | \n",
+ " -2 | \n",
+ "
\n",
+ " \n",
+ " baize-v2-7b | \n",
+ " 1127 | \n",
+ " 3.404815 | \n",
+ " 5.322234 | \n",
+ " 1.917420 | \n",
+ " 116 | \n",
+ " 123 | \n",
+ " -7 | \n",
+ "
\n",
+ " \n",
+ " chatglm2-6b | \n",
+ " 1027 | \n",
+ " 2.762185 | \n",
+ " 4.570916 | \n",
+ " 1.808732 | \n",
+ " 123 | \n",
+ " 125 | \n",
+ " -2 | \n",
+ "
\n",
+ " \n",
+ " pythia-12b-mix-sft | \n",
+ " 913 | \n",
+ " 2.578090 | \n",
+ " 3.344637 | \n",
+ " 0.766547 | \n",
+ " 125 | \n",
+ " 127 | \n",
+ " -2 | \n",
+ "
\n",
+ " \n",
+ " falcon-7b-instruct | \n",
+ " 478 | \n",
+ " 2.146618 | \n",
+ " 6.787961 | \n",
+ " 4.641344 | \n",
+ " 127 | \n",
+ " 119 | \n",
+ " 8 | \n",
+ "
\n",
+ " \n",
+ " oasst-sft-pythia-12b | \n",
+ " 726 | \n",
+ " 1.790114 | \n",
+ " 2.274166 | \n",
+ " 0.484052 | \n",
+ " 130 | \n",
+ " 130 | \n",
+ " 0 | \n",
+ "
\n",
+ " \n",
+ " guanaco-13b | \n",
+ " 1774 | \n",
+ " 3.469597 | \n",
+ " 4.103434 | \n",
+ " 0.633838 | \n",
+ " 114 | \n",
+ " 126 | \n",
+ " -12 | \n",
+ "
\n",
+ " \n",
+ " guanaco-7b | \n",
+ " 1364 | \n",
+ " 2.880002 | \n",
+ " 4.644985 | \n",
+ " 1.764983 | \n",
+ " 121 | \n",
+ " 124 | \n",
+ " -3 | \n",
+ "
\n",
+ " \n",
+ " baichuan-13b-chat | \n",
+ " 1727 | \n",
+ " 1.992146 | \n",
+ " 2.464749 | \n",
+ " 0.472603 | \n",
+ " 128 | \n",
+ " 129 | \n",
+ " -1 | \n",
"
\n",
" \n",
"
\n"
],
"text/plain": [
- ""
+ ""
]
},
"execution_count": 17,
@@ -2352,18 +2380,18 @@
"# Report for **avg_sigmoid_length_corrected_win_rate**\n",
"\n",
"## Gameability (lower is better)\n",
- "Verbosity gameability (relative std metric): 12.9%\n",
- "Conciseness gameability (relative std metric): 16.2%\n",
+ "Verbosity gameability (relative std metric): 13.2%\n",
+ "Conciseness gameability (relative std metric): 16.6%\n",
"Adversarial winrate gain: 3.6\n",
"Adversarial rank gain: 1.0\n",
"\n",
"## Correlation with Arena (higher is better)\n",
- "Spearman Corr: 0.954\n",
- "Kendall Corr: 0.830\n",
+ "Spearman Corr: 0.964\n",
+ "Kendall Corr: 0.854\n",
"\n",
- "## Correlation with length (closer to spearman=0.28, kendall=0.19 is better)\n",
- "Spearman Corr: 0.260\n",
- "Kendall Corr: 0.165\n",
+ "## Correlation with length (closer to spearman=0.28, kendall=0.20 is better)\n",
+ "Spearman Corr: 0.268\n",
+ "Kendall Corr: 0.176\n",
"\n",
"## Top 10 models\n"
]
@@ -2442,1560 +2470,1580 @@
"data": {
"text/html": [
"\n",
- "\n",
+ "\n",
" \n",
" \n",
" | \n",
- " avg_length | \n",
- " win_rate | \n",
- " new_win_rate | \n",
- " delta_win_rate | \n",
- " rank_win_rate | \n",
- " rank_new_win_rate | \n",
- " delta_rank | \n",
+ " avg_length | \n",
+ " win_rate | \n",
+ " new_win_rate | \n",
+ " delta_win_rate | \n",
+ " rank_win_rate | \n",
+ " rank_new_win_rate | \n",
+ " delta_rank | \n",
"
\n",
" \n",
" \n",
" \n",
- " gpt4_1106_preview_verbose | \n",
- " 2402 | \n",
- " 64.303601 | \n",
- " 42.502532 | \n",
- " -21.801069 | \n",
- " 0 | \n",
- " 2 | \n",
- " -2 | \n",
- "
\n",
- " \n",
- " gpt4_1106_preview | \n",
- " 2049 | \n",
- " 50.000000 | \n",
- " 50.000000 | \n",
- " 0.000000 | \n",
- " 1 | \n",
- " 0 | \n",
- " 1 | \n",
- "
\n",
- " \n",
- " gpt4_1106_preview_concise | \n",
- " 1136 | \n",
- " 22.920194 | \n",
- " 39.481617 | \n",
- " 16.561423 | \n",
- " 13 | \n",
- " 4 | \n",
- " 9 | \n",
- "
\n",
- " \n",
- " claude-3-opus-20240229 | \n",
- " 1388 | \n",
- " 29.041764 | \n",
- " 45.857774 | \n",
- " 16.816010 | \n",
- " 6 | \n",
- " 1 | \n",
- " 5 | \n",
- "
\n",
- " \n",
- " gpt4 | \n",
- " 1365 | \n",
- " 23.576789 | \n",
- " 37.584082 | \n",
- " 14.007293 | \n",
- " 11 | \n",
- " 7 | \n",
- " 4 | \n",
- "
\n",
- " \n",
- " Qwen1.5-72B-Chat | \n",
- " 1549 | \n",
- " 26.498283 | \n",
- " 38.743595 | \n",
- " 12.245311 | \n",
- " 7 | \n",
- " 5 | \n",
- " 2 | \n",
- "
\n",
- " \n",
- " gpt4_0314 | \n",
- " 1371 | \n",
- " 22.073259 | \n",
- " 35.101286 | \n",
- " 13.028027 | \n",
- " 14 | \n",
- " 9 | \n",
- " 5 | \n",
- "
\n",
- " \n",
- " claude-3-sonnet-20240229 | \n",
- " 1420 | \n",
- " 25.556325 | \n",
- " 39.800482 | \n",
- " 14.244157 | \n",
- " 8 | \n",
- " 3 | \n",
- " 5 | \n",
- "
\n",
- " \n",
- " gpt4_0613_verbose | \n",
- " 1473 | \n",
- " 23.237360 | \n",
- " 35.315026 | \n",
- " 12.077666 | \n",
- " 12 | \n",
- " 8 | \n",
- " 4 | \n",
- "
\n",
- " \n",
- " claude-2.1_verbose | \n",
- " 1414 | \n",
- " 24.354071 | \n",
- " 38.028529 | \n",
- " 13.674458 | \n",
- " 10 | \n",
- " 6 | \n",
- " 4 | \n",
- "
\n",
- " \n",
- " gpt4_0613 | \n",
- " 1140 | \n",
- " 15.755038 | \n",
- " 27.108937 | \n",
- " 11.353899 | \n",
- " 28 | \n",
- " 19 | \n",
- " 9 | \n",
- "
\n",
- " \n",
- " Snorkel-Mistral-PairRM-DPO-best-of-16 | \n",
- " 2616 | \n",
- " 34.860133 | \n",
- " 16.971563 | \n",
- " -17.888570 | \n",
- " 2 | \n",
- " 48 | \n",
- " -46 | \n",
- "
\n",
- " \n",
- " pairrm-Yi-34B-Chat | \n",
- " 2195 | \n",
- " 31.241283 | \n",
- " 26.712191 | \n",
- " -4.529092 | \n",
- " 3 | \n",
- " 21 | \n",
- " -18 | \n",
- "
\n",
- " \n",
- " mistral-medium | \n",
- " 1500 | \n",
- " 21.855773 | \n",
- " 32.778640 | \n",
- " 10.922867 | \n",
- " 15 | \n",
- " 10 | \n",
- " 5 | \n",
- "
\n",
- " \n",
- " claude-2 | \n",
- " 1069 | \n",
- " 17.188240 | \n",
- " 30.132118 | \n",
- " 12.943878 | \n",
- " 23 | \n",
- " 11 | \n",
- " 12 | \n",
- "
\n",
- " \n",
- " claude | \n",
- " 1082 | \n",
- " 16.985344 | \n",
- " 29.679901 | \n",
- " 12.694557 | \n",
- " 24 | \n",
- " 12 | \n",
- " 12 | \n",
- "
\n",
- " \n",
- " Yi-34B-Chat | \n",
- " 2123 | \n",
- " 29.659947 | \n",
- " 27.469108 | \n",
- " -2.190839 | \n",
- " 5 | \n",
- " 17 | \n",
- " -12 | \n",
- "
\n",
- " \n",
- " Snorkel-Mistral-PairRM-DPO | \n",
- " 2736 | \n",
- " 30.220053 | \n",
- " 12.207351 | \n",
- " -18.012701 | \n",
- " 4 | \n",
- " 75 | \n",
- " -71 | \n",
- "
\n",
- " \n",
- " claude-instant-1.2 | \n",
- " 1112 | \n",
- " 16.127400 | \n",
- " 27.962345 | \n",
- " 11.834945 | \n",
- " 25 | \n",
- " 13 | \n",
- " 12 | \n",
- "
\n",
- " \n",
- " claude-2.1 | \n",
- " 1096 | \n",
- " 15.733507 | \n",
- " 27.394210 | \n",
- " 11.660703 | \n",
- " 29 | \n",
- " 18 | \n",
- " 11 | \n",
- "
\n",
- " \n",
- " xwinlm-70b-v0.1 | \n",
- " 1775 | \n",
- " 21.812957 | \n",
- " 27.644496 | \n",
- " 5.831539 | \n",
- " 16 | \n",
- " 16 | \n",
- " 0 | \n",
- "
\n",
- " \n",
- " gemini-pro | \n",
- " 1456 | \n",
- " 18.177645 | \n",
- " 27.849057 | \n",
- " 9.671412 | \n",
- " 21 | \n",
- " 15 | \n",
- " 6 | \n",
- "
\n",
- " \n",
- " Mixtral-8x7B-Instruct-v0.1 | \n",
- " 1465 | \n",
- " 18.255318 | \n",
- " 27.849703 | \n",
- " 9.594386 | \n",
- " 20 | \n",
- " 14 | \n",
- " 6 | \n",
- "
\n",
- " \n",
- " evo-v2-7b | \n",
- " 1754 | \n",
- " 20.834113 | \n",
- " 26.807884 | \n",
- " 5.973771 | \n",
- " 18 | \n",
- " 20 | \n",
- " -2 | \n",
- "
\n",
- " \n",
- " Mixtral-8x7B-Instruct-v0.1_verbose | \n",
- " 2083 | \n",
- " 24.614063 | \n",
- " 23.777507 | \n",
- " -0.836556 | \n",
- " 9 | \n",
- " 26 | \n",
- " -17 | \n",
- "
\n",
- " \n",
- " Mixtral-8x7B-Instruct-v0.1_concise | \n",
- " 910 | \n",
- " 13.744040 | \n",
- " 24.932748 | \n",
- " 11.188708 | \n",
- " 39 | \n",
- " 23 | \n",
- " 16 | \n",
- "
\n",
- " \n",
- " gpt-3.5-turbo-16k-0613 | \n",
- " 1328 | \n",
- " 14.132391 | \n",
- " 22.859543 | \n",
- " 8.727152 | \n",
- " 34 | \n",
- " 27 | \n",
- " 7 | \n",
- "
\n",
- " \n",
- " gpt-3.5-turbo-0613 | \n",
- " 1331 | \n",
- " 14.095799 | \n",
- " 22.774144 | \n",
- " 8.678345 | \n",
- " 35 | \n",
- " 28 | \n",
- " 7 | \n",
- "
\n",
- " \n",
- " gpt-3.5-turbo-1106_verbose | \n",
- " 1058 | \n",
- " 12.763170 | \n",
- " 22.434952 | \n",
- " 9.671782 | \n",
- " 43 | \n",
- " 29 | \n",
- " 14 | \n",
- "
\n",
- " \n",
- " gpt4_0613_concise | \n",
- " 627 | \n",
- " 9.400321 | \n",
- " 17.766751 | \n",
- " 8.366430 | \n",
- " 61 | \n",
- " 42 | \n",
- " 19 | \n",
- "
\n",
- " \n",
- " pairrm-tulu-2-70b | \n",
- " 1607 | \n",
- " 18.638963 | \n",
- " 26.379740 | \n",
- " 7.740777 | \n",
- " 19 | \n",
- " 22 | \n",
- " -3 | \n",
- "
\n",
- " \n",
- " tulu-2-dpo-70b | \n",
- " 1418 | \n",
- " 15.982854 | \n",
- " 24.913121 | \n",
- " 8.930267 | \n",
- " 27 | \n",
- " 24 | \n",
- " 3 | \n",
- "
\n",
- " \n",
- " Mistral-7B-ReMax-v0.1 | \n",
- " 1478 | \n",
- " 15.999331 | \n",
- " 24.256479 | \n",
- " 8.257148 | \n",
- " 26 | \n",
- " 25 | \n",
- " 1 | \n",
- "
\n",
- " \n",
- " gpt-3.5-turbo-1106 | \n",
- " 796 | \n",
- " 9.177965 | \n",
- " 16.971183 | \n",
- " 7.793218 | \n",
- " 64 | \n",
- " 49 | \n",
- " 15 | \n",
- "
\n",
- " \n",
- " LMCocktail-10.7B-v1 | \n",
- " 1203 | \n",
- " 13.153431 | \n",
- " 22.215803 | \n",
- " 9.062372 | \n",
- " 40 | \n",
- " 30 | \n",
- " 10 | \n",
- "
\n",
- " \n",
- " internlm2-chat-20b-ppo | \n",
- " 2373 | \n",
- " 21.749155 | \n",
- " 14.939076 | \n",
- " -6.810079 | \n",
- " 17 | \n",
- " 60 | \n",
- " -43 | \n",
- "
\n",
- " \n",
- " claude-2.1_concise | \n",
- " 573 | \n",
- " 9.227125 | \n",
- " 17.538143 | \n",
- " 8.311018 | \n",
- " 63 | \n",
- " 46 | \n",
- " 17 | \n",
- "
\n",
- " \n",
- " gpt-3.5-turbo-0301 | \n",
- " 827 | \n",
- " 9.622453 | \n",
- " 17.707654 | \n",
- " 8.085200 | \n",
- " 58 | \n",
- " 43 | \n",
- " 15 | \n",
- "
\n",
- " \n",
- " xwinlm-13b-v0.1 | \n",
- " 1894 | \n",
- " 17.427935 | \n",
- " 20.107837 | \n",
- " 2.679903 | \n",
- " 22 | \n",
- " 34 | \n",
- " -12 | \n",
- "
\n",
- " \n",
- " deepseek-llm-67b-chat | \n",
- " 1151 | \n",
- " 12.093422 | \n",
- " 20.744121 | \n",
- " 8.650699 | \n",
- " 46 | \n",
- " 33 | \n",
- " 13 | \n",
- "
\n",
- " \n",
- " gpt35_turbo_instruct | \n",
- " 1018 | \n",
- " 8.462447 | \n",
- " 15.014996 | \n",
- " 6.552549 | \n",
- " 68 | \n",
- " 57 | \n",
- " 11 | \n",
- "
\n",
- " \n",
- " wizardlm-70b | \n",
- " 1545 | \n",
- " 14.383896 | \n",
- " 21.076106 | \n",
- " 6.692210 | \n",
- " 32 | \n",
- " 32 | \n",
- " 0 | \n",
- "
\n",
- " \n",
- " vicuna-33b-v1.3 | \n",
- " 1479 | \n",
- " 12.705948 | \n",
- " 19.254076 | \n",
- " 6.548128 | \n",
- " 44 | \n",
- " 39 | \n",
- " 5 | \n",
- "
\n",
- " \n",
- " pairrm-tulu-2-13b | \n",
- " 1454 | \n",
- " 13.831901 | \n",
- " 21.210973 | \n",
- " 7.379072 | \n",
- " 38 | \n",
- " 31 | \n",
- " 7 | \n",
- "
\n",
- " \n",
- " Mistral-7B-Instruct-v0.2 | \n",
- " 1676 | \n",
- " 14.722773 | \n",
- " 19.973105 | \n",
- " 5.250332 | \n",
- " 31 | \n",
- " 35 | \n",
- " -4 | \n",
- "
\n",
- " \n",
- " evo-7b | \n",
- " 1774 | \n",
- " 15.577437 | \n",
- " 19.756415 | \n",
- " 4.178978 | \n",
- " 30 | \n",
- " 36 | \n",
- " -6 | \n",
- "
\n",
- " \n",
- " humpback-llama2-70b | \n",
- " 1107 | \n",
- " 10.121772 | \n",
- " 17.572810 | \n",
- " 7.451039 | \n",
- " 56 | \n",
- " 45 | \n",
- " 11 | \n",
- "
\n",
- " \n",
- " OpenHermes-2.5-Mistral-7B | \n",
- " 1107 | \n",
- " 10.340416 | \n",
- " 17.952407 | \n",
- " 7.611992 | \n",
- " 55 | \n",
- " 41 | \n",
- " 14 | \n",
- "
\n",
- " \n",
- " deita-7b-v1.0 | \n",
- " 1417 | \n",
- " 12.646639 | \n",
- " 19.721522 | \n",
- " 7.074882 | \n",
- " 45 | \n",
- " 37 | \n",
- " 8 | \n",
- "
\n",
- " \n",
- " jina-chat | \n",
- " 676 | \n",
- " 7.786130 | \n",
- " 14.633052 | \n",
- " 6.846921 | \n",
- " 74 | \n",
- " 61 | \n",
- " 13 | \n",
- "
\n",
- " \n",
- " gpt-3.5-turbo-1106_concise | \n",
- " 431 | \n",
- " 7.415865 | \n",
- " 14.270598 | \n",
- " 6.854733 | \n",
- " 82 | \n",
- " 62 | \n",
- " 20 | \n",
- "
\n",
- " \n",
- " causallm-14b | \n",
- " 1391 | \n",
- " 11.146161 | \n",
- " 17.577840 | \n",
- " 6.431679 | \n",
- " 51 | \n",
- " 44 | \n",
- " 7 | \n",
- "
\n",
- " \n",
- " pairrm-zephyr-7b-beta | \n",
- " 1487 | \n",
- " 12.841278 | \n",
- " 19.383394 | \n",
- " 6.542116 | \n",
- " 42 | \n",
- " 38 | \n",
- " 4 | \n",
- "
\n",
- " \n",
- " Starling-LM-7B-alpha | \n",
- " 1895 | \n",
- " 14.245924 | \n",
- " 16.422615 | \n",
- " 2.176692 | \n",
- " 33 | \n",
- " 54 | \n",
- " -21 | \n",
- "
\n",
- " \n",
- " llama-2-70b-chat-hf | \n",
- " 1790 | \n",
- " 13.888258 | \n",
- " 17.406987 | \n",
- " 3.518729 | \n",
- " 36 | \n",
- " 47 | \n",
- " -11 | \n",
- "
\n",
- " \n",
- " openchat-v3.1-13b | \n",
- " 1484 | \n",
- " 11.082230 | \n",
- " 16.752762 | \n",
- " 5.670531 | \n",
- " 52 | \n",
- " 51 | \n",
- " 1 | \n",
- "
\n",
- " \n",
- " wizardlm-13b-v1.2 | \n",
- " 1635 | \n",
- " 12.027480 | \n",
- " 16.740614 | \n",
- " 4.713134 | \n",
- " 47 | \n",
- " 52 | \n",
- " -5 | \n",
- "
\n",
- " \n",
- " ultralm-13b-v2.0-best-of-16 | \n",
- " 1720 | \n",
- " 13.853373 | \n",
- " 18.253509 | \n",
- " 4.400135 | \n",
- " 37 | \n",
- " 40 | \n",
- " -3 | \n",
- "
\n",
- " \n",
- " wizardlm-13b-v1.1 | \n",
- " 1525 | \n",
- " 11.233910 | \n",
- " 16.634963 | \n",
- " 5.401054 | \n",
- " 50 | \n",
- " 53 | \n",
- " -3 | \n",
- "
\n",
- " \n",
- " zephyr-7b-beta | \n",
- " 1444 | \n",
- " 10.992886 | \n",
- " 16.935617 | \n",
- " 5.942731 | \n",
- " 53 | \n",
- " 50 | \n",
- " 3 | \n",
- "
\n",
- " \n",
- " dolphin-2.2.1-mistral-7b | \n",
- " 1130 | \n",
- " 9.039800 | \n",
- " 15.597487 | \n",
- " 6.557688 | \n",
- " 66 | \n",
- " 56 | \n",
- " 10 | \n",
- "
\n",
- " \n",
- " humpback-llama-65b | \n",
- " 1232 | \n",
- " 9.425139 | \n",
- " 15.772346 | \n",
- " 6.347206 | \n",
- " 60 | \n",
- " 55 | \n",
- " 5 | \n",
- "
\n",
- " \n",
- " openbuddy-llama2-70b-v10.1 | \n",
- " 1077 | \n",
- " 8.096422 | \n",
- " 14.165353 | \n",
- " 6.068931 | \n",
- " 72 | \n",
- " 64 | \n",
- " 8 | \n",
- "
\n",
- " \n",
- " openbuddy-llama-65b-v8 | \n",
- " 1162 | \n",
- " 8.770650 | \n",
- " 14.997012 | \n",
- " 6.226362 | \n",
- " 67 | \n",
- " 58 | \n",
- " 9 | \n",
- "
\n",
- " \n",
- " Qwen-14B-Chat | \n",
- " 1013 | \n",
- " 7.502333 | \n",
- " 13.326422 | \n",
- " 5.824088 | \n",
- " 79 | \n",
- " 70 | \n",
- " 9 | \n",
- "
\n",
- " \n",
- " gpt4_gamed | \n",
- " 68 | \n",
- " 3.738337 | \n",
- " 7.337086 | \n",
- " 3.598749 | \n",
- " 110 | \n",
- " 109 | \n",
- " 1 | \n",
- "
\n",
- " \n",
- " cut-13b | \n",
- " 1637 | \n",
- " 10.779089 | \n",
- " 14.984761 | \n",
- " 4.205672 | \n",
- " 54 | \n",
- " 59 | \n",
- " -5 | \n",
- "
\n",
- " \n",
- " openchat-v2-w-13b | \n",
- " 1566 | \n",
- " 9.615344 | \n",
- " 13.929201 | \n",
- " 4.313857 | \n",
- " 59 | \n",
- " 66 | \n",
- " -7 | \n",
- "
\n",
- " \n",
- " tulu-2-dpo-13b | \n",
- " 1614 | \n",
- " 10.119788 | \n",
- " 14.263755 | \n",
- " 4.143966 | \n",
- " 57 | \n",
- " 63 | \n",
- " -6 | \n",
- "
\n",
- " \n",
- " claude2-alpaca-13b | \n",
- " 1127 | \n",
- " 7.437351 | \n",
- " 12.843132 | \n",
- " 5.405781 | \n",
- " 81 | \n",
- " 72 | \n",
- " 9 | \n",
- "
\n",
- " \n",
- " minotaur-13b | \n",
- " 881 | \n",
- " 5.738964 | \n",
- " 10.465746 | \n",
- " 4.726782 | \n",
- " 98 | \n",
- " 90 | \n",
- " 8 | \n",
- "
\n",
- " \n",
- " airoboros-65b | \n",
- " 1512 | \n",
- " 9.388950 | \n",
- " 13.996237 | \n",
- " 4.607287 | \n",
- " 62 | \n",
- " 65 | \n",
- " -3 | \n",
- "
\n",
- " \n",
- " cohere | \n",
- " 1983 | \n",
- " 12.901455 | \n",
- " 13.751717 | \n",
- " 0.850262 | \n",
- " 41 | \n",
- " 67 | \n",
- " -26 | \n",
- "
\n",
- " \n",
- " vicuna-13b-v1.3 | \n",
- " 1132 | \n",
- " 7.137240 | \n",
- " 12.307993 | \n",
- " 5.170753 | \n",
- " 85 | \n",
- " 73 | \n",
- " 12 | \n",
- "
\n",
- " \n",
- " xwinlm-7b-v0.1 | \n",
- " 1894 | \n",
- " 11.245652 | \n",
- " 12.974901 | \n",
- " 1.729250 | \n",
- " 49 | \n",
- " 71 | \n",
- " -22 | \n",
- "
\n",
- " \n",
- " airoboros-33b | \n",
- " 1514 | \n",
- " 9.053160 | \n",
- " 13.481911 | \n",
- " 4.428750 | \n",
- " 65 | \n",
- " 69 | \n",
- " -4 | \n",
- "
\n",
- " \n",
- " platolm-7b | \n",
- " 1344 | \n",
- " 6.320828 | \n",
- " 10.160933 | \n",
- " 3.840105 | \n",
- " 91 | \n",
- " 96 | \n",
- " -5 | \n",
- "
\n",
- " \n",
- " vicuna-13b-v1.5 | \n",
- " 1061 | \n",
- " 6.722122 | \n",
- " 11.807463 | \n",
- " 5.085341 | \n",
- " 88 | \n",
- " 78 | \n",
- " 10 | \n",
- "
\n",
- " \n",
- " gemma-7b-it | \n",
- " 1115 | \n",
- " 6.937294 | \n",
- " 12.018539 | \n",
- " 5.081245 | \n",
- " 86 | \n",
- " 77 | \n",
- " 9 | \n",
- "
\n",
- " \n",
- " openchat-v2-13b | \n",
- " 1564 | \n",
- " 8.435076 | \n",
- " 12.232876 | \n",
- " 3.797800 | \n",
- " 69 | \n",
- " 74 | \n",
- " -5 | \n",
- "
\n",
- " \n",
- " zephyr-7b-alpha | \n",
- " 1302 | \n",
- " 8.352664 | \n",
- " 13.642872 | \n",
- " 5.290208 | \n",
- " 70 | \n",
- " 68 | \n",
- " 2 | \n",
- "
\n",
- " \n",
- " openbuddy-llama-30b-v7.1 | \n",
- " 968 | \n",
- " 6.130015 | \n",
- " 10.994608 | \n",
- " 4.864593 | \n",
- " 94 | \n",
- " 85 | \n",
- " 9 | \n",
- "
\n",
- " \n",
- " ultralm-13b-best-of-16 | \n",
- " 1980 | \n",
- " 11.307315 | \n",
- " 12.086284 | \n",
- " 0.778969 | \n",
- " 48 | \n",
- " 76 | \n",
- " -28 | \n",
- "
\n",
- " \n",
- " oasst-sft-llama-33b | \n",
- " 748 | \n",
- " 4.770391 | \n",
- " 8.882374 | \n",
- " 4.111983 | \n",
- " 104 | \n",
- " 100 | \n",
- " 4 | \n",
- "
\n",
- " \n",
- " wizardlm-13b | \n",
- " 985 | \n",
- " 5.878153 | \n",
- " 10.505375 | \n",
- " 4.627223 | \n",
- " 96 | \n",
- " 89 | \n",
- " 7 | \n",
- "
\n",
- " \n",
- " nous-hermes-13b | \n",
- " 844 | \n",
- " 5.411879 | \n",
- " 9.931736 | \n",
- " 4.519857 | \n",
- " 99 | \n",
- " 98 | \n",
- " 1 | \n",
- "
\n",
- " \n",
- " vicuna-13b | \n",
- " 1037 | \n",
- " 5.831103 | \n",
- " 10.301157 | \n",
- " 4.470054 | \n",
- " 97 | \n",
- " 94 | \n",
- " 3 | \n",
- "
\n",
- " \n",
- " tulu-2-dpo-7b | \n",
- " 1663 | \n",
- " 8.197515 | \n",
- " 11.213437 | \n",
- " 3.015921 | \n",
- " 71 | \n",
- " 82 | \n",
- " -11 | \n",
- "
\n",
- " \n",
- " openbuddy-llama2-13b-v11.1 | \n",
- " 1057 | \n",
- " 6.174716 | \n",
- " 10.856472 | \n",
- " 4.681755 | \n",
- " 93 | \n",
- " 86 | \n",
- " 7 | \n",
- "
\n",
- " \n",
- " ultralm-13b-v2.0 | \n",
- " 1399 | \n",
- " 7.504623 | \n",
- " 11.794791 | \n",
- " 4.290168 | \n",
- " 78 | \n",
- " 79 | \n",
- " -1 | \n",
- "
\n",
- " \n",
- " text_davinci_001 | \n",
- " 296 | \n",
- " 2.764005 | \n",
- " 5.366913 | \n",
- " 2.602908 | \n",
- " 120 | \n",
- " 118 | \n",
- " 2 | \n",
- "
\n",
- " \n",
- " openbuddy-falcon-40b-v9 | \n",
- " 1089 | \n",
- " 5.955743 | \n",
- " 10.388464 | \n",
- " 4.432722 | \n",
- " 95 | \n",
- " 92 | \n",
- " 3 | \n",
- "
\n",
- " \n",
- " openchat-13b | \n",
- " 1632 | \n",
- " 8.022386 | \n",
- " 11.186416 | \n",
- " 3.164030 | \n",
- " 73 | \n",
- " 83 | \n",
- " -10 | \n",
- "
\n",
- " \n",
- " llama-2-13b-chat-hf | \n",
- " 1513 | \n",
- " 7.702310 | \n",
- " 11.476089 | \n",
- " 3.773779 | \n",
- " 76 | \n",
- " 80 | \n",
- " -4 | \n",
- "
\n",
- " \n",
- " guanaco-65b | \n",
- " 1249 | \n",
- " 6.858495 | \n",
- " 11.412787 | \n",
- " 4.554293 | \n",
- " 87 | \n",
- " 81 | \n",
- " 6 | \n",
- "
\n",
- " \n",
- " opencoderplus-15b | \n",
- " 1628 | \n",
- " 7.406222 | \n",
- " 10.352214 | \n",
- " 2.945992 | \n",
- " 83 | \n",
- " 93 | \n",
- " -10 | \n",
- "
\n",
- " \n",
- " oasst-rlhf-llama-33b | \n",
- " 1079 | \n",
- " 6.296435 | \n",
- " 11.010603 | \n",
- " 4.714168 | \n",
- " 92 | \n",
- " 84 | \n",
- " 8 | \n",
- "
\n",
- " \n",
- " openchat8192-13b | \n",
- " 1664 | \n",
- " 7.472767 | \n",
- " 10.215584 | \n",
- " 2.742818 | \n",
- " 80 | \n",
- " 95 | \n",
- " -15 | \n",
- "
\n",
- " \n",
- " phi-2-dpo | \n",
- " 1687 | \n",
- " 7.757096 | \n",
- " 10.448610 | \n",
- " 2.691514 | \n",
- " 75 | \n",
- " 91 | \n",
- " -16 | \n",
- "
\n",
- " \n",
- " minichat-1.5-3b | \n",
- " 1545 | \n",
- " 6.553443 | \n",
- " 9.602479 | \n",
- " 3.049036 | \n",
- " 90 | \n",
- " 99 | \n",
- " -9 | \n",
- "
\n",
- " \n",
- " vicuna-7b-v1.5 | \n",
- " 1083 | \n",
- " 4.797494 | \n",
- " 8.380940 | \n",
- " 3.583446 | \n",
- " 103 | \n",
- " 102 | \n",
- " 1 | \n",
- "
\n",
- " \n",
- " llama-2-chat-7b-evol70k-neft | \n",
- " 1612 | \n",
- " 7.602384 | \n",
- " 10.728139 | \n",
- " 3.125755 | \n",
- " 77 | \n",
- " 87 | \n",
- " -10 | \n",
- "
\n",
- " \n",
- " recycled-wizardlm-7b-v2.0 | \n",
- " 1583 | \n",
- " 7.337129 | \n",
- " 10.528500 | \n",
- " 3.191370 | \n",
- " 84 | \n",
- " 88 | \n",
- " -4 | \n",
- "
\n",
- " \n",
- " vicuna-7b-v1.3 | \n",
- " 1110 | \n",
- " 4.642512 | \n",
- " 8.053655 | \n",
- " 3.411143 | \n",
- " 105 | \n",
- " 105 | \n",
- " 0 | \n",
- "
\n",
- " \n",
- " alpaca-farm-ppo-sim-gpt4-20k | \n",
- " 511 | \n",
- " 3.450342 | \n",
- " 6.596308 | \n",
- " 3.145966 | \n",
- " 113 | \n",
- " 111 | \n",
- " 2 | \n",
- "
\n",
- " \n",
- " ultralm-13b | \n",
- " 1087 | \n",
- " 5.074590 | \n",
- " 8.856011 | \n",
- " 3.781421 | \n",
- " 100 | \n",
- " 101 | \n",
- " -1 | \n",
- "
\n",
- " \n",
- " baize-v2-13b | \n",
- " 930 | \n",
- " 4.590545 | \n",
- " 8.296129 | \n",
- " 3.705584 | \n",
- " 106 | \n",
- " 103 | \n",
- " 3 | \n",
- "
\n",
- " \n",
- " recycled-wizardlm-7b-v1.0 | \n",
- " 1494 | \n",
- " 6.632750 | \n",
- " 9.977369 | \n",
- " 3.344619 | \n",
- " 89 | \n",
- " 97 | \n",
- " -8 | \n",
- "
\n",
- " \n",
- " alpaca-7b_verbose | \n",
- " 537 | \n",
- " 2.933102 | \n",
- " 5.594285 | \n",
- " 2.661184 | \n",
- " 118 | \n",
- " 116 | \n",
- " 2 | \n",
- "
\n",
- " \n",
- " alpaca-farm-ppo-human | \n",
- " 803 | \n",
- " 4.100427 | \n",
- " 7.574137 | \n",
- " 3.473710 | \n",
- " 108 | \n",
- " 106 | \n",
- " 2 | \n",
- "
\n",
- " \n",
- " vicuna-7b | \n",
- " 1044 | \n",
- " 4.162611 | \n",
- " 7.341539 | \n",
- " 3.178928 | \n",
- " 107 | \n",
- " 108 | \n",
- " -1 | \n",
- "
\n",
- " \n",
- " alpaca-7b | \n",
- " 396 | \n",
- " 2.591451 | \n",
- " 4.999603 | \n",
- " 2.408152 | \n",
- " 122 | \n",
- " 119 | \n",
- " 3 | \n",
- "
\n",
- " \n",
- " phi-2-sft | \n",
- " 1068 | \n",
- " 3.977568 | \n",
- " 6.974659 | \n",
- " 2.997091 | \n",
- " 109 | \n",
- " 110 | \n",
- " -1 | \n",
- "
\n",
- " \n",
- " minichat-3b | \n",
- " 868 | \n",
- " 3.007151 | \n",
- " 5.496370 | \n",
- " 2.489219 | \n",
- " 117 | \n",
- " 117 | \n",
- " 0 | \n",
- "
\n",
- " \n",
- " guanaco-33b | \n",
- " 1311 | \n",
- " 5.002494 | \n",
- " 8.143736 | \n",
- " 3.141242 | \n",
- " 101 | \n",
- " 104 | \n",
- " -3 | \n",
- "
\n",
- " \n",
- " falcon-40b-instruct | \n",
- " 662 | \n",
- " 3.342919 | \n",
- " 6.293075 | \n",
- " 2.950156 | \n",
- " 116 | \n",
- " 112 | \n",
- " 4 | \n",
- "
\n",
- " \n",
- " gemma-2b-it | \n",
- " 1041 | \n",
- " 3.401971 | \n",
- " 6.004253 | \n",
- " 2.602282 | \n",
- " 115 | \n",
- " 114 | \n",
- " 1 | \n",
- "
\n",
- " \n",
- " llama-2-7b-chat-hf | \n",
- " 1479 | \n",
- " 4.961340 | \n",
- " 7.518212 | \n",
- " 2.556872 | \n",
- " 102 | \n",
- " 107 | \n",
- " -5 | \n",
- "
\n",
- " \n",
- " openbuddy-falcon-7b-v6 | \n",
- " 1152 | \n",
- " 3.521174 | \n",
- " 6.038229 | \n",
- " 2.517055 | \n",
- " 111 | \n",
- " 113 | \n",
- " -2 | \n",
- "
\n",
- " \n",
- " alpaca-7b_concise | \n",
- " 351 | \n",
- " 1.991176 | \n",
- " 3.853242 | \n",
- " 1.862066 | \n",
- " 127 | \n",
- " 126 | \n",
- " 1 | \n",
- "
\n",
- " \n",
- " phi-2 | \n",
- " 626 | \n",
- " 2.350210 | \n",
- " 4.442420 | \n",
- " 2.092211 | \n",
- " 124 | \n",
- " 123 | \n",
- " 1 | \n",
- "
\n",
- " \n",
- " baize-v2-7b | \n",
- " 1127 | \n",
- " 3.404815 | \n",
- " 5.879578 | \n",
- " 2.474763 | \n",
- " 114 | \n",
- " 115 | \n",
- " -1 | \n",
- "
\n",
- " \n",
- " chatglm2-6b | \n",
- " 1027 | \n",
- " 2.762185 | \n",
- " 4.890945 | \n",
- " 2.128760 | \n",
- " 121 | \n",
- " 120 | \n",
- " 1 | \n",
- "
\n",
- " \n",
- " pythia-12b-mix-sft | \n",
- " 913 | \n",
- " 2.578090 | \n",
- " 4.674240 | \n",
- " 2.096149 | \n",
- " 123 | \n",
- " 121 | \n",
- " 2 | \n",
- "
\n",
- " \n",
- " falcon-7b-instruct | \n",
- " 478 | \n",
- " 2.146618 | \n",
- " 4.115462 | \n",
- " 1.968845 | \n",
- " 125 | \n",
- " 125 | \n",
- " 0 | \n",
- "
\n",
- " \n",
- " oasst-sft-pythia-12b | \n",
- " 726 | \n",
- " 1.790114 | \n",
- " 3.343088 | \n",
- " 1.552974 | \n",
- " 128 | \n",
- " 127 | \n",
- " 1 | \n",
- "
\n",
- " \n",
- " guanaco-13b | \n",
- " 1774 | \n",
- " 3.469597 | \n",
- " 4.400390 | \n",
- " 0.930793 | \n",
- " 112 | \n",
- " 124 | \n",
- " -12 | \n",
- "
\n",
- " \n",
- " guanaco-7b | \n",
- " 1364 | \n",
- " 2.880002 | \n",
- " 4.592913 | \n",
- " 1.712911 | \n",
- " 119 | \n",
- " 122 | \n",
- " -3 | \n",
- "
\n",
- " \n",
- " baichuan-13b-chat | \n",
- " 1727 | \n",
- " 1.992146 | \n",
- " 2.612329 | \n",
- " 0.620183 | \n",
- " 126 | \n",
- " 128 | \n",
- " -2 | \n",
+ " gpt4_1106_preview_verbose | \n",
+ " 2402 | \n",
+ " 64.303601 | \n",
+ " 42.502532 | \n",
+ " -21.801069 | \n",
+ " 0 | \n",
+ " 2 | \n",
+ " -2 | \n",
+ "
\n",
+ " \n",
+ " gpt4_1106_preview | \n",
+ " 2049 | \n",
+ " 50.000000 | \n",
+ " 50.000000 | \n",
+ " 0.000000 | \n",
+ " 1 | \n",
+ " 0 | \n",
+ " 1 | \n",
+ "
\n",
+ " \n",
+ " gpt4_1106_preview_concise | \n",
+ " 1136 | \n",
+ " 22.920194 | \n",
+ " 39.481617 | \n",
+ " 16.561423 | \n",
+ " 14 | \n",
+ " 4 | \n",
+ " 10 | \n",
+ "
\n",
+ " \n",
+ " claude-3-opus-20240229 | \n",
+ " 1388 | \n",
+ " 29.041764 | \n",
+ " 45.857774 | \n",
+ " 16.816010 | \n",
+ " 7 | \n",
+ " 1 | \n",
+ " 6 | \n",
+ "
\n",
+ " \n",
+ " gpt4 | \n",
+ " 1365 | \n",
+ " 23.576789 | \n",
+ " 37.584082 | \n",
+ " 14.007293 | \n",
+ " 12 | \n",
+ " 7 | \n",
+ " 5 | \n",
+ "
\n",
+ " \n",
+ " Qwen1.5-72B-Chat | \n",
+ " 1549 | \n",
+ " 26.498283 | \n",
+ " 38.743595 | \n",
+ " 12.245311 | \n",
+ " 8 | \n",
+ " 5 | \n",
+ " 3 | \n",
+ "
\n",
+ " \n",
+ " gpt4_0314 | \n",
+ " 1371 | \n",
+ " 22.073259 | \n",
+ " 35.101286 | \n",
+ " 13.028027 | \n",
+ " 15 | \n",
+ " 9 | \n",
+ " 6 | \n",
+ "
\n",
+ " \n",
+ " claude-3-sonnet-20240229 | \n",
+ " 1420 | \n",
+ " 25.556325 | \n",
+ " 39.800482 | \n",
+ " 14.244157 | \n",
+ " 9 | \n",
+ " 3 | \n",
+ " 6 | \n",
+ "
\n",
+ " \n",
+ " gpt4_0613_verbose | \n",
+ " 1473 | \n",
+ " 23.237360 | \n",
+ " 35.315026 | \n",
+ " 12.077666 | \n",
+ " 13 | \n",
+ " 8 | \n",
+ " 5 | \n",
+ "
\n",
+ " \n",
+ " mistral-large-2402 | \n",
+ " 1362 | \n",
+ " 21.438776 | \n",
+ " 34.217386 | \n",
+ " 12.778610 | \n",
+ " 19 | \n",
+ " 10 | \n",
+ " 9 | \n",
+ "
\n",
+ " \n",
+ " claude-2.1_verbose | \n",
+ " 1414 | \n",
+ " 24.354071 | \n",
+ " 38.028529 | \n",
+ " 13.674458 | \n",
+ " 11 | \n",
+ " 6 | \n",
+ " 5 | \n",
+ "
\n",
+ " \n",
+ " gpt4_0613 | \n",
+ " 1140 | \n",
+ " 15.755038 | \n",
+ " 27.108937 | \n",
+ " 11.353899 | \n",
+ " 30 | \n",
+ " 20 | \n",
+ " 10 | \n",
+ "
\n",
+ " \n",
+ " Snorkel-Mistral-PairRM-DPO-best-of-16 | \n",
+ " 2616 | \n",
+ " 34.860133 | \n",
+ " 16.971563 | \n",
+ " -17.888570 | \n",
+ " 2 | \n",
+ " 50 | \n",
+ " -48 | \n",
+ "
\n",
+ " \n",
+ " Contextual-KTO-Mistral-PairRM | \n",
+ " 2521 | \n",
+ " 33.227355 | \n",
+ " 18.613504 | \n",
+ " -14.613851 | \n",
+ " 3 | \n",
+ " 41 | \n",
+ " -38 | \n",
+ "
\n",
+ " \n",
+ " pairrm-Yi-34B-Chat | \n",
+ " 2195 | \n",
+ " 31.241283 | \n",
+ " 26.712191 | \n",
+ " -4.529092 | \n",
+ " 4 | \n",
+ " 22 | \n",
+ " -18 | \n",
+ "
\n",
+ " \n",
+ " mistral-medium | \n",
+ " 1500 | \n",
+ " 21.855773 | \n",
+ " 32.778640 | \n",
+ " 10.922867 | \n",
+ " 16 | \n",
+ " 11 | \n",
+ " 5 | \n",
+ "
\n",
+ " \n",
+ " claude-2 | \n",
+ " 1069 | \n",
+ " 17.188240 | \n",
+ " 30.132118 | \n",
+ " 12.943878 | \n",
+ " 25 | \n",
+ " 12 | \n",
+ " 13 | \n",
+ "
\n",
+ " \n",
+ " claude | \n",
+ " 1082 | \n",
+ " 16.985344 | \n",
+ " 29.679901 | \n",
+ " 12.694557 | \n",
+ " 26 | \n",
+ " 13 | \n",
+ " 13 | \n",
+ "
\n",
+ " \n",
+ " Yi-34B-Chat | \n",
+ " 2123 | \n",
+ " 29.659947 | \n",
+ " 27.469108 | \n",
+ " -2.190839 | \n",
+ " 6 | \n",
+ " 18 | \n",
+ " -12 | \n",
+ "
\n",
+ " \n",
+ " Snorkel-Mistral-PairRM-DPO | \n",
+ " 2736 | \n",
+ " 30.220053 | \n",
+ " 12.207351 | \n",
+ " -18.012701 | \n",
+ " 5 | \n",
+ " 77 | \n",
+ " -72 | \n",
+ "
\n",
+ " \n",
+ " claude-instant-1.2 | \n",
+ " 1112 | \n",
+ " 16.127400 | \n",
+ " 27.962345 | \n",
+ " 11.834945 | \n",
+ " 27 | \n",
+ " 14 | \n",
+ " 13 | \n",
+ "
\n",
+ " \n",
+ " claude-2.1 | \n",
+ " 1096 | \n",
+ " 15.733507 | \n",
+ " 27.394210 | \n",
+ " 11.660703 | \n",
+ " 31 | \n",
+ " 19 | \n",
+ " 12 | \n",
+ "
\n",
+ " \n",
+ " xwinlm-70b-v0.1 | \n",
+ " 1775 | \n",
+ " 21.812957 | \n",
+ " 27.644496 | \n",
+ " 5.831539 | \n",
+ " 17 | \n",
+ " 17 | \n",
+ " 0 | \n",
+ "
\n",
+ " \n",
+ " gemini-pro | \n",
+ " 1456 | \n",
+ " 18.177645 | \n",
+ " 27.849057 | \n",
+ " 9.671412 | \n",
+ " 23 | \n",
+ " 16 | \n",
+ " 7 | \n",
+ "
\n",
+ " \n",
+ " Mixtral-8x7B-Instruct-v0.1 | \n",
+ " 1465 | \n",
+ " 18.255318 | \n",
+ " 27.849703 | \n",
+ " 9.594386 | \n",
+ " 22 | \n",
+ " 15 | \n",
+ " 7 | \n",
+ "
\n",
+ " \n",
+ " evo-v2-7b | \n",
+ " 1754 | \n",
+ " 20.834113 | \n",
+ " 26.807884 | \n",
+ " 5.973771 | \n",
+ " 20 | \n",
+ " 21 | \n",
+ " -1 | \n",
+ "
\n",
+ " \n",
+ " Mixtral-8x7B-Instruct-v0.1_verbose | \n",
+ " 2083 | \n",
+ " 24.614063 | \n",
+ " 23.777507 | \n",
+ " -0.836556 | \n",
+ " 10 | \n",
+ " 27 | \n",
+ " -17 | \n",
+ "
\n",
+ " \n",
+ " Mixtral-8x7B-Instruct-v0.1_concise | \n",
+ " 910 | \n",
+ " 13.744040 | \n",
+ " 24.932748 | \n",
+ " 11.188708 | \n",
+ " 41 | \n",
+ " 24 | \n",
+ " 17 | \n",
+ "
\n",
+ " \n",
+ " gpt-3.5-turbo-16k-0613 | \n",
+ " 1328 | \n",
+ " 14.132391 | \n",
+ " 22.859543 | \n",
+ " 8.727152 | \n",
+ " 36 | \n",
+ " 28 | \n",
+ " 8 | \n",
+ "
\n",
+ " \n",
+ " gpt-3.5-turbo-0613 | \n",
+ " 1331 | \n",
+ " 14.095799 | \n",
+ " 22.774144 | \n",
+ " 8.678345 | \n",
+ " 37 | \n",
+ " 29 | \n",
+ " 8 | \n",
+ "
\n",
+ " \n",
+ " gpt-3.5-turbo-1106_verbose | \n",
+ " 1058 | \n",
+ " 12.763170 | \n",
+ " 22.434952 | \n",
+ " 9.671782 | \n",
+ " 45 | \n",
+ " 30 | \n",
+ " 15 | \n",
+ "
\n",
+ " \n",
+ " gpt4_0613_concise | \n",
+ " 627 | \n",
+ " 9.400321 | \n",
+ " 17.766751 | \n",
+ " 8.366430 | \n",
+ " 63 | \n",
+ " 44 | \n",
+ " 19 | \n",
+ "
\n",
+ " \n",
+ " pairrm-tulu-2-70b | \n",
+ " 1607 | \n",
+ " 18.638963 | \n",
+ " 26.379740 | \n",
+ " 7.740777 | \n",
+ " 21 | \n",
+ " 23 | \n",
+ " -2 | \n",
+ "
\n",
+ " \n",
+ " tulu-2-dpo-70b | \n",
+ " 1418 | \n",
+ " 15.982854 | \n",
+ " 24.913121 | \n",
+ " 8.930267 | \n",
+ " 29 | \n",
+ " 25 | \n",
+ " 4 | \n",
+ "
\n",
+ " \n",
+ " Mistral-7B-ReMax-v0.1 | \n",
+ " 1478 | \n",
+ " 15.999331 | \n",
+ " 24.256479 | \n",
+ " 8.257148 | \n",
+ " 28 | \n",
+ " 26 | \n",
+ " 2 | \n",
+ "
\n",
+ " \n",
+ " gpt-3.5-turbo-1106 | \n",
+ " 796 | \n",
+ " 9.177965 | \n",
+ " 16.971183 | \n",
+ " 7.793218 | \n",
+ " 66 | \n",
+ " 51 | \n",
+ " 15 | \n",
+ "
\n",
+ " \n",
+ " LMCocktail-10.7B-v1 | \n",
+ " 1203 | \n",
+ " 13.153431 | \n",
+ " 22.215803 | \n",
+ " 9.062372 | \n",
+ " 42 | \n",
+ " 31 | \n",
+ " 11 | \n",
+ "
\n",
+ " \n",
+ " internlm2-chat-20b-ppo | \n",
+ " 2373 | \n",
+ " 21.749155 | \n",
+ " 14.939076 | \n",
+ " -6.810079 | \n",
+ " 18 | \n",
+ " 62 | \n",
+ " -44 | \n",
+ "
\n",
+ " \n",
+ " claude-2.1_concise | \n",
+ " 573 | \n",
+ " 9.227125 | \n",
+ " 17.538143 | \n",
+ " 8.311018 | \n",
+ " 65 | \n",
+ " 48 | \n",
+ " 17 | \n",
+ "
\n",
+ " \n",
+ " gpt-3.5-turbo-0301 | \n",
+ " 827 | \n",
+ " 9.622453 | \n",
+ " 17.707654 | \n",
+ " 8.085200 | \n",
+ " 60 | \n",
+ " 45 | \n",
+ " 15 | \n",
+ "
\n",
+ " \n",
+ " xwinlm-13b-v0.1 | \n",
+ " 1894 | \n",
+ " 17.427935 | \n",
+ " 20.107837 | \n",
+ " 2.679903 | \n",
+ " 24 | \n",
+ " 35 | \n",
+ " -11 | \n",
+ "
\n",
+ " \n",
+ " deepseek-llm-67b-chat | \n",
+ " 1151 | \n",
+ " 12.093422 | \n",
+ " 20.744121 | \n",
+ " 8.650699 | \n",
+ " 48 | \n",
+ " 34 | \n",
+ " 14 | \n",
+ "
\n",
+ " \n",
+ " gpt35_turbo_instruct | \n",
+ " 1018 | \n",
+ " 8.462447 | \n",
+ " 15.014996 | \n",
+ " 6.552549 | \n",
+ " 70 | \n",
+ " 59 | \n",
+ " 11 | \n",
+ "
\n",
+ " \n",
+ " wizardlm-70b | \n",
+ " 1545 | \n",
+ " 14.383896 | \n",
+ " 21.076106 | \n",
+ " 6.692210 | \n",
+ " 34 | \n",
+ " 33 | \n",
+ " 1 | \n",
+ "
\n",
+ " \n",
+ " vicuna-33b-v1.3 | \n",
+ " 1479 | \n",
+ " 12.705948 | \n",
+ " 19.254076 | \n",
+ " 6.548128 | \n",
+ " 46 | \n",
+ " 40 | \n",
+ " 6 | \n",
+ "
\n",
+ " \n",
+ " pairrm-tulu-2-13b | \n",
+ " 1454 | \n",
+ " 13.831901 | \n",
+ " 21.210973 | \n",
+ " 7.379072 | \n",
+ " 40 | \n",
+ " 32 | \n",
+ " 8 | \n",
+ "
\n",
+ " \n",
+ " Mistral-7B-Instruct-v0.2 | \n",
+ " 1676 | \n",
+ " 14.722773 | \n",
+ " 19.973105 | \n",
+ " 5.250332 | \n",
+ " 33 | \n",
+ " 36 | \n",
+ " -3 | \n",
+ "
\n",
+ " \n",
+ " evo-7b | \n",
+ " 1774 | \n",
+ " 15.577437 | \n",
+ " 19.756415 | \n",
+ " 4.178978 | \n",
+ " 32 | \n",
+ " 37 | \n",
+ " -5 | \n",
+ "
\n",
+ " \n",
+ " humpback-llama2-70b | \n",
+ " 1107 | \n",
+ " 10.121772 | \n",
+ " 17.572810 | \n",
+ " 7.451039 | \n",
+ " 58 | \n",
+ " 47 | \n",
+ " 11 | \n",
+ "
\n",
+ " \n",
+ " OpenHermes-2.5-Mistral-7B | \n",
+ " 1107 | \n",
+ " 10.340416 | \n",
+ " 17.952407 | \n",
+ " 7.611992 | \n",
+ " 57 | \n",
+ " 43 | \n",
+ " 14 | \n",
+ "
\n",
+ " \n",
+ " deita-7b-v1.0 | \n",
+ " 1417 | \n",
+ " 12.646639 | \n",
+ " 19.721522 | \n",
+ " 7.074882 | \n",
+ " 47 | \n",
+ " 38 | \n",
+ " 9 | \n",
+ "
\n",
+ " \n",
+ " jina-chat | \n",
+ " 676 | \n",
+ " 7.786130 | \n",
+ " 14.633052 | \n",
+ " 6.846921 | \n",
+ " 76 | \n",
+ " 63 | \n",
+ " 13 | \n",
+ "
\n",
+ " \n",
+ " gpt-3.5-turbo-1106_concise | \n",
+ " 431 | \n",
+ " 7.415865 | \n",
+ " 14.270598 | \n",
+ " 6.854733 | \n",
+ " 84 | \n",
+ " 64 | \n",
+ " 20 | \n",
+ "
\n",
+ " \n",
+ " causallm-14b | \n",
+ " 1391 | \n",
+ " 11.146161 | \n",
+ " 17.577840 | \n",
+ " 6.431679 | \n",
+ " 53 | \n",
+ " 46 | \n",
+ " 7 | \n",
+ "
\n",
+ " \n",
+ " pairrm-zephyr-7b-beta | \n",
+ " 1487 | \n",
+ " 12.841278 | \n",
+ " 19.383394 | \n",
+ " 6.542116 | \n",
+ " 44 | \n",
+ " 39 | \n",
+ " 5 | \n",
+ "
\n",
+ " \n",
+ " Starling-LM-7B-alpha | \n",
+ " 1895 | \n",
+ " 14.245924 | \n",
+ " 16.422615 | \n",
+ " 2.176692 | \n",
+ " 35 | \n",
+ " 56 | \n",
+ " -21 | \n",
+ "
\n",
+ " \n",
+ " llama-2-70b-chat-hf | \n",
+ " 1790 | \n",
+ " 13.888258 | \n",
+ " 17.406987 | \n",
+ " 3.518729 | \n",
+ " 38 | \n",
+ " 49 | \n",
+ " -11 | \n",
+ "
\n",
+ " \n",
+ " openchat-v3.1-13b | \n",
+ " 1484 | \n",
+ " 11.082230 | \n",
+ " 16.752762 | \n",
+ " 5.670531 | \n",
+ " 54 | \n",
+ " 53 | \n",
+ " 1 | \n",
+ "
\n",
+ " \n",
+ " wizardlm-13b-v1.2 | \n",
+ " 1635 | \n",
+ " 12.027480 | \n",
+ " 16.740614 | \n",
+ " 4.713134 | \n",
+ " 49 | \n",
+ " 54 | \n",
+ " -5 | \n",
+ "
\n",
+ " \n",
+ " ultralm-13b-v2.0-best-of-16 | \n",
+ " 1720 | \n",
+ " 13.853373 | \n",
+ " 18.253509 | \n",
+ " 4.400135 | \n",
+ " 39 | \n",
+ " 42 | \n",
+ " -3 | \n",
+ "
\n",
+ " \n",
+ " wizardlm-13b-v1.1 | \n",
+ " 1525 | \n",
+ " 11.233910 | \n",
+ " 16.634963 | \n",
+ " 5.401054 | \n",
+ " 52 | \n",
+ " 55 | \n",
+ " -3 | \n",
+ "
\n",
+ " \n",
+ " zephyr-7b-beta | \n",
+ " 1444 | \n",
+ " 10.992886 | \n",
+ " 16.935617 | \n",
+ " 5.942731 | \n",
+ " 55 | \n",
+ " 52 | \n",
+ " 3 | \n",
+ "
\n",
+ " \n",
+ " dolphin-2.2.1-mistral-7b | \n",
+ " 1130 | \n",
+ " 9.039800 | \n",
+ " 15.597487 | \n",
+ " 6.557688 | \n",
+ " 68 | \n",
+ " 58 | \n",
+ " 10 | \n",
+ "
\n",
+ " \n",
+ " humpback-llama-65b | \n",
+ " 1232 | \n",
+ " 9.425139 | \n",
+ " 15.772346 | \n",
+ " 6.347206 | \n",
+ " 62 | \n",
+ " 57 | \n",
+ " 5 | \n",
+ "
\n",
+ " \n",
+ " openbuddy-llama2-70b-v10.1 | \n",
+ " 1077 | \n",
+ " 8.096422 | \n",
+ " 14.165353 | \n",
+ " 6.068931 | \n",
+ " 74 | \n",
+ " 66 | \n",
+ " 8 | \n",
+ "
\n",
+ " \n",
+ " openbuddy-llama-65b-v8 | \n",
+ " 1162 | \n",
+ " 8.770650 | \n",
+ " 14.997012 | \n",
+ " 6.226362 | \n",
+ " 69 | \n",
+ " 60 | \n",
+ " 9 | \n",
+ "
\n",
+ " \n",
+ " Qwen-14B-Chat | \n",
+ " 1013 | \n",
+ " 7.502333 | \n",
+ " 13.326422 | \n",
+ " 5.824088 | \n",
+ " 81 | \n",
+ " 72 | \n",
+ " 9 | \n",
+ "
\n",
+ " \n",
+ " gpt4_gamed | \n",
+ " 68 | \n",
+ " 3.738337 | \n",
+ " 7.337086 | \n",
+ " 3.598749 | \n",
+ " 112 | \n",
+ " 111 | \n",
+ " 1 | \n",
+ "
\n",
+ " \n",
+ " cut-13b | \n",
+ " 1637 | \n",
+ " 10.779089 | \n",
+ " 14.984761 | \n",
+ " 4.205672 | \n",
+ " 56 | \n",
+ " 61 | \n",
+ " -5 | \n",
+ "
\n",
+ " \n",
+ " openchat-v2-w-13b | \n",
+ " 1566 | \n",
+ " 9.615344 | \n",
+ " 13.929201 | \n",
+ " 4.313857 | \n",
+ " 61 | \n",
+ " 68 | \n",
+ " -7 | \n",
+ "
\n",
+ " \n",
+ " tulu-2-dpo-13b | \n",
+ " 1614 | \n",
+ " 10.119788 | \n",
+ " 14.263755 | \n",
+ " 4.143966 | \n",
+ " 59 | \n",
+ " 65 | \n",
+ " -6 | \n",
+ "
\n",
+ " \n",
+ " claude2-alpaca-13b | \n",
+ " 1127 | \n",
+ " 7.437351 | \n",
+ " 12.843132 | \n",
+ " 5.405781 | \n",
+ " 83 | \n",
+ " 74 | \n",
+ " 9 | \n",
+ "
\n",
+ " \n",
+ " minotaur-13b | \n",
+ " 881 | \n",
+ " 5.738964 | \n",
+ " 10.465746 | \n",
+ " 4.726782 | \n",
+ " 100 | \n",
+ " 92 | \n",
+ " 8 | \n",
+ "
\n",
+ " \n",
+ " airoboros-65b | \n",
+ " 1512 | \n",
+ " 9.388950 | \n",
+ " 13.996237 | \n",
+ " 4.607287 | \n",
+ " 64 | \n",
+ " 67 | \n",
+ " -3 | \n",
+ "
\n",
+ " \n",
+ " cohere | \n",
+ " 1983 | \n",
+ " 12.901455 | \n",
+ " 13.751717 | \n",
+ " 0.850262 | \n",
+ " 43 | \n",
+ " 69 | \n",
+ " -26 | \n",
+ "
\n",
+ " \n",
+ " vicuna-13b-v1.3 | \n",
+ " 1132 | \n",
+ " 7.137240 | \n",
+ " 12.307993 | \n",
+ " 5.170753 | \n",
+ " 87 | \n",
+ " 75 | \n",
+ " 12 | \n",
+ "
\n",
+ " \n",
+ " xwinlm-7b-v0.1 | \n",
+ " 1894 | \n",
+ " 11.245652 | \n",
+ " 12.974901 | \n",
+ " 1.729250 | \n",
+ " 51 | \n",
+ " 73 | \n",
+ " -22 | \n",
+ "
\n",
+ " \n",
+ " airoboros-33b | \n",
+ " 1514 | \n",
+ " 9.053160 | \n",
+ " 13.481911 | \n",
+ " 4.428750 | \n",
+ " 67 | \n",
+ " 71 | \n",
+ " -4 | \n",
+ "
\n",
+ " \n",
+ " platolm-7b | \n",
+ " 1344 | \n",
+ " 6.320828 | \n",
+ " 10.160933 | \n",
+ " 3.840105 | \n",
+ " 93 | \n",
+ " 98 | \n",
+ " -5 | \n",
+ "
\n",
+ " \n",
+ " vicuna-13b-v1.5 | \n",
+ " 1061 | \n",
+ " 6.722122 | \n",
+ " 11.807463 | \n",
+ " 5.085341 | \n",
+ " 90 | \n",
+ " 80 | \n",
+ " 10 | \n",
+ "
\n",
+ " \n",
+ " gemma-7b-it | \n",
+ " 1115 | \n",
+ " 6.937294 | \n",
+ " 12.018539 | \n",
+ " 5.081245 | \n",
+ " 88 | \n",
+ " 79 | \n",
+ " 9 | \n",
+ "
\n",
+ " \n",
+ " openchat-v2-13b | \n",
+ " 1564 | \n",
+ " 8.435076 | \n",
+ " 12.232876 | \n",
+ " 3.797800 | \n",
+ " 71 | \n",
+ " 76 | \n",
+ " -5 | \n",
+ "
\n",
+ " \n",
+ " zephyr-7b-alpha | \n",
+ " 1302 | \n",
+ " 8.352664 | \n",
+ " 13.642872 | \n",
+ " 5.290208 | \n",
+ " 72 | \n",
+ " 70 | \n",
+ " 2 | \n",
+ "
\n",
+ " \n",
+ " openbuddy-llama-30b-v7.1 | \n",
+ " 968 | \n",
+ " 6.130015 | \n",
+ " 10.994608 | \n",
+ " 4.864593 | \n",
+ " 96 | \n",
+ " 87 | \n",
+ " 9 | \n",
+ "
\n",
+ " \n",
+ " ultralm-13b-best-of-16 | \n",
+ " 1980 | \n",
+ " 11.307315 | \n",
+ " 12.086284 | \n",
+ " 0.778969 | \n",
+ " 50 | \n",
+ " 78 | \n",
+ " -28 | \n",
+ "
\n",
+ " \n",
+ " oasst-sft-llama-33b | \n",
+ " 748 | \n",
+ " 4.770391 | \n",
+ " 8.882374 | \n",
+ " 4.111983 | \n",
+ " 106 | \n",
+ " 102 | \n",
+ " 4 | \n",
+ "
\n",
+ " \n",
+ " wizardlm-13b | \n",
+ " 985 | \n",
+ " 5.878153 | \n",
+ " 10.505375 | \n",
+ " 4.627223 | \n",
+ " 98 | \n",
+ " 91 | \n",
+ " 7 | \n",
+ "
\n",
+ " \n",
+ " nous-hermes-13b | \n",
+ " 844 | \n",
+ " 5.411879 | \n",
+ " 9.931736 | \n",
+ " 4.519857 | \n",
+ " 101 | \n",
+ " 100 | \n",
+ " 1 | \n",
+ "
\n",
+ " \n",
+ " vicuna-13b | \n",
+ " 1037 | \n",
+ " 5.831103 | \n",
+ " 10.301157 | \n",
+ " 4.470054 | \n",
+ " 99 | \n",
+ " 96 | \n",
+ " 3 | \n",
+ "
\n",
+ " \n",
+ " tulu-2-dpo-7b | \n",
+ " 1663 | \n",
+ " 8.197515 | \n",
+ " 11.213437 | \n",
+ " 3.015921 | \n",
+ " 73 | \n",
+ " 84 | \n",
+ " -11 | \n",
+ "
\n",
+ " \n",
+ " openbuddy-llama2-13b-v11.1 | \n",
+ " 1057 | \n",
+ " 6.174716 | \n",
+ " 10.856472 | \n",
+ " 4.681755 | \n",
+ " 95 | \n",
+ " 88 | \n",
+ " 7 | \n",
+ "
\n",
+ " \n",
+ " ultralm-13b-v2.0 | \n",
+ " 1399 | \n",
+ " 7.504623 | \n",
+ " 11.794791 | \n",
+ " 4.290168 | \n",
+ " 80 | \n",
+ " 81 | \n",
+ " -1 | \n",
+ "
\n",
+ " \n",
+ " text_davinci_001 | \n",
+ " 296 | \n",
+ " 2.764005 | \n",
+ " 5.366913 | \n",
+ " 2.602908 | \n",
+ " 122 | \n",
+ " 120 | \n",
+ " 2 | \n",
+ "
\n",
+ " \n",
+ " openbuddy-falcon-40b-v9 | \n",
+ " 1089 | \n",
+ " 5.955743 | \n",
+ " 10.388464 | \n",
+ " 4.432722 | \n",
+ " 97 | \n",
+ " 94 | \n",
+ " 3 | \n",
+ "
\n",
+ " \n",
+ " openchat-13b | \n",
+ " 1632 | \n",
+ " 8.022386 | \n",
+ " 11.186416 | \n",
+ " 3.164030 | \n",
+ " 75 | \n",
+ " 85 | \n",
+ " -10 | \n",
+ "
\n",
+ " \n",
+ " llama-2-13b-chat-hf | \n",
+ " 1513 | \n",
+ " 7.702310 | \n",
+ " 11.476089 | \n",
+ " 3.773779 | \n",
+ " 78 | \n",
+ " 82 | \n",
+ " -4 | \n",
+ "
\n",
+ " \n",
+ " guanaco-65b | \n",
+ " 1249 | \n",
+ " 6.858495 | \n",
+ " 11.412787 | \n",
+ " 4.554293 | \n",
+ " 89 | \n",
+ " 83 | \n",
+ " 6 | \n",
+ "
\n",
+ " \n",
+ " opencoderplus-15b | \n",
+ " 1628 | \n",
+ " 7.406222 | \n",
+ " 10.352214 | \n",
+ " 2.945992 | \n",
+ " 85 | \n",
+ " 95 | \n",
+ " -10 | \n",
+ "
\n",
+ " \n",
+ " oasst-rlhf-llama-33b | \n",
+ " 1079 | \n",
+ " 6.296435 | \n",
+ " 11.010603 | \n",
+ " 4.714168 | \n",
+ " 94 | \n",
+ " 86 | \n",
+ " 8 | \n",
+ "
\n",
+ " \n",
+ " openchat8192-13b | \n",
+ " 1664 | \n",
+ " 7.472767 | \n",
+ " 10.215584 | \n",
+ " 2.742818 | \n",
+ " 82 | \n",
+ " 97 | \n",
+ " -15 | \n",
+ "
\n",
+ " \n",
+ " phi-2-dpo | \n",
+ " 1687 | \n",
+ " 7.757096 | \n",
+ " 10.448610 | \n",
+ " 2.691514 | \n",
+ " 77 | \n",
+ " 93 | \n",
+ " -16 | \n",
+ "
\n",
+ " \n",
+ " minichat-1.5-3b | \n",
+ " 1545 | \n",
+ " 6.553443 | \n",
+ " 9.602479 | \n",
+ " 3.049036 | \n",
+ " 92 | \n",
+ " 101 | \n",
+ " -9 | \n",
+ "
\n",
+ " \n",
+ " vicuna-7b-v1.5 | \n",
+ " 1083 | \n",
+ " 4.797494 | \n",
+ " 8.380940 | \n",
+ " 3.583446 | \n",
+ " 105 | \n",
+ " 104 | \n",
+ " 1 | \n",
+ "
\n",
+ " \n",
+ " llama-2-chat-7b-evol70k-neft | \n",
+ " 1612 | \n",
+ " 7.602384 | \n",
+ " 10.728139 | \n",
+ " 3.125755 | \n",
+ " 79 | \n",
+ " 89 | \n",
+ " -10 | \n",
+ "
\n",
+ " \n",
+ " recycled-wizardlm-7b-v2.0 | \n",
+ " 1583 | \n",
+ " 7.337129 | \n",
+ " 10.528500 | \n",
+ " 3.191370 | \n",
+ " 86 | \n",
+ " 90 | \n",
+ " -4 | \n",
+ "
\n",
+ " \n",
+ " vicuna-7b-v1.3 | \n",
+ " 1110 | \n",
+ " 4.642512 | \n",
+ " 8.053655 | \n",
+ " 3.411143 | \n",
+ " 107 | \n",
+ " 107 | \n",
+ " 0 | \n",
+ "
\n",
+ " \n",
+ " alpaca-farm-ppo-sim-gpt4-20k | \n",
+ " 511 | \n",
+ " 3.450342 | \n",
+ " 6.596308 | \n",
+ " 3.145966 | \n",
+ " 115 | \n",
+ " 113 | \n",
+ " 2 | \n",
+ "
\n",
+ " \n",
+ " ultralm-13b | \n",
+ " 1087 | \n",
+ " 5.074590 | \n",
+ " 8.856011 | \n",
+ " 3.781421 | \n",
+ " 102 | \n",
+ " 103 | \n",
+ " -1 | \n",
+ "
\n",
+ " \n",
+ " baize-v2-13b | \n",
+ " 930 | \n",
+ " 4.590545 | \n",
+ " 8.296129 | \n",
+ " 3.705584 | \n",
+ " 108 | \n",
+ " 105 | \n",
+ " 3 | \n",
+ "
\n",
+ " \n",
+ " recycled-wizardlm-7b-v1.0 | \n",
+ " 1494 | \n",
+ " 6.632750 | \n",
+ " 9.977369 | \n",
+ " 3.344619 | \n",
+ " 91 | \n",
+ " 99 | \n",
+ " -8 | \n",
+ "
\n",
+ " \n",
+ " alpaca-7b_verbose | \n",
+ " 537 | \n",
+ " 2.933102 | \n",
+ " 5.594285 | \n",
+ " 2.661184 | \n",
+ " 120 | \n",
+ " 118 | \n",
+ " 2 | \n",
+ "
\n",
+ " \n",
+ " alpaca-farm-ppo-human | \n",
+ " 803 | \n",
+ " 4.100427 | \n",
+ " 7.574137 | \n",
+ " 3.473710 | \n",
+ " 110 | \n",
+ " 108 | \n",
+ " 2 | \n",
+ "
\n",
+ " \n",
+ " vicuna-7b | \n",
+ " 1044 | \n",
+ " 4.162611 | \n",
+ " 7.341539 | \n",
+ " 3.178928 | \n",
+ " 109 | \n",
+ " 110 | \n",
+ " -1 | \n",
+ "
\n",
+ " \n",
+ " alpaca-7b | \n",
+ " 396 | \n",
+ " 2.591451 | \n",
+ " 4.999603 | \n",
+ " 2.408152 | \n",
+ " 124 | \n",
+ " 121 | \n",
+ " 3 | \n",
+ "
\n",
+ " \n",
+ " phi-2-sft | \n",
+ " 1068 | \n",
+ " 3.977568 | \n",
+ " 6.974659 | \n",
+ " 2.997091 | \n",
+ " 111 | \n",
+ " 112 | \n",
+ " -1 | \n",
+ "
\n",
+ " \n",
+ " minichat-3b | \n",
+ " 868 | \n",
+ " 3.007151 | \n",
+ " 5.496370 | \n",
+ " 2.489219 | \n",
+ " 119 | \n",
+ " 119 | \n",
+ " 0 | \n",
+ "
\n",
+ " \n",
+ " guanaco-33b | \n",
+ " 1311 | \n",
+ " 5.002494 | \n",
+ " 8.143736 | \n",
+ " 3.141242 | \n",
+ " 103 | \n",
+ " 106 | \n",
+ " -3 | \n",
+ "
\n",
+ " \n",
+ " falcon-40b-instruct | \n",
+ " 662 | \n",
+ " 3.342919 | \n",
+ " 6.293075 | \n",
+ " 2.950156 | \n",
+ " 118 | \n",
+ " 114 | \n",
+ " 4 | \n",
+ "
\n",
+ " \n",
+ " gemma-2b-it | \n",
+ " 1041 | \n",
+ " 3.401971 | \n",
+ " 6.004253 | \n",
+ " 2.602282 | \n",
+ " 117 | \n",
+ " 116 | \n",
+ " 1 | \n",
+ "
\n",
+ " \n",
+ " llama-2-7b-chat-hf | \n",
+ " 1479 | \n",
+ " 4.961340 | \n",
+ " 7.518212 | \n",
+ " 2.556872 | \n",
+ " 104 | \n",
+ " 109 | \n",
+ " -5 | \n",
+ "
\n",
+ " \n",
+ " openbuddy-falcon-7b-v6 | \n",
+ " 1152 | \n",
+ " 3.521174 | \n",
+ " 6.038229 | \n",
+ " 2.517055 | \n",
+ " 113 | \n",
+ " 115 | \n",
+ " -2 | \n",
+ "
\n",
+ " \n",
+ " alpaca-7b_concise | \n",
+ " 351 | \n",
+ " 1.991176 | \n",
+ " 3.853242 | \n",
+ " 1.862066 | \n",
+ " 129 | \n",
+ " 128 | \n",
+ " 1 | \n",
+ "
\n",
+ " \n",
+ " phi-2 | \n",
+ " 626 | \n",
+ " 2.350210 | \n",
+ " 4.442420 | \n",
+ " 2.092211 | \n",
+ " 126 | \n",
+ " 125 | \n",
+ " 1 | \n",
+ "
\n",
+ " \n",
+ " baize-v2-7b | \n",
+ " 1127 | \n",
+ " 3.404815 | \n",
+ " 5.879578 | \n",
+ " 2.474763 | \n",
+ " 116 | \n",
+ " 117 | \n",
+ " -1 | \n",
+ "
\n",
+ " \n",
+ " chatglm2-6b | \n",
+ " 1027 | \n",
+ " 2.762185 | \n",
+ " 4.890945 | \n",
+ " 2.128760 | \n",
+ " 123 | \n",
+ " 122 | \n",
+ " 1 | \n",
+ "
\n",
+ " \n",
+ " pythia-12b-mix-sft | \n",
+ " 913 | \n",
+ " 2.578090 | \n",
+ " 4.674240 | \n",
+ " 2.096149 | \n",
+ " 125 | \n",
+ " 123 | \n",
+ " 2 | \n",
+ "
\n",
+ " \n",
+ " falcon-7b-instruct | \n",
+ " 478 | \n",
+ " 2.146618 | \n",
+ " 4.115462 | \n",
+ " 1.968845 | \n",
+ " 127 | \n",
+ " 127 | \n",
+ " 0 | \n",
+ "
\n",
+ " \n",
+ " oasst-sft-pythia-12b | \n",
+ " 726 | \n",
+ " 1.790114 | \n",
+ " 3.343088 | \n",
+ " 1.552974 | \n",
+ " 130 | \n",
+ " 129 | \n",
+ " 1 | \n",
+ "
\n",
+ " \n",
+ " guanaco-13b | \n",
+ " 1774 | \n",
+ " 3.469597 | \n",
+ " 4.400390 | \n",
+ " 0.930793 | \n",
+ " 114 | \n",
+ " 126 | \n",
+ " -12 | \n",
+ "
\n",
+ " \n",
+ " guanaco-7b | \n",
+ " 1364 | \n",
+ " 2.880002 | \n",
+ " 4.592913 | \n",
+ " 1.712911 | \n",
+ " 121 | \n",
+ " 124 | \n",
+ " -3 | \n",
+ "
\n",
+ " \n",
+ " baichuan-13b-chat | \n",
+ " 1727 | \n",
+ " 1.992146 | \n",
+ " 2.612329 | \n",
+ " 0.620183 | \n",
+ " 128 | \n",
+ " 130 | \n",
+ " -2 | \n",
"
\n",
" \n",
"
\n"
],
"text/plain": [
- ""
+ ""
]
},
"execution_count": 20,
@@ -4110,7 +4158,7 @@
"\n"
],
"text/plain": [
- ""
+ ""
]
},
"metadata": {},
@@ -4299,8 +4347,8 @@
"name": "stdout",
"output_type": "stream",
"text": [
- "CPU times: user 16.3 s, sys: 183 ms, total: 16.4 s\n",
- "Wall time: 16.4 s\n"
+ "CPU times: user 16.3 s, sys: 199 ms, total: 16.5 s\n",
+ "Wall time: 16.5 s\n"
]
}
],
@@ -4330,17 +4378,17 @@
"\n",
"## Gameability (lower is better)\n",
"Verbosity gameability (relative std metric): 6.3%\n",
- "Conciseness gameability (relative std metric): 13.4%\n",
+ "Conciseness gameability (relative std metric): 13.6%\n",
"Adversarial winrate gain: 8.5\n",
"Adversarial rank gain: 45.0\n",
"\n",
"## Correlation with Arena (higher is better)\n",
- "Spearman Corr: 0.971\n",
- "Kendall Corr: 0.872\n",
+ "Spearman Corr: 0.978\n",
+ "Kendall Corr: 0.893\n",
"\n",
- "## Correlation with length (closer to spearman=0.28, kendall=0.19 is better)\n",
- "Spearman Corr: 0.195\n",
- "Kendall Corr: 0.127\n",
+ "## Correlation with length (closer to spearman=0.28, kendall=0.20 is better)\n",
+ "Spearman Corr: 0.208\n",
+ "Kendall Corr: 0.141\n",
"\n",
"## Top 10 models\n"
]
@@ -4350,14 +4398,14 @@
"text/plain": [
"gpt4_1106_preview_verbose 51.575008\n",
"gpt4_1106_preview 50.000000\n",
- "gpt4_1106_preview_concise 41.896601\n",
+ "gpt4_1106_preview_concise 41.896602\n",
"claude-3-opus-20240229 40.391776\n",
"gpt4 38.128090\n",
"Qwen1.5-72B-Chat 36.571754\n",
"gpt4_0314 35.307061\n",
"claude-3-sonnet-20240229 34.872474\n",
"gpt4_0613_verbose 33.821267\n",
- "claude-2.1_verbose 30.291179\n",
+ "mistral-large-2402 32.652080\n",
"Name: np.tanh(rand_delta_len_std_only) + instruction_difficulty + not_gamed_baseline.astype(float) - 1, dtype: float64"
]
},
@@ -4430,1608 +4478,1628 @@
"data": {
"text/html": [
"\n",
- "\n",
+ "\n",
" \n",
" \n",
" | \n",
- " avg_length | \n",
- " win_rate | \n",
- " new_win_rate | \n",
- " delta_win_rate | \n",
- " rank_win_rate | \n",
- " rank_new_win_rate | \n",
- " delta_rank | \n",
+ " avg_length | \n",
+ " win_rate | \n",
+ " new_win_rate | \n",
+ " delta_win_rate | \n",
+ " rank_win_rate | \n",
+ " rank_new_win_rate | \n",
+ " delta_rank | \n",
"
\n",
" \n",
" \n",
" \n",
- " gpt4_1106_preview_verbose | \n",
- " 2402 | \n",
- " 64.303601 | \n",
- " 51.575008 | \n",
- " -12.728593 | \n",
- " 0 | \n",
- " 0 | \n",
- " 0 | \n",
- "
\n",
- " \n",
- " gpt4_1106_preview | \n",
- " 2049 | \n",
- " 50.000000 | \n",
- " 50.000000 | \n",
- " 0.000000 | \n",
- " 1 | \n",
- " 1 | \n",
- " 0 | \n",
- "
\n",
- " \n",
- " gpt4_1106_preview_concise | \n",
- " 1136 | \n",
- " 22.920194 | \n",
- " 41.896601 | \n",
- " 18.976407 | \n",
- " 13 | \n",
- " 2 | \n",
- " 11 | \n",
- "
\n",
- " \n",
- " claude-3-opus-20240229 | \n",
- " 1388 | \n",
- " 29.041764 | \n",
- " 40.391776 | \n",
- " 11.350012 | \n",
- " 6 | \n",
- " 3 | \n",
- " 3 | \n",
- "
\n",
- " \n",
- " gpt4 | \n",
- " 1365 | \n",
- " 23.576789 | \n",
- " 38.128090 | \n",
- " 14.551300 | \n",
- " 11 | \n",
- " 4 | \n",
- " 7 | \n",
- "
\n",
- " \n",
- " Qwen1.5-72B-Chat | \n",
- " 1549 | \n",
- " 26.498283 | \n",
- " 36.571754 | \n",
- " 10.073471 | \n",
- " 7 | \n",
- " 5 | \n",
- " 2 | \n",
- "
\n",
- " \n",
- " gpt4_0314 | \n",
- " 1371 | \n",
- " 22.073259 | \n",
- " 35.307061 | \n",
- " 13.233802 | \n",
- " 14 | \n",
- " 6 | \n",
- " 8 | \n",
- "
\n",
- " \n",
- " claude-3-sonnet-20240229 | \n",
- " 1420 | \n",
- " 25.556325 | \n",
- " 34.872474 | \n",
- " 9.316149 | \n",
- " 8 | \n",
- " 7 | \n",
- " 1 | \n",
- "
\n",
- " \n",
- " gpt4_0613_verbose | \n",
- " 1473 | \n",
- " 23.237360 | \n",
- " 33.821267 | \n",
- " 10.583907 | \n",
- " 12 | \n",
- " 8 | \n",
- " 4 | \n",
- "
\n",
- " \n",
- " claude-2.1_verbose | \n",
- " 1414 | \n",
- " 24.354071 | \n",
- " 30.291179 | \n",
- " 5.937108 | \n",
- " 10 | \n",
- " 9 | \n",
- " 1 | \n",
- "
\n",
- " \n",
- " gpt4_0613 | \n",
- " 1140 | \n",
- " 15.755038 | \n",
- " 30.183322 | \n",
- " 14.428284 | \n",
- " 28 | \n",
- " 10 | \n",
- " 18 | \n",
- "
\n",
- " \n",
- " Snorkel-Mistral-PairRM-DPO-best-of-16 | \n",
- " 2616 | \n",
- " 34.860133 | \n",
- " 29.974322 | \n",
- " -4.885811 | \n",
- " 2 | \n",
- " 11 | \n",
- " -9 | \n",
- "
\n",
- " \n",
- " pairrm-Yi-34B-Chat | \n",
- " 2195 | \n",
- " 31.241283 | \n",
- " 28.814841 | \n",
- " -2.426442 | \n",
- " 3 | \n",
- " 12 | \n",
- " -9 | \n",
- "
\n",
- " \n",
- " mistral-medium | \n",
- " 1500 | \n",
- " 21.855773 | \n",
- " 28.614337 | \n",
- " 6.758565 | \n",
- " 15 | \n",
- " 13 | \n",
- " 2 | \n",
- "
\n",
- " \n",
- " claude-2 | \n",
- " 1069 | \n",
- " 17.188240 | \n",
- " 28.155196 | \n",
- " 10.966956 | \n",
- " 23 | \n",
- " 14 | \n",
- " 9 | \n",
- "
\n",
- " \n",
- " claude | \n",
- " 1082 | \n",
- " 16.985344 | \n",
- " 27.289504 | \n",
- " 10.304161 | \n",
- " 24 | \n",
- " 15 | \n",
- " 9 | \n",
- "
\n",
- " \n",
- " Yi-34B-Chat | \n",
- " 2123 | \n",
- " 29.659947 | \n",
- " 27.190548 | \n",
- " -2.469399 | \n",
- " 5 | \n",
- " 16 | \n",
- " -11 | \n",
- "
\n",
- " \n",
- " Snorkel-Mistral-PairRM-DPO | \n",
- " 2736 | \n",
- " 30.220053 | \n",
- " 26.386425 | \n",
- " -3.833628 | \n",
- " 4 | \n",
- " 17 | \n",
- " -13 | \n",
- "
\n",
- " \n",
- " claude-instant-1.2 | \n",
- " 1112 | \n",
- " 16.127400 | \n",
- " 25.612259 | \n",
- " 9.484859 | \n",
- " 25 | \n",
- " 18 | \n",
- " 7 | \n",
- "
\n",
- " \n",
- " claude-2.1 | \n",
- " 1096 | \n",
- " 15.733507 | \n",
- " 25.251944 | \n",
- " 9.518437 | \n",
- " 29 | \n",
- " 19 | \n",
- " 10 | \n",
- "
\n",
- " \n",
- " xwinlm-70b-v0.1 | \n",
- " 1775 | \n",
- " 21.812957 | \n",
- " 24.649686 | \n",
- " 2.836729 | \n",
- " 16 | \n",
- " 20 | \n",
- " -4 | \n",
- "
\n",
- " \n",
- " gemini-pro | \n",
- " 1456 | \n",
- " 18.177645 | \n",
- " 24.427105 | \n",
- " 6.249460 | \n",
- " 21 | \n",
- " 21 | \n",
- " 0 | \n",
- "
\n",
- " \n",
- " Mixtral-8x7B-Instruct-v0.1 | \n",
- " 1465 | \n",
- " 18.255318 | \n",
- " 23.688483 | \n",
- " 5.433165 | \n",
- " 20 | \n",
- " 22 | \n",
- " -2 | \n",
- "
\n",
- " \n",
- " evo-v2-7b | \n",
- " 1754 | \n",
- " 20.834113 | \n",
- " 23.357706 | \n",
- " 2.523593 | \n",
- " 18 | \n",
- " 23 | \n",
- " -5 | \n",
- "
\n",
- " \n",
- " Mixtral-8x7B-Instruct-v0.1_verbose | \n",
- " 2083 | \n",
- " 24.614063 | \n",
- " 23.223121 | \n",
- " -1.390942 | \n",
- " 9 | \n",
- " 24 | \n",
- " -15 | \n",
- "
\n",
- " \n",
- " Mixtral-8x7B-Instruct-v0.1_concise | \n",
- " 910 | \n",
- " 13.744040 | \n",
- " 22.962609 | \n",
- " 9.218569 | \n",
- " 39 | \n",
- " 25 | \n",
- " 14 | \n",
- "
\n",
- " \n",
- " gpt-3.5-turbo-16k-0613 | \n",
- " 1328 | \n",
- " 14.132391 | \n",
- " 22.720189 | \n",
- " 8.587798 | \n",
- " 34 | \n",
- " 26 | \n",
- " 8 | \n",
- "
\n",
- " \n",
- " gpt-3.5-turbo-0613 | \n",
- " 1331 | \n",
- " 14.095799 | \n",
- " 22.352513 | \n",
- " 8.256714 | \n",
- " 35 | \n",
- " 27 | \n",
- " 8 | \n",
- "
\n",
- " \n",
- " gpt-3.5-turbo-1106_verbose | \n",
- " 1058 | \n",
- " 12.763170 | \n",
- " 22.000937 | \n",
- " 9.237767 | \n",
- " 43 | \n",
- " 28 | \n",
- " 15 | \n",
- "
\n",
- " \n",
- " gpt4_0613_concise | \n",
- " 627 | \n",
- " 9.400321 | \n",
- " 21.577991 | \n",
- " 12.177670 | \n",
- " 61 | \n",
- " 29 | \n",
- " 32 | \n",
- "
\n",
- " \n",
- " pairrm-tulu-2-70b | \n",
- " 1607 | \n",
- " 18.638963 | \n",
- " 21.428404 | \n",
- " 2.789441 | \n",
- " 19 | \n",
- " 30 | \n",
- " -11 | \n",
- "
\n",
- " \n",
- " tulu-2-dpo-70b | \n",
- " 1418 | \n",
- " 15.982854 | \n",
- " 21.238610 | \n",
- " 5.255756 | \n",
- " 27 | \n",
- " 31 | \n",
- " -4 | \n",
- "
\n",
- " \n",
- " Mistral-7B-ReMax-v0.1 | \n",
- " 1478 | \n",
- " 15.999331 | \n",
- " 20.551368 | \n",
- " 4.552036 | \n",
- " 26 | \n",
- " 32 | \n",
- " -6 | \n",
- "
\n",
- " \n",
- " gpt-3.5-turbo-1106 | \n",
- " 796 | \n",
- " 9.177965 | \n",
- " 19.300589 | \n",
- " 10.122624 | \n",
- " 64 | \n",
- " 33 | \n",
- " 31 | \n",
- "
\n",
- " \n",
- " LMCocktail-10.7B-v1 | \n",
- " 1203 | \n",
- " 13.153431 | \n",
- " 18.950710 | \n",
- " 5.797279 | \n",
- " 40 | \n",
- " 34 | \n",
- " 6 | \n",
- "
\n",
- " \n",
- " internlm2-chat-20b-ppo | \n",
- " 2373 | \n",
- " 21.749155 | \n",
- " 18.748739 | \n",
- " -3.000415 | \n",
- " 17 | \n",
- " 35 | \n",
- " -18 | \n",
- "
\n",
- " \n",
- " claude-2.1_concise | \n",
- " 573 | \n",
- " 9.227125 | \n",
- " 18.208458 | \n",
- " 8.981333 | \n",
- " 63 | \n",
- " 36 | \n",
- " 27 | \n",
- "
\n",
- " \n",
- " gpt-3.5-turbo-0301 | \n",
- " 827 | \n",
- " 9.622453 | \n",
- " 18.093242 | \n",
- " 8.470788 | \n",
- " 58 | \n",
- " 37 | \n",
- " 21 | \n",
- "
\n",
- " \n",
- " xwinlm-13b-v0.1 | \n",
- " 1894 | \n",
- " 17.427935 | \n",
- " 17.918938 | \n",
- " 0.491003 | \n",
- " 22 | \n",
- " 38 | \n",
- " -16 | \n",
- "
\n",
- " \n",
- " deepseek-llm-67b-chat | \n",
- " 1151 | \n",
- " 12.093422 | \n",
- " 17.843384 | \n",
- " 5.749962 | \n",
- " 46 | \n",
- " 39 | \n",
- " 7 | \n",
- "
\n",
- " \n",
- " gpt35_turbo_instruct | \n",
- " 1018 | \n",
- " 8.462447 | \n",
- " 17.721303 | \n",
- " 9.258856 | \n",
- " 68 | \n",
- " 40 | \n",
- " 28 | \n",
- "
\n",
- " \n",
- " wizardlm-70b | \n",
- " 1545 | \n",
- " 14.383896 | \n",
- " 17.575061 | \n",
- " 3.191165 | \n",
- " 32 | \n",
- " 41 | \n",
- " -9 | \n",
- "
\n",
- " \n",
- " vicuna-33b-v1.3 | \n",
- " 1479 | \n",
- " 12.705948 | \n",
- " 17.574575 | \n",
- " 4.868627 | \n",
- " 44 | \n",
- " 42 | \n",
- " 2 | \n",
- "
\n",
- " \n",
- " pairrm-tulu-2-13b | \n",
- " 1454 | \n",
- " 13.831901 | \n",
- " 17.405204 | \n",
- " 3.573303 | \n",
- " 38 | \n",
- " 43 | \n",
- " -5 | \n",
- "
\n",
- " \n",
- " Mistral-7B-Instruct-v0.2 | \n",
- " 1676 | \n",
- " 14.722773 | \n",
- " 17.111252 | \n",
- " 2.388479 | \n",
- " 31 | \n",
- " 44 | \n",
- " -13 | \n",
- "
\n",
- " \n",
- " evo-7b | \n",
- " 1774 | \n",
- " 15.577437 | \n",
- " 16.489386 | \n",
- " 0.911949 | \n",
- " 30 | \n",
- " 45 | \n",
- " -15 | \n",
- "
\n",
- " \n",
- " humpback-llama2-70b | \n",
- " 1107 | \n",
- " 10.121772 | \n",
- " 16.249164 | \n",
- " 6.127393 | \n",
- " 56 | \n",
- " 46 | \n",
- " 10 | \n",
- "
\n",
- " \n",
- " OpenHermes-2.5-Mistral-7B | \n",
- " 1107 | \n",
- " 10.340416 | \n",
- " 16.248578 | \n",
- " 5.908162 | \n",
- " 55 | \n",
- " 47 | \n",
- " 8 | \n",
- "
\n",
- " \n",
- " deita-7b-v1.0 | \n",
- " 1417 | \n",
- " 12.646639 | \n",
- " 16.059014 | \n",
- " 3.412374 | \n",
- " 45 | \n",
- " 48 | \n",
- " -3 | \n",
- "
\n",
- " \n",
- " jina-chat | \n",
- " 676 | \n",
- " 7.786130 | \n",
- " 15.866004 | \n",
- " 8.079874 | \n",
- " 74 | \n",
- " 49 | \n",
- " 25 | \n",
- "
\n",
- " \n",
- " gpt-3.5-turbo-1106_concise | \n",
- " 431 | \n",
- " 7.415865 | \n",
- " 15.769521 | \n",
- " 8.353656 | \n",
- " 82 | \n",
- " 50 | \n",
- " 32 | \n",
- "
\n",
- " \n",
- " causallm-14b | \n",
- " 1391 | \n",
- " 11.146161 | \n",
- " 15.720325 | \n",
- " 4.574164 | \n",
- " 51 | \n",
- " 51 | \n",
- " 0 | \n",
- "
\n",
- " \n",
- " pairrm-zephyr-7b-beta | \n",
- " 1487 | \n",
- " 12.841278 | \n",
- " 15.529867 | \n",
- " 2.688589 | \n",
- " 42 | \n",
- " 52 | \n",
- " -10 | \n",
- "
\n",
- " \n",
- " Starling-LM-7B-alpha | \n",
- " 1895 | \n",
- " 14.245924 | \n",
- " 14.690471 | \n",
- " 0.444548 | \n",
- " 33 | \n",
- " 53 | \n",
- " -20 | \n",
- "
\n",
- " \n",
- " llama-2-70b-chat-hf | \n",
- " 1790 | \n",
- " 13.888258 | \n",
- " 14.677319 | \n",
- " 0.789061 | \n",
- " 36 | \n",
- " 54 | \n",
- " -18 | \n",
- "
\n",
- " \n",
- " openchat-v3.1-13b | \n",
- " 1484 | \n",
- " 11.082230 | \n",
- " 14.503388 | \n",
- " 3.421157 | \n",
- " 52 | \n",
- " 55 | \n",
- " -3 | \n",
- "
\n",
- " \n",
- " wizardlm-13b-v1.2 | \n",
- " 1635 | \n",
- " 12.027480 | \n",
- " 14.462591 | \n",
- " 2.435110 | \n",
- " 47 | \n",
- " 56 | \n",
- " -9 | \n",
- "
\n",
- " \n",
- " ultralm-13b-v2.0-best-of-16 | \n",
- " 1720 | \n",
- " 13.853373 | \n",
- " 14.198988 | \n",
- " 0.345614 | \n",
- " 37 | \n",
- " 57 | \n",
- " -20 | \n",
- "
\n",
- " \n",
- " wizardlm-13b-v1.1 | \n",
- " 1525 | \n",
- " 11.233910 | \n",
- " 13.915721 | \n",
- " 2.681811 | \n",
- " 50 | \n",
- " 58 | \n",
- " -8 | \n",
- "
\n",
- " \n",
- " zephyr-7b-beta | \n",
- " 1444 | \n",
- " 10.992886 | \n",
- " 13.203198 | \n",
- " 2.210313 | \n",
- " 53 | \n",
- " 59 | \n",
- " -6 | \n",
- "
\n",
- " \n",
- " dolphin-2.2.1-mistral-7b | \n",
- " 1130 | \n",
- " 9.039800 | \n",
- " 13.121478 | \n",
- " 4.081678 | \n",
- " 66 | \n",
- " 60 | \n",
- " 6 | \n",
- "
\n",
- " \n",
- " humpback-llama-65b | \n",
- " 1232 | \n",
- " 9.425139 | \n",
- " 12.799860 | \n",
- " 3.374721 | \n",
- " 60 | \n",
- " 61 | \n",
- " -1 | \n",
- "
\n",
- " \n",
- " openbuddy-llama2-70b-v10.1 | \n",
- " 1077 | \n",
- " 8.096422 | \n",
- " 12.572173 | \n",
- " 4.475751 | \n",
- " 72 | \n",
- " 62 | \n",
- " 10 | \n",
- "
\n",
- " \n",
- " openbuddy-llama-65b-v8 | \n",
- " 1162 | \n",
- " 8.770650 | \n",
- " 12.469356 | \n",
- " 3.698706 | \n",
- " 67 | \n",
- " 63 | \n",
- " 4 | \n",
- "
\n",
- " \n",
- " Qwen-14B-Chat | \n",
- " 1013 | \n",
- " 7.502333 | \n",
- " 12.378742 | \n",
- " 4.876408 | \n",
- " 79 | \n",
- " 64 | \n",
- " 15 | \n",
- "
\n",
- " \n",
- " gpt4_gamed | \n",
- " 68 | \n",
- " 3.738337 | \n",
- " 12.188764 | \n",
- " 8.450427 | \n",
- " 110 | \n",
- " 65 | \n",
- " 45 | \n",
- "
\n",
- " \n",
- " cut-13b | \n",
- " 1637 | \n",
- " 10.779089 | \n",
- " 12.154782 | \n",
- " 1.375693 | \n",
- " 54 | \n",
- " 66 | \n",
- " -12 | \n",
- "
\n",
- " \n",
- " openchat-v2-w-13b | \n",
- " 1566 | \n",
- " 9.615344 | \n",
- " 12.030428 | \n",
- " 2.415084 | \n",
- " 59 | \n",
- " 67 | \n",
- " -8 | \n",
- "
\n",
- " \n",
- " tulu-2-dpo-13b | \n",
- " 1614 | \n",
- " 10.119788 | \n",
- " 11.554479 | \n",
- " 1.434691 | \n",
- " 57 | \n",
- " 68 | \n",
- " -11 | \n",
- "
\n",
- " \n",
- " claude2-alpaca-13b | \n",
- " 1127 | \n",
- " 7.437351 | \n",
- " 11.498898 | \n",
- " 4.061547 | \n",
- " 81 | \n",
- " 69 | \n",
- " 12 | \n",
- "
\n",
- " \n",
- " minotaur-13b | \n",
- " 881 | \n",
- " 5.738964 | \n",
- " 11.458819 | \n",
- " 5.719855 | \n",
- " 98 | \n",
- " 70 | \n",
- " 28 | \n",
- "
\n",
- " \n",
- " airoboros-65b | \n",
- " 1512 | \n",
- " 9.388950 | \n",
- " 11.007642 | \n",
- " 1.618692 | \n",
- " 62 | \n",
- " 71 | \n",
- " -9 | \n",
- "
\n",
- " \n",
- " cohere | \n",
- " 1983 | \n",
- " 12.901455 | \n",
- " 10.893021 | \n",
- " -2.008434 | \n",
- " 41 | \n",
- " 72 | \n",
- " -31 | \n",
- "
\n",
- " \n",
- " vicuna-13b-v1.3 | \n",
- " 1132 | \n",
- " 7.137240 | \n",
- " 10.843165 | \n",
- " 3.705925 | \n",
- " 85 | \n",
- " 73 | \n",
- " 12 | \n",
- "
\n",
- " \n",
- " xwinlm-7b-v0.1 | \n",
- " 1894 | \n",
- " 11.245652 | \n",
- " 10.812206 | \n",
- " -0.433446 | \n",
- " 49 | \n",
- " 74 | \n",
- " -25 | \n",
- "
\n",
- " \n",
- " airoboros-33b | \n",
- " 1514 | \n",
- " 9.053160 | \n",
- " 10.719003 | \n",
- " 1.665842 | \n",
- " 65 | \n",
- " 75 | \n",
- " -10 | \n",
- "
\n",
- " \n",
- " platolm-7b | \n",
- " 1344 | \n",
- " 6.320828 | \n",
- " 10.532885 | \n",
- " 4.212057 | \n",
- " 91 | \n",
- " 76 | \n",
- " 15 | \n",
- "
\n",
- " \n",
- " vicuna-13b-v1.5 | \n",
- " 1061 | \n",
- " 6.722122 | \n",
- " 10.484438 | \n",
- " 3.762316 | \n",
- " 88 | \n",
- " 77 | \n",
- " 11 | \n",
- "
\n",
- " \n",
- " gemma-7b-it | \n",
- " 1115 | \n",
- " 6.937294 | \n",
- " 10.425760 | \n",
- " 3.488466 | \n",
- " 86 | \n",
- " 78 | \n",
- " 8 | \n",
- "
\n",
- " \n",
- " openchat-v2-13b | \n",
- " 1564 | \n",
- " 8.435076 | \n",
- " 10.399607 | \n",
- " 1.964532 | \n",
- " 69 | \n",
- " 79 | \n",
- " -10 | \n",
- "
\n",
- " \n",
- " zephyr-7b-alpha | \n",
- " 1302 | \n",
- " 8.352664 | \n",
- " 10.289761 | \n",
- " 1.937097 | \n",
- " 70 | \n",
- " 80 | \n",
- " -10 | \n",
- "
\n",
- " \n",
- " openbuddy-llama-30b-v7.1 | \n",
- " 968 | \n",
- " 6.130015 | \n",
- " 10.214495 | \n",
- " 4.084480 | \n",
- " 94 | \n",
- " 81 | \n",
- " 13 | \n",
- "
\n",
- " \n",
- " ultralm-13b-best-of-16 | \n",
- " 1980 | \n",
- " 11.307315 | \n",
- " 9.876089 | \n",
- " -1.431226 | \n",
- " 48 | \n",
- " 82 | \n",
- " -34 | \n",
- "
\n",
- " \n",
- " oasst-sft-llama-33b | \n",
- " 748 | \n",
- " 4.770391 | \n",
- " 9.866412 | \n",
- " 5.096021 | \n",
- " 104 | \n",
- " 83 | \n",
- " 21 | \n",
- "
\n",
- " \n",
- " wizardlm-13b | \n",
- " 985 | \n",
- " 5.878153 | \n",
- " 9.828151 | \n",
- " 3.949998 | \n",
- " 96 | \n",
- " 84 | \n",
- " 12 | \n",
- "
\n",
- " \n",
- " nous-hermes-13b | \n",
- " 844 | \n",
- " 5.411879 | \n",
- " 9.717863 | \n",
- " 4.305984 | \n",
- " 99 | \n",
- " 85 | \n",
- " 14 | \n",
- "
\n",
- " \n",
- " vicuna-13b | \n",
- " 1037 | \n",
- " 5.831103 | \n",
- " 9.222060 | \n",
- " 3.390957 | \n",
- " 97 | \n",
- " 86 | \n",
- " 11 | \n",
- "
\n",
- " \n",
- " tulu-2-dpo-7b | \n",
- " 1663 | \n",
- " 8.197515 | \n",
- " 9.200266 | \n",
- " 1.002750 | \n",
- " 71 | \n",
- " 87 | \n",
- " -16 | \n",
- "
\n",
- " \n",
- " openbuddy-llama2-13b-v11.1 | \n",
- " 1057 | \n",
- " 6.174716 | \n",
- " 9.159090 | \n",
- " 2.984373 | \n",
- " 93 | \n",
- " 88 | \n",
- " 5 | \n",
- "
\n",
- " \n",
- " ultralm-13b-v2.0 | \n",
- " 1399 | \n",
- " 7.504623 | \n",
- " 9.129018 | \n",
- " 1.624396 | \n",
- " 78 | \n",
- " 89 | \n",
- " -11 | \n",
- "
\n",
- " \n",
- " text_davinci_001 | \n",
- " 296 | \n",
- " 2.764005 | \n",
- " 9.020601 | \n",
- " 6.256596 | \n",
- " 120 | \n",
- " 90 | \n",
- " 30 | \n",
- "
\n",
- " \n",
- " openbuddy-falcon-40b-v9 | \n",
- " 1089 | \n",
- " 5.955743 | \n",
- " 8.988936 | \n",
- " 3.033194 | \n",
- " 95 | \n",
- " 91 | \n",
- " 4 | \n",
- "
\n",
- " \n",
- " openchat-13b | \n",
- " 1632 | \n",
- " 8.022386 | \n",
- " 8.806053 | \n",
- " 0.783667 | \n",
- " 73 | \n",
- " 92 | \n",
- " -19 | \n",
- "
\n",
- " \n",
- " llama-2-13b-chat-hf | \n",
- " 1513 | \n",
- " 7.702310 | \n",
- " 8.436015 | \n",
- " 0.733705 | \n",
- " 76 | \n",
- " 93 | \n",
- " -17 | \n",
- "
\n",
- " \n",
- " guanaco-65b | \n",
- " 1249 | \n",
- " 6.858495 | \n",
- " 8.252917 | \n",
- " 1.394422 | \n",
- " 87 | \n",
- " 94 | \n",
- " -7 | \n",
- "
\n",
- " \n",
- " opencoderplus-15b | \n",
- " 1628 | \n",
- " 7.406222 | \n",
- " 8.152410 | \n",
- " 0.746188 | \n",
- " 83 | \n",
- " 95 | \n",
- " -12 | \n",
- "
\n",
- " \n",
- " oasst-rlhf-llama-33b | \n",
- " 1079 | \n",
- " 6.296435 | \n",
- " 7.970922 | \n",
- " 1.674487 | \n",
- " 92 | \n",
- " 96 | \n",
- " -4 | \n",
- "
\n",
- " \n",
- " openchat8192-13b | \n",
- " 1664 | \n",
- " 7.472767 | \n",
- " 7.897062 | \n",
- " 0.424295 | \n",
- " 80 | \n",
- " 97 | \n",
- " -17 | \n",
- "
\n",
- " \n",
- " phi-2-dpo | \n",
- " 1687 | \n",
- " 7.757096 | \n",
- " 7.770895 | \n",
- " 0.013799 | \n",
- " 75 | \n",
- " 98 | \n",
- " -23 | \n",
- "
\n",
- " \n",
- " minichat-1.5-3b | \n",
- " 1545 | \n",
- " 6.553443 | \n",
- " 7.701633 | \n",
- " 1.148190 | \n",
- " 90 | \n",
- " 99 | \n",
- " -9 | \n",
- "
\n",
- " \n",
- " vicuna-7b-v1.5 | \n",
- " 1083 | \n",
- " 4.797494 | \n",
- " 7.616893 | \n",
- " 2.819399 | \n",
- " 103 | \n",
- " 100 | \n",
- " 3 | \n",
- "
\n",
- " \n",
- " llama-2-chat-7b-evol70k-neft | \n",
- " 1612 | \n",
- " 7.602384 | \n",
- " 7.533053 | \n",
- " -0.069331 | \n",
- " 77 | \n",
- " 101 | \n",
- " -24 | \n",
- "
\n",
- " \n",
- " recycled-wizardlm-7b-v2.0 | \n",
- " 1583 | \n",
- " 7.337129 | \n",
- " 7.521610 | \n",
- " 0.184481 | \n",
- " 84 | \n",
- " 102 | \n",
- " -18 | \n",
- "
\n",
- " \n",
- " vicuna-7b-v1.3 | \n",
- " 1110 | \n",
- " 4.642512 | \n",
- " 7.156461 | \n",
- " 2.513949 | \n",
- " 105 | \n",
- " 103 | \n",
- " 2 | \n",
- "
\n",
- " \n",
- " alpaca-farm-ppo-sim-gpt4-20k | \n",
- " 511 | \n",
- " 3.450342 | \n",
- " 7.121808 | \n",
- " 3.671466 | \n",
- " 113 | \n",
- " 104 | \n",
- " 9 | \n",
- "
\n",
- " \n",
- " ultralm-13b | \n",
- " 1087 | \n",
- " 5.074590 | \n",
- " 7.108191 | \n",
- " 2.033601 | \n",
- " 100 | \n",
- " 105 | \n",
- " -5 | \n",
- "
\n",
- " \n",
- " baize-v2-13b | \n",
- " 930 | \n",
- " 4.590545 | \n",
- " 7.012247 | \n",
- " 2.421702 | \n",
- " 106 | \n",
- " 106 | \n",
- " 0 | \n",
- "
\n",
- " \n",
- " recycled-wizardlm-7b-v1.0 | \n",
- " 1494 | \n",
- " 6.632750 | \n",
- " 6.901477 | \n",
- " 0.268727 | \n",
- " 89 | \n",
- " 107 | \n",
- " -18 | \n",
- "
\n",
- " \n",
- " alpaca-7b_verbose | \n",
- " 537 | \n",
- " 2.933102 | \n",
- " 6.818464 | \n",
- " 3.885363 | \n",
- " 118 | \n",
- " 108 | \n",
- " 10 | \n",
- "
\n",
- " \n",
- " alpaca-farm-ppo-human | \n",
- " 803 | \n",
- " 4.100427 | \n",
- " 6.418603 | \n",
- " 2.318176 | \n",
- " 108 | \n",
- " 109 | \n",
- " -1 | \n",
- "
\n",
- " \n",
- " vicuna-7b | \n",
- " 1044 | \n",
- " 4.162611 | \n",
- " 6.277218 | \n",
- " 2.114607 | \n",
- " 107 | \n",
- " 110 | \n",
- " -3 | \n",
- "
\n",
- " \n",
- " alpaca-7b | \n",
- " 396 | \n",
- " 2.591451 | \n",
- " 5.875487 | \n",
- " 3.284037 | \n",
- " 122 | \n",
- " 111 | \n",
- " 11 | \n",
- "
\n",
- " \n",
- " phi-2-sft | \n",
- " 1068 | \n",
- " 3.977568 | \n",
- " 5.853788 | \n",
- " 1.876220 | \n",
- " 109 | \n",
- " 112 | \n",
- " -3 | \n",
- "
\n",
- " \n",
- " minichat-3b | \n",
- " 868 | \n",
- " 3.007151 | \n",
- " 5.729333 | \n",
- " 2.722182 | \n",
- " 117 | \n",
- " 113 | \n",
- " 4 | \n",
- "
\n",
- " \n",
- " guanaco-33b | \n",
- " 1311 | \n",
- " 5.002494 | \n",
- " 5.690019 | \n",
- " 0.687525 | \n",
- " 101 | \n",
- " 114 | \n",
- " -13 | \n",
- "
\n",
- " \n",
- " falcon-40b-instruct | \n",
- " 662 | \n",
- " 3.342919 | \n",
- " 5.607533 | \n",
- " 2.264614 | \n",
- " 116 | \n",
- " 115 | \n",
- " 1 | \n",
- "
\n",
- " \n",
- " gemma-2b-it | \n",
- " 1041 | \n",
- " 3.401971 | \n",
- " 5.596482 | \n",
- " 2.194511 | \n",
- " 115 | \n",
- " 116 | \n",
- " -1 | \n",
- "
\n",
- " \n",
- " llama-2-7b-chat-hf | \n",
- " 1479 | \n",
- " 4.961340 | \n",
- " 5.354821 | \n",
- " 0.393482 | \n",
- " 102 | \n",
- " 117 | \n",
- " -15 | \n",
- "
\n",
- " \n",
- " openbuddy-falcon-7b-v6 | \n",
- " 1152 | \n",
- " 3.521174 | \n",
- " 4.826124 | \n",
- " 1.304950 | \n",
- " 111 | \n",
- " 118 | \n",
- " -7 | \n",
- "
\n",
- " \n",
- " alpaca-7b_concise | \n",
- " 351 | \n",
- " 1.991176 | \n",
- " 4.463108 | \n",
- " 2.471931 | \n",
- " 127 | \n",
- " 119 | \n",
- " 8 | \n",
- "
\n",
- " \n",
- " phi-2 | \n",
- " 626 | \n",
- " 2.350210 | \n",
- " 4.395548 | \n",
- " 2.045338 | \n",
- " 124 | \n",
- " 120 | \n",
- " 4 | \n",
- "
\n",
- " \n",
- " baize-v2-7b | \n",
- " 1127 | \n",
- " 3.404815 | \n",
- " 4.382565 | \n",
- " 0.977750 | \n",
- " 114 | \n",
- " 121 | \n",
- " -7 | \n",
- "
\n",
- " \n",
- " chatglm2-6b | \n",
- " 1027 | \n",
- " 2.762185 | \n",
- " 4.359283 | \n",
- " 1.597098 | \n",
- " 121 | \n",
- " 122 | \n",
- " -1 | \n",
- "
\n",
- " \n",
- " pythia-12b-mix-sft | \n",
- " 913 | \n",
- " 2.578090 | \n",
- " 4.221362 | \n",
- " 1.643272 | \n",
- " 123 | \n",
- " 123 | \n",
- " 0 | \n",
- "
\n",
- " \n",
- " falcon-7b-instruct | \n",
- " 478 | \n",
- " 2.146618 | \n",
- " 4.036938 | \n",
- " 1.890320 | \n",
- " 125 | \n",
- " 124 | \n",
- " 1 | \n",
- "
\n",
- " \n",
- " oasst-sft-pythia-12b | \n",
- " 726 | \n",
- " 1.790114 | \n",
- " 3.270102 | \n",
- " 1.479988 | \n",
- " 128 | \n",
- " 125 | \n",
- " 3 | \n",
- "
\n",
- " \n",
- " guanaco-13b | \n",
- " 1774 | \n",
- " 3.469597 | \n",
- " 3.003787 | \n",
- " -0.465810 | \n",
- " 112 | \n",
- " 126 | \n",
- " -14 | \n",
- "
\n",
- " \n",
- " guanaco-7b | \n",
- " 1364 | \n",
- " 2.880002 | \n",
- " 2.871117 | \n",
- " -0.008885 | \n",
- " 119 | \n",
- " 127 | \n",
- " -8 | \n",
- "
\n",
- " \n",
- " baichuan-13b-chat | \n",
- " 1727 | \n",
- " 1.992146 | \n",
- " 2.062170 | \n",
- " 0.070025 | \n",
- " 126 | \n",
- " 128 | \n",
- " -2 | \n",
+ " gpt4_1106_preview_verbose | \n",
+ " 2402 | \n",
+ " 64.303601 | \n",
+ " 51.575008 | \n",
+ " -12.728593 | \n",
+ " 0 | \n",
+ " 0 | \n",
+ " 0 | \n",
+ "
\n",
+ " \n",
+ " gpt4_1106_preview | \n",
+ " 2049 | \n",
+ " 50.000000 | \n",
+ " 50.000000 | \n",
+ " 0.000000 | \n",
+ " 1 | \n",
+ " 1 | \n",
+ " 0 | \n",
+ "
\n",
+ " \n",
+ " gpt4_1106_preview_concise | \n",
+ " 1136 | \n",
+ " 22.920194 | \n",
+ " 41.896602 | \n",
+ " 18.976407 | \n",
+ " 14 | \n",
+ " 2 | \n",
+ " 12 | \n",
+ "
\n",
+ " \n",
+ " claude-3-opus-20240229 | \n",
+ " 1388 | \n",
+ " 29.041764 | \n",
+ " 40.391776 | \n",
+ " 11.350012 | \n",
+ " 7 | \n",
+ " 3 | \n",
+ " 4 | \n",
+ "
\n",
+ " \n",
+ " gpt4 | \n",
+ " 1365 | \n",
+ " 23.576789 | \n",
+ " 38.128090 | \n",
+ " 14.551300 | \n",
+ " 12 | \n",
+ " 4 | \n",
+ " 8 | \n",
+ "
\n",
+ " \n",
+ " Qwen1.5-72B-Chat | \n",
+ " 1549 | \n",
+ " 26.498283 | \n",
+ " 36.571754 | \n",
+ " 10.073471 | \n",
+ " 8 | \n",
+ " 5 | \n",
+ " 3 | \n",
+ "
\n",
+ " \n",
+ " gpt4_0314 | \n",
+ " 1371 | \n",
+ " 22.073259 | \n",
+ " 35.307061 | \n",
+ " 13.233802 | \n",
+ " 15 | \n",
+ " 6 | \n",
+ " 9 | \n",
+ "
\n",
+ " \n",
+ " claude-3-sonnet-20240229 | \n",
+ " 1420 | \n",
+ " 25.556325 | \n",
+ " 34.872474 | \n",
+ " 9.316149 | \n",
+ " 9 | \n",
+ " 7 | \n",
+ " 2 | \n",
+ "
\n",
+ " \n",
+ " gpt4_0613_verbose | \n",
+ " 1473 | \n",
+ " 23.237360 | \n",
+ " 33.821267 | \n",
+ " 10.583907 | \n",
+ " 13 | \n",
+ " 8 | \n",
+ " 5 | \n",
+ "
\n",
+ " \n",
+ " mistral-large-2402 | \n",
+ " 1362 | \n",
+ " 21.438776 | \n",
+ " 32.652080 | \n",
+ " 11.213304 | \n",
+ " 19 | \n",
+ " 9 | \n",
+ " 10 | \n",
+ "
\n",
+ " \n",
+ " claude-2.1_verbose | \n",
+ " 1414 | \n",
+ " 24.354071 | \n",
+ " 30.291179 | \n",
+ " 5.937108 | \n",
+ " 11 | \n",
+ " 10 | \n",
+ " 1 | \n",
+ "
\n",
+ " \n",
+ " gpt4_0613 | \n",
+ " 1140 | \n",
+ " 15.755038 | \n",
+ " 30.183322 | \n",
+ " 14.428284 | \n",
+ " 30 | \n",
+ " 11 | \n",
+ " 19 | \n",
+ "
\n",
+ " \n",
+ " Snorkel-Mistral-PairRM-DPO-best-of-16 | \n",
+ " 2616 | \n",
+ " 34.860133 | \n",
+ " 29.974322 | \n",
+ " -4.885811 | \n",
+ " 2 | \n",
+ " 12 | \n",
+ " -10 | \n",
+ "
\n",
+ " \n",
+ " Contextual-KTO-Mistral-PairRM | \n",
+ " 2521 | \n",
+ " 33.227355 | \n",
+ " 29.705809 | \n",
+ " -3.521546 | \n",
+ " 3 | \n",
+ " 13 | \n",
+ " -10 | \n",
+ "
\n",
+ " \n",
+ " pairrm-Yi-34B-Chat | \n",
+ " 2195 | \n",
+ " 31.241283 | \n",
+ " 28.814841 | \n",
+ " -2.426442 | \n",
+ " 4 | \n",
+ " 14 | \n",
+ " -10 | \n",
+ "
\n",
+ " \n",
+ " mistral-medium | \n",
+ " 1500 | \n",
+ " 21.855773 | \n",
+ " 28.614337 | \n",
+ " 6.758565 | \n",
+ " 16 | \n",
+ " 15 | \n",
+ " 1 | \n",
+ "
\n",
+ " \n",
+ " claude-2 | \n",
+ " 1069 | \n",
+ " 17.188240 | \n",
+ " 28.155196 | \n",
+ " 10.966956 | \n",
+ " 25 | \n",
+ " 16 | \n",
+ " 9 | \n",
+ "
\n",
+ " \n",
+ " claude | \n",
+ " 1082 | \n",
+ " 16.985344 | \n",
+ " 27.289504 | \n",
+ " 10.304161 | \n",
+ " 26 | \n",
+ " 17 | \n",
+ " 9 | \n",
+ "
\n",
+ " \n",
+ " Yi-34B-Chat | \n",
+ " 2123 | \n",
+ " 29.659947 | \n",
+ " 27.190548 | \n",
+ " -2.469399 | \n",
+ " 6 | \n",
+ " 18 | \n",
+ " -12 | \n",
+ "
\n",
+ " \n",
+ " Snorkel-Mistral-PairRM-DPO | \n",
+ " 2736 | \n",
+ " 30.220053 | \n",
+ " 26.386425 | \n",
+ " -3.833628 | \n",
+ " 5 | \n",
+ " 19 | \n",
+ " -14 | \n",
+ "
\n",
+ " \n",
+ " claude-instant-1.2 | \n",
+ " 1112 | \n",
+ " 16.127400 | \n",
+ " 25.612259 | \n",
+ " 9.484859 | \n",
+ " 27 | \n",
+ " 20 | \n",
+ " 7 | \n",
+ "
\n",
+ " \n",
+ " claude-2.1 | \n",
+ " 1096 | \n",
+ " 15.733507 | \n",
+ " 25.251944 | \n",
+ " 9.518437 | \n",
+ " 31 | \n",
+ " 21 | \n",
+ " 10 | \n",
+ "
\n",
+ " \n",
+ " xwinlm-70b-v0.1 | \n",
+ " 1775 | \n",
+ " 21.812957 | \n",
+ " 24.649686 | \n",
+ " 2.836729 | \n",
+ " 17 | \n",
+ " 22 | \n",
+ " -5 | \n",
+ "
\n",
+ " \n",
+ " gemini-pro | \n",
+ " 1456 | \n",
+ " 18.177645 | \n",
+ " 24.427105 | \n",
+ " 6.249460 | \n",
+ " 23 | \n",
+ " 23 | \n",
+ " 0 | \n",
+ "
\n",
+ " \n",
+ " Mixtral-8x7B-Instruct-v0.1 | \n",
+ " 1465 | \n",
+ " 18.255318 | \n",
+ " 23.688483 | \n",
+ " 5.433165 | \n",
+ " 22 | \n",
+ " 24 | \n",
+ " -2 | \n",
+ "
\n",
+ " \n",
+ " evo-v2-7b | \n",
+ " 1754 | \n",
+ " 20.834113 | \n",
+ " 23.357706 | \n",
+ " 2.523593 | \n",
+ " 20 | \n",
+ " 25 | \n",
+ " -5 | \n",
+ "
\n",
+ " \n",
+ " Mixtral-8x7B-Instruct-v0.1_verbose | \n",
+ " 2083 | \n",
+ " 24.614063 | \n",
+ " 23.223121 | \n",
+ " -1.390942 | \n",
+ " 10 | \n",
+ " 26 | \n",
+ " -16 | \n",
+ "
\n",
+ " \n",
+ " Mixtral-8x7B-Instruct-v0.1_concise | \n",
+ " 910 | \n",
+ " 13.744040 | \n",
+ " 22.962609 | \n",
+ " 9.218569 | \n",
+ " 41 | \n",
+ " 27 | \n",
+ " 14 | \n",
+ "
\n",
+ " \n",
+ " gpt-3.5-turbo-16k-0613 | \n",
+ " 1328 | \n",
+ " 14.132391 | \n",
+ " 22.720189 | \n",
+ " 8.587799 | \n",
+ " 36 | \n",
+ " 28 | \n",
+ " 8 | \n",
+ "
\n",
+ " \n",
+ " gpt-3.5-turbo-0613 | \n",
+ " 1331 | \n",
+ " 14.095799 | \n",
+ " 22.352513 | \n",
+ " 8.256714 | \n",
+ " 37 | \n",
+ " 29 | \n",
+ " 8 | \n",
+ "
\n",
+ " \n",
+ " gpt-3.5-turbo-1106_verbose | \n",
+ " 1058 | \n",
+ " 12.763170 | \n",
+ " 22.000937 | \n",
+ " 9.237767 | \n",
+ " 45 | \n",
+ " 30 | \n",
+ " 15 | \n",
+ "
\n",
+ " \n",
+ " gpt4_0613_concise | \n",
+ " 627 | \n",
+ " 9.400321 | \n",
+ " 21.577991 | \n",
+ " 12.177670 | \n",
+ " 63 | \n",
+ " 31 | \n",
+ " 32 | \n",
+ "
\n",
+ " \n",
+ " pairrm-tulu-2-70b | \n",
+ " 1607 | \n",
+ " 18.638963 | \n",
+ " 21.428404 | \n",
+ " 2.789441 | \n",
+ " 21 | \n",
+ " 32 | \n",
+ " -11 | \n",
+ "
\n",
+ " \n",
+ " tulu-2-dpo-70b | \n",
+ " 1418 | \n",
+ " 15.982854 | \n",
+ " 21.238610 | \n",
+ " 5.255756 | \n",
+ " 29 | \n",
+ " 33 | \n",
+ " -4 | \n",
+ "
\n",
+ " \n",
+ " Mistral-7B-ReMax-v0.1 | \n",
+ " 1478 | \n",
+ " 15.999331 | \n",
+ " 20.551368 | \n",
+ " 4.552036 | \n",
+ " 28 | \n",
+ " 34 | \n",
+ " -6 | \n",
+ "
\n",
+ " \n",
+ " gpt-3.5-turbo-1106 | \n",
+ " 796 | \n",
+ " 9.177965 | \n",
+ " 19.300589 | \n",
+ " 10.122625 | \n",
+ " 66 | \n",
+ " 35 | \n",
+ " 31 | \n",
+ "
\n",
+ " \n",
+ " LMCocktail-10.7B-v1 | \n",
+ " 1203 | \n",
+ " 13.153431 | \n",
+ " 18.950710 | \n",
+ " 5.797279 | \n",
+ " 42 | \n",
+ " 36 | \n",
+ " 6 | \n",
+ "
\n",
+ " \n",
+ " internlm2-chat-20b-ppo | \n",
+ " 2373 | \n",
+ " 21.749155 | \n",
+ " 18.748740 | \n",
+ " -3.000415 | \n",
+ " 18 | \n",
+ " 37 | \n",
+ " -19 | \n",
+ "
\n",
+ " \n",
+ " claude-2.1_concise | \n",
+ " 573 | \n",
+ " 9.227125 | \n",
+ " 18.208458 | \n",
+ " 8.981333 | \n",
+ " 65 | \n",
+ " 38 | \n",
+ " 27 | \n",
+ "
\n",
+ " \n",
+ " gpt-3.5-turbo-0301 | \n",
+ " 827 | \n",
+ " 9.622453 | \n",
+ " 18.093242 | \n",
+ " 8.470788 | \n",
+ " 60 | \n",
+ " 39 | \n",
+ " 21 | \n",
+ "
\n",
+ " \n",
+ " xwinlm-13b-v0.1 | \n",
+ " 1894 | \n",
+ " 17.427935 | \n",
+ " 17.918938 | \n",
+ " 0.491003 | \n",
+ " 24 | \n",
+ " 40 | \n",
+ " -16 | \n",
+ "
\n",
+ " \n",
+ " deepseek-llm-67b-chat | \n",
+ " 1151 | \n",
+ " 12.093422 | \n",
+ " 17.843384 | \n",
+ " 5.749962 | \n",
+ " 48 | \n",
+ " 41 | \n",
+ " 7 | \n",
+ "
\n",
+ " \n",
+ " gpt35_turbo_instruct | \n",
+ " 1018 | \n",
+ " 8.462447 | \n",
+ " 17.721303 | \n",
+ " 9.258856 | \n",
+ " 70 | \n",
+ " 42 | \n",
+ " 28 | \n",
+ "
\n",
+ " \n",
+ " wizardlm-70b | \n",
+ " 1545 | \n",
+ " 14.383896 | \n",
+ " 17.575061 | \n",
+ " 3.191165 | \n",
+ " 34 | \n",
+ " 43 | \n",
+ " -9 | \n",
+ "
\n",
+ " \n",
+ " vicuna-33b-v1.3 | \n",
+ " 1479 | \n",
+ " 12.705948 | \n",
+ " 17.574575 | \n",
+ " 4.868627 | \n",
+ " 46 | \n",
+ " 44 | \n",
+ " 2 | \n",
+ "
\n",
+ " \n",
+ " pairrm-tulu-2-13b | \n",
+ " 1454 | \n",
+ " 13.831901 | \n",
+ " 17.405204 | \n",
+ " 3.573303 | \n",
+ " 40 | \n",
+ " 45 | \n",
+ " -5 | \n",
+ "
\n",
+ " \n",
+ " Mistral-7B-Instruct-v0.2 | \n",
+ " 1676 | \n",
+ " 14.722773 | \n",
+ " 17.111252 | \n",
+ " 2.388479 | \n",
+ " 33 | \n",
+ " 46 | \n",
+ " -13 | \n",
+ "
\n",
+ " \n",
+ " evo-7b | \n",
+ " 1774 | \n",
+ " 15.577437 | \n",
+ " 16.489386 | \n",
+ " 0.911949 | \n",
+ " 32 | \n",
+ " 47 | \n",
+ " -15 | \n",
+ "
\n",
+ " \n",
+ " humpback-llama2-70b | \n",
+ " 1107 | \n",
+ " 10.121772 | \n",
+ " 16.249164 | \n",
+ " 6.127393 | \n",
+ " 58 | \n",
+ " 48 | \n",
+ " 10 | \n",
+ "
\n",
+ " \n",
+ " OpenHermes-2.5-Mistral-7B | \n",
+ " 1107 | \n",
+ " 10.340416 | \n",
+ " 16.248578 | \n",
+ " 5.908162 | \n",
+ " 57 | \n",
+ " 49 | \n",
+ " 8 | \n",
+ "
\n",
+ " \n",
+ " deita-7b-v1.0 | \n",
+ " 1417 | \n",
+ " 12.646639 | \n",
+ " 16.059014 | \n",
+ " 3.412374 | \n",
+ " 47 | \n",
+ " 50 | \n",
+ " -3 | \n",
+ "
\n",
+ " \n",
+ " jina-chat | \n",
+ " 676 | \n",
+ " 7.786130 | \n",
+ " 15.866004 | \n",
+ " 8.079874 | \n",
+ " 76 | \n",
+ " 51 | \n",
+ " 25 | \n",
+ "
\n",
+ " \n",
+ " gpt-3.5-turbo-1106_concise | \n",
+ " 431 | \n",
+ " 7.415865 | \n",
+ " 15.769521 | \n",
+ " 8.353656 | \n",
+ " 84 | \n",
+ " 52 | \n",
+ " 32 | \n",
+ "
\n",
+ " \n",
+ " causallm-14b | \n",
+ " 1391 | \n",
+ " 11.146161 | \n",
+ " 15.720325 | \n",
+ " 4.574164 | \n",
+ " 53 | \n",
+ " 53 | \n",
+ " 0 | \n",
+ "
\n",
+ " \n",
+ " pairrm-zephyr-7b-beta | \n",
+ " 1487 | \n",
+ " 12.841278 | \n",
+ " 15.529867 | \n",
+ " 2.688589 | \n",
+ " 44 | \n",
+ " 54 | \n",
+ " -10 | \n",
+ "
\n",
+ " \n",
+ " Starling-LM-7B-alpha | \n",
+ " 1895 | \n",
+ " 14.245924 | \n",
+ " 14.690471 | \n",
+ " 0.444548 | \n",
+ " 35 | \n",
+ " 55 | \n",
+ " -20 | \n",
+ "
\n",
+ " \n",
+ " llama-2-70b-chat-hf | \n",
+ " 1790 | \n",
+ " 13.888258 | \n",
+ " 14.677319 | \n",
+ " 0.789061 | \n",
+ " 38 | \n",
+ " 56 | \n",
+ " -18 | \n",
+ "
\n",
+ " \n",
+ " openchat-v3.1-13b | \n",
+ " 1484 | \n",
+ " 11.082230 | \n",
+ " 14.503388 | \n",
+ " 3.421157 | \n",
+ " 54 | \n",
+ " 57 | \n",
+ " -3 | \n",
+ "
\n",
+ " \n",
+ " wizardlm-13b-v1.2 | \n",
+ " 1635 | \n",
+ " 12.027480 | \n",
+ " 14.462591 | \n",
+ " 2.435110 | \n",
+ " 49 | \n",
+ " 58 | \n",
+ " -9 | \n",
+ "
\n",
+ " \n",
+ " ultralm-13b-v2.0-best-of-16 | \n",
+ " 1720 | \n",
+ " 13.853373 | \n",
+ " 14.198988 | \n",
+ " 0.345614 | \n",
+ " 39 | \n",
+ " 59 | \n",
+ " -20 | \n",
+ "
\n",
+ " \n",
+ " wizardlm-13b-v1.1 | \n",
+ " 1525 | \n",
+ " 11.233910 | \n",
+ " 13.915721 | \n",
+ " 2.681811 | \n",
+ " 52 | \n",
+ " 60 | \n",
+ " -8 | \n",
+ "
\n",
+ " \n",
+ " zephyr-7b-beta | \n",
+ " 1444 | \n",
+ " 10.992886 | \n",
+ " 13.203198 | \n",
+ " 2.210313 | \n",
+ " 55 | \n",
+ " 61 | \n",
+ " -6 | \n",
+ "
\n",
+ " \n",
+ " dolphin-2.2.1-mistral-7b | \n",
+ " 1130 | \n",
+ " 9.039800 | \n",
+ " 13.121478 | \n",
+ " 4.081678 | \n",
+ " 68 | \n",
+ " 62 | \n",
+ " 6 | \n",
+ "
\n",
+ " \n",
+ " humpback-llama-65b | \n",
+ " 1232 | \n",
+ " 9.425139 | \n",
+ " 12.799860 | \n",
+ " 3.374721 | \n",
+ " 62 | \n",
+ " 63 | \n",
+ " -1 | \n",
+ "
\n",
+ " \n",
+ " openbuddy-llama2-70b-v10.1 | \n",
+ " 1077 | \n",
+ " 8.096422 | \n",
+ " 12.572173 | \n",
+ " 4.475751 | \n",
+ " 74 | \n",
+ " 64 | \n",
+ " 10 | \n",
+ "
\n",
+ " \n",
+ " openbuddy-llama-65b-v8 | \n",
+ " 1162 | \n",
+ " 8.770650 | \n",
+ " 12.469356 | \n",
+ " 3.698706 | \n",
+ " 69 | \n",
+ " 65 | \n",
+ " 4 | \n",
+ "
\n",
+ " \n",
+ " Qwen-14B-Chat | \n",
+ " 1013 | \n",
+ " 7.502333 | \n",
+ " 12.378742 | \n",
+ " 4.876408 | \n",
+ " 81 | \n",
+ " 66 | \n",
+ " 15 | \n",
+ "
\n",
+ " \n",
+ " gpt4_gamed | \n",
+ " 68 | \n",
+ " 3.738337 | \n",
+ " 12.188764 | \n",
+ " 8.450427 | \n",
+ " 112 | \n",
+ " 67 | \n",
+ " 45 | \n",
+ "
\n",
+ " \n",
+ " cut-13b | \n",
+ " 1637 | \n",
+ " 10.779089 | \n",
+ " 12.154782 | \n",
+ " 1.375693 | \n",
+ " 56 | \n",
+ " 68 | \n",
+ " -12 | \n",
+ "
\n",
+ " \n",
+ " openchat-v2-w-13b | \n",
+ " 1566 | \n",
+ " 9.615344 | \n",
+ " 12.030428 | \n",
+ " 2.415084 | \n",
+ " 61 | \n",
+ " 69 | \n",
+ " -8 | \n",
+ "
\n",
+ " \n",
+ " tulu-2-dpo-13b | \n",
+ " 1614 | \n",
+ " 10.119788 | \n",
+ " 11.554479 | \n",
+ " 1.434691 | \n",
+ " 59 | \n",
+ " 70 | \n",
+ " -11 | \n",
+ "
\n",
+ " \n",
+ " claude2-alpaca-13b | \n",
+ " 1127 | \n",
+ " 7.437351 | \n",
+ " 11.498898 | \n",
+ " 4.061547 | \n",
+ " 83 | \n",
+ " 71 | \n",
+ " 12 | \n",
+ "
\n",
+ " \n",
+ " minotaur-13b | \n",
+ " 881 | \n",
+ " 5.738964 | \n",
+ " 11.458819 | \n",
+ " 5.719855 | \n",
+ " 100 | \n",
+ " 72 | \n",
+ " 28 | \n",
+ "
\n",
+ " \n",
+ " airoboros-65b | \n",
+ " 1512 | \n",
+ " 9.388950 | \n",
+ " 11.007642 | \n",
+ " 1.618692 | \n",
+ " 64 | \n",
+ " 73 | \n",
+ " -9 | \n",
+ "
\n",
+ " \n",
+ " cohere | \n",
+ " 1983 | \n",
+ " 12.901455 | \n",
+ " 10.893021 | \n",
+ " -2.008434 | \n",
+ " 43 | \n",
+ " 74 | \n",
+ " -31 | \n",
+ "
\n",
+ " \n",
+ " vicuna-13b-v1.3 | \n",
+ " 1132 | \n",
+ " 7.137240 | \n",
+ " 10.843165 | \n",
+ " 3.705925 | \n",
+ " 87 | \n",
+ " 75 | \n",
+ " 12 | \n",
+ "
\n",
+ " \n",
+ " xwinlm-7b-v0.1 | \n",
+ " 1894 | \n",
+ " 11.245652 | \n",
+ " 10.812206 | \n",
+ " -0.433446 | \n",
+ " 51 | \n",
+ " 76 | \n",
+ " -25 | \n",
+ "
\n",
+ " \n",
+ " airoboros-33b | \n",
+ " 1514 | \n",
+ " 9.053160 | \n",
+ " 10.719003 | \n",
+ " 1.665842 | \n",
+ " 67 | \n",
+ " 77 | \n",
+ " -10 | \n",
+ "
\n",
+ " \n",
+ " platolm-7b | \n",
+ " 1344 | \n",
+ " 6.320828 | \n",
+ " 10.532885 | \n",
+ " 4.212057 | \n",
+ " 93 | \n",
+ " 78 | \n",
+ " 15 | \n",
+ "
\n",
+ " \n",
+ " vicuna-13b-v1.5 | \n",
+ " 1061 | \n",
+ " 6.722122 | \n",
+ " 10.484438 | \n",
+ " 3.762316 | \n",
+ " 90 | \n",
+ " 79 | \n",
+ " 11 | \n",
+ "
\n",
+ " \n",
+ " gemma-7b-it | \n",
+ " 1115 | \n",
+ " 6.937294 | \n",
+ " 10.425760 | \n",
+ " 3.488466 | \n",
+ " 88 | \n",
+ " 80 | \n",
+ " 8 | \n",
+ "
\n",
+ " \n",
+ " openchat-v2-13b | \n",
+ " 1564 | \n",
+ " 8.435076 | \n",
+ " 10.399607 | \n",
+ " 1.964532 | \n",
+ " 71 | \n",
+ " 81 | \n",
+ " -10 | \n",
+ "
\n",
+ " \n",
+ " zephyr-7b-alpha | \n",
+ " 1302 | \n",
+ " 8.352664 | \n",
+ " 10.289761 | \n",
+ " 1.937097 | \n",
+ " 72 | \n",
+ " 82 | \n",
+ " -10 | \n",
+ "
\n",
+ " \n",
+ " openbuddy-llama-30b-v7.1 | \n",
+ " 968 | \n",
+ " 6.130015 | \n",
+ " 10.214495 | \n",
+ " 4.084480 | \n",
+ " 96 | \n",
+ " 83 | \n",
+ " 13 | \n",
+ "
\n",
+ " \n",
+ " ultralm-13b-best-of-16 | \n",
+ " 1980 | \n",
+ " 11.307315 | \n",
+ " 9.876089 | \n",
+ " -1.431226 | \n",
+ " 50 | \n",
+ " 84 | \n",
+ " -34 | \n",
+ "
\n",
+ " \n",
+ " oasst-sft-llama-33b | \n",
+ " 748 | \n",
+ " 4.770391 | \n",
+ " 9.866412 | \n",
+ " 5.096021 | \n",
+ " 106 | \n",
+ " 85 | \n",
+ " 21 | \n",
+ "
\n",
+ " \n",
+ " wizardlm-13b | \n",
+ " 985 | \n",
+ " 5.878153 | \n",
+ " 9.828151 | \n",
+ " 3.949998 | \n",
+ " 98 | \n",
+ " 86 | \n",
+ " 12 | \n",
+ "
\n",
+ " \n",
+ " nous-hermes-13b | \n",
+ " 844 | \n",
+ " 5.411879 | \n",
+ " 9.717863 | \n",
+ " 4.305984 | \n",
+ " 101 | \n",
+ " 87 | \n",
+ " 14 | \n",
+ "
\n",
+ " \n",
+ " vicuna-13b | \n",
+ " 1037 | \n",
+ " 5.831103 | \n",
+ " 9.222060 | \n",
+ " 3.390957 | \n",
+ " 99 | \n",
+ " 88 | \n",
+ " 11 | \n",
+ "
\n",
+ " \n",
+ " tulu-2-dpo-7b | \n",
+ " 1663 | \n",
+ " 8.197515 | \n",
+ " 9.200266 | \n",
+ " 1.002750 | \n",
+ " 73 | \n",
+ " 89 | \n",
+ " -16 | \n",
+ "
\n",
+ " \n",
+ " openbuddy-llama2-13b-v11.1 | \n",
+ " 1057 | \n",
+ " 6.174716 | \n",
+ " 9.159090 | \n",
+ " 2.984373 | \n",
+ " 95 | \n",
+ " 90 | \n",
+ " 5 | \n",
+ "
\n",
+ " \n",
+ " ultralm-13b-v2.0 | \n",
+ " 1399 | \n",
+ " 7.504623 | \n",
+ " 9.129018 | \n",
+ " 1.624396 | \n",
+ " 80 | \n",
+ " 91 | \n",
+ " -11 | \n",
+ "
\n",
+ " \n",
+ " text_davinci_001 | \n",
+ " 296 | \n",
+ " 2.764005 | \n",
+ " 9.020601 | \n",
+ " 6.256596 | \n",
+ " 122 | \n",
+ " 92 | \n",
+ " 30 | \n",
+ "
\n",
+ " \n",
+ " openbuddy-falcon-40b-v9 | \n",
+ " 1089 | \n",
+ " 5.955743 | \n",
+ " 8.988937 | \n",
+ " 3.033194 | \n",
+ " 97 | \n",
+ " 93 | \n",
+ " 4 | \n",
+ "
\n",
+ " \n",
+ " openchat-13b | \n",
+ " 1632 | \n",
+ " 8.022386 | \n",
+ " 8.806053 | \n",
+ " 0.783667 | \n",
+ " 75 | \n",
+ " 94 | \n",
+ " -19 | \n",
+ "
\n",
+ " \n",
+ " llama-2-13b-chat-hf | \n",
+ " 1513 | \n",
+ " 7.702310 | \n",
+ " 8.436015 | \n",
+ " 0.733705 | \n",
+ " 78 | \n",
+ " 95 | \n",
+ " -17 | \n",
+ "
\n",
+ " \n",
+ " guanaco-65b | \n",
+ " 1249 | \n",
+ " 6.858495 | \n",
+ " 8.252917 | \n",
+ " 1.394422 | \n",
+ " 89 | \n",
+ " 96 | \n",
+ " -7 | \n",
+ "
\n",
+ " \n",
+ " opencoderplus-15b | \n",
+ " 1628 | \n",
+ " 7.406222 | \n",
+ " 8.152410 | \n",
+ " 0.746188 | \n",
+ " 85 | \n",
+ " 97 | \n",
+ " -12 | \n",
+ "
\n",
+ " \n",
+ " oasst-rlhf-llama-33b | \n",
+ " 1079 | \n",
+ " 6.296435 | \n",
+ " 7.970922 | \n",
+ " 1.674487 | \n",
+ " 94 | \n",
+ " 98 | \n",
+ " -4 | \n",
+ "
\n",
+ " \n",
+ " openchat8192-13b | \n",
+ " 1664 | \n",
+ " 7.472767 | \n",
+ " 7.897062 | \n",
+ " 0.424295 | \n",
+ " 82 | \n",
+ " 99 | \n",
+ " -17 | \n",
+ "
\n",
+ " \n",
+ " phi-2-dpo | \n",
+ " 1687 | \n",
+ " 7.757096 | \n",
+ " 7.770895 | \n",
+ " 0.013799 | \n",
+ " 77 | \n",
+ " 100 | \n",
+ " -23 | \n",
+ "
\n",
+ " \n",
+ " minichat-1.5-3b | \n",
+ " 1545 | \n",
+ " 6.553443 | \n",
+ " 7.701633 | \n",
+ " 1.148190 | \n",
+ " 92 | \n",
+ " 101 | \n",
+ " -9 | \n",
+ "
\n",
+ " \n",
+ " vicuna-7b-v1.5 | \n",
+ " 1083 | \n",
+ " 4.797494 | \n",
+ " 7.616893 | \n",
+ " 2.819399 | \n",
+ " 105 | \n",
+ " 102 | \n",
+ " 3 | \n",
+ "
\n",
+ " \n",
+ " llama-2-chat-7b-evol70k-neft | \n",
+ " 1612 | \n",
+ " 7.602384 | \n",
+ " 7.533053 | \n",
+ " -0.069331 | \n",
+ " 79 | \n",
+ " 103 | \n",
+ " -24 | \n",
+ "
\n",
+ " \n",
+ " recycled-wizardlm-7b-v2.0 | \n",
+ " 1583 | \n",
+ " 7.337129 | \n",
+ " 7.521610 | \n",
+ " 0.184481 | \n",
+ " 86 | \n",
+ " 104 | \n",
+ " -18 | \n",
+ "
\n",
+ " \n",
+ " vicuna-7b-v1.3 | \n",
+ " 1110 | \n",
+ " 4.642512 | \n",
+ " 7.156461 | \n",
+ " 2.513949 | \n",
+ " 107 | \n",
+ " 105 | \n",
+ " 2 | \n",
+ "
\n",
+ " \n",
+ " alpaca-farm-ppo-sim-gpt4-20k | \n",
+ " 511 | \n",
+ " 3.450342 | \n",
+ " 7.121808 | \n",
+ " 3.671466 | \n",
+ " 115 | \n",
+ " 106 | \n",
+ " 9 | \n",
+ "
\n",
+ " \n",
+ " ultralm-13b | \n",
+ " 1087 | \n",
+ " 5.074590 | \n",
+ " 7.108191 | \n",
+ " 2.033601 | \n",
+ " 102 | \n",
+ " 107 | \n",
+ " -5 | \n",
+ "
\n",
+ " \n",
+ " baize-v2-13b | \n",
+ " 930 | \n",
+ " 4.590545 | \n",
+ " 7.012247 | \n",
+ " 2.421702 | \n",
+ " 108 | \n",
+ " 108 | \n",
+ " 0 | \n",
+ "
\n",
+ " \n",
+ " recycled-wizardlm-7b-v1.0 | \n",
+ " 1494 | \n",
+ " 6.632750 | \n",
+ " 6.901477 | \n",
+ " 0.268727 | \n",
+ " 91 | \n",
+ " 109 | \n",
+ " -18 | \n",
+ "
\n",
+ " \n",
+ " alpaca-7b_verbose | \n",
+ " 537 | \n",
+ " 2.933102 | \n",
+ " 6.818464 | \n",
+ " 3.885363 | \n",
+ " 120 | \n",
+ " 110 | \n",
+ " 10 | \n",
+ "
\n",
+ " \n",
+ " alpaca-farm-ppo-human | \n",
+ " 803 | \n",
+ " 4.100427 | \n",
+ " 6.418603 | \n",
+ " 2.318176 | \n",
+ " 110 | \n",
+ " 111 | \n",
+ " -1 | \n",
+ "
\n",
+ " \n",
+ " vicuna-7b | \n",
+ " 1044 | \n",
+ " 4.162611 | \n",
+ " 6.277218 | \n",
+ " 2.114607 | \n",
+ " 109 | \n",
+ " 112 | \n",
+ " -3 | \n",
+ "
\n",
+ " \n",
+ " alpaca-7b | \n",
+ " 396 | \n",
+ " 2.591451 | \n",
+ " 5.875487 | \n",
+ " 3.284037 | \n",
+ " 124 | \n",
+ " 113 | \n",
+ " 11 | \n",
+ "
\n",
+ " \n",
+ " phi-2-sft | \n",
+ " 1068 | \n",
+ " 3.977568 | \n",
+ " 5.853788 | \n",
+ " 1.876220 | \n",
+ " 111 | \n",
+ " 114 | \n",
+ " -3 | \n",
+ "
\n",
+ " \n",
+ " minichat-3b | \n",
+ " 868 | \n",
+ " 3.007151 | \n",
+ " 5.729333 | \n",
+ " 2.722182 | \n",
+ " 119 | \n",
+ " 115 | \n",
+ " 4 | \n",
+ "
\n",
+ " \n",
+ " guanaco-33b | \n",
+ " 1311 | \n",
+ " 5.002494 | \n",
+ " 5.690019 | \n",
+ " 0.687525 | \n",
+ " 103 | \n",
+ " 116 | \n",
+ " -13 | \n",
+ "
\n",
+ " \n",
+ " falcon-40b-instruct | \n",
+ " 662 | \n",
+ " 3.342919 | \n",
+ " 5.607533 | \n",
+ " 2.264614 | \n",
+ " 118 | \n",
+ " 117 | \n",
+ " 1 | \n",
+ "
\n",
+ " \n",
+ " gemma-2b-it | \n",
+ " 1041 | \n",
+ " 3.401971 | \n",
+ " 5.596482 | \n",
+ " 2.194511 | \n",
+ " 117 | \n",
+ " 118 | \n",
+ " -1 | \n",
+ "
\n",
+ " \n",
+ " llama-2-7b-chat-hf | \n",
+ " 1479 | \n",
+ " 4.961340 | \n",
+ " 5.354821 | \n",
+ " 0.393482 | \n",
+ " 104 | \n",
+ " 119 | \n",
+ " -15 | \n",
+ "
\n",
+ " \n",
+ " openbuddy-falcon-7b-v6 | \n",
+ " 1152 | \n",
+ " 3.521174 | \n",
+ " 4.826124 | \n",
+ " 1.304950 | \n",
+ " 113 | \n",
+ " 120 | \n",
+ " -7 | \n",
+ "
\n",
+ " \n",
+ " alpaca-7b_concise | \n",
+ " 351 | \n",
+ " 1.991176 | \n",
+ " 4.463108 | \n",
+ " 2.471931 | \n",
+ " 129 | \n",
+ " 121 | \n",
+ " 8 | \n",
+ "
\n",
+ " \n",
+ " phi-2 | \n",
+ " 626 | \n",
+ " 2.350210 | \n",
+ " 4.395548 | \n",
+ " 2.045338 | \n",
+ " 126 | \n",
+ " 122 | \n",
+ " 4 | \n",
+ "
\n",
+ " \n",
+ " baize-v2-7b | \n",
+ " 1127 | \n",
+ " 3.404815 | \n",
+ " 4.382565 | \n",
+ " 0.977750 | \n",
+ " 116 | \n",
+ " 123 | \n",
+ " -7 | \n",
+ "
\n",
+ " \n",
+ " chatglm2-6b | \n",
+ " 1027 | \n",
+ " 2.762185 | \n",
+ " 4.359283 | \n",
+ " 1.597098 | \n",
+ " 123 | \n",
+ " 124 | \n",
+ " -1 | \n",
+ "
\n",
+ " \n",
+ " pythia-12b-mix-sft | \n",
+ " 913 | \n",
+ " 2.578090 | \n",
+ " 4.221362 | \n",
+ " 1.643272 | \n",
+ " 125 | \n",
+ " 125 | \n",
+ " 0 | \n",
+ "
\n",
+ " \n",
+ " falcon-7b-instruct | \n",
+ " 478 | \n",
+ " 2.146618 | \n",
+ " 4.036938 | \n",
+ " 1.890320 | \n",
+ " 127 | \n",
+ " 126 | \n",
+ " 1 | \n",
+ "
\n",
+ " \n",
+ " oasst-sft-pythia-12b | \n",
+ " 726 | \n",
+ " 1.790114 | \n",
+ " 3.270102 | \n",
+ " 1.479988 | \n",
+ " 130 | \n",
+ " 127 | \n",
+ " 3 | \n",
+ "
\n",
+ " \n",
+ " guanaco-13b | \n",
+ " 1774 | \n",
+ " 3.469597 | \n",
+ " 3.003787 | \n",
+ " -0.465810 | \n",
+ " 114 | \n",
+ " 128 | \n",
+ " -14 | \n",
+ "
\n",
+ " \n",
+ " guanaco-7b | \n",
+ " 1364 | \n",
+ " 2.880002 | \n",
+ " 2.871117 | \n",
+ " -0.008885 | \n",
+ " 121 | \n",
+ " 129 | \n",
+ " -8 | \n",
+ "
\n",
+ " \n",
+ " baichuan-13b-chat | \n",
+ " 1727 | \n",
+ " 1.992146 | \n",
+ " 2.062170 | \n",
+ " 0.070025 | \n",
+ " 128 | \n",
+ " 130 | \n",
+ " -2 | \n",
"
\n",
" \n",
"
\n"
],
"text/plain": [
- ""
+ ""
]
},
"execution_count": 27,
@@ -6053,7 +6121,7 @@
},
{
"cell_type": "code",
- "execution_count": 36,
+ "execution_count": 28,
"id": "dc3b8c58-a686-47b2-a4dd-d9e6cc8089f2",
"metadata": {},
"outputs": [],
@@ -6094,7 +6162,7 @@
},
{
"cell_type": "code",
- "execution_count": 34,
+ "execution_count": 30,
"id": "4ba44847-8e03-486c-bb39-2148a7f2cbf0",
"metadata": {},
"outputs": [
@@ -6104,7 +6172,7 @@
"0.4972910406584219"
]
},
- "execution_count": 34,
+ "execution_count": 30,
"metadata": {},
"output_type": "execute_result"
}
@@ -6125,7 +6193,7 @@
},
{
"cell_type": "code",
- "execution_count": 43,
+ "execution_count": 31,
"id": "e5482374-61a4-409d-9993-bac7c79a3c9d",
"metadata": {},
"outputs": [],
@@ -6135,7 +6203,7 @@
},
{
"cell_type": "code",
- "execution_count": 44,
+ "execution_count": 32,
"id": "dd2e8f6a-f702-46ad-b24f-e705b8a686ec",
"metadata": {},
"outputs": [
@@ -6144,19 +6212,19 @@
"text/plain": [
"gpt4_1106_preview_verbose 1264.947899\n",
"gpt4_1106_preview 1254.000000\n",
- "gpt4_1106_preview_concise 1197.190903\n",
+ "gpt4_1106_preview_concise 1197.190905\n",
"claude-3-opus-20240229 1186.394707\n",
- "gpt4 1169.900608\n",
+ "gpt4 1169.900609\n",
" ... \n",
- "falcon-7b-instruct 703.579173\n",
+ "falcon-7b-instruct 703.579174\n",
"oasst-sft-pythia-12b 665.600234\n",
"guanaco-13b 650.365762\n",
"guanaco-7b 642.280987\n",
- "baichuan-13b-chat 583.349617\n",
- "Name: np.tanh(rand_delta_len_std_only) + instruction_difficulty + not_gamed_baseline.astype(float) - 1, Length: 129, dtype: float64"
+ "baichuan-13b-chat 583.349616\n",
+ "Name: np.tanh(rand_delta_len_std_only) + instruction_difficulty + not_gamed_baseline.astype(float) - 1, Length: 131, dtype: float64"
]
},
- "execution_count": 44,
+ "execution_count": 32,
"metadata": {},
"output_type": "execute_result"
}
@@ -6167,17 +6235,17 @@
},
{
"cell_type": "code",
- "execution_count": 45,
+ "execution_count": 33,
"id": "c3cc7204-d14c-4d40-828f-2c0ebc9c90a8",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
- "PearsonRResult(statistic=0.9551930453734696, pvalue=6.035381315868855e-18)"
+ "PearsonRResult(statistic=0.956960109042506, pvalue=7.650929551873686e-20)"
]
},
- "execution_count": 45,
+ "execution_count": 33,
"metadata": {},
"output_type": "execute_result"
}
@@ -6229,6 +6297,14 @@
"\n",
"$$min_{\\mathbf{w'}_l[m], \\mathbf{w'}_{x}[m], \\mathbf{w'}_{m}[m]} \\sum_i \\mathcal{L}_i(logistic( \\mathbf{w'}_l[m] * tanh(standardized(length(m(x_i)) - length(b(x_i)))) + \\mathbf{w'}_x[m] * embedding(x_i) + \\mathbf{w}'_m[m] ) + \\lambda' \\mathcal{L}_i(logistic( \\mathbf{w'}_l[m] * tanh(standardized(length(b'(x_i)) - length(b(x_i))))$$\n"
]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": null,
+ "id": "6ebb64fb-4bbd-4abb-ad89-99812f21d60a",
+ "metadata": {},
+ "outputs": [],
+ "source": []
}
],
"metadata": {
diff --git a/src/alpaca_eval/constants.py b/src/alpaca_eval/constants.py
index 7cbacf2e..cf617bf3 100644
--- a/src/alpaca_eval/constants.py
+++ b/src/alpaca_eval/constants.py
@@ -206,26 +206,29 @@ def ALPACAFARM_GOLD_ANNOTATIONS():
# maps models to Arena Elo rating
CHATBOT_ARENA_LEADERBOARD = {
"gpt4_1106_preview": 1252,
- "gpt4_0314": 1190,
- "gpt4_0613": 1162,
- "mistral-medium": 1150,
- "claude": 1149,
- "claude-2": 1132,
- "claude-2.1": 1119,
- "Mixtral-8x7B-Instruct-v0.1": 1118,
- "gpt-3.5-turbo-0613": 1118,
+ "claude-3-opus-20240229": 1233,
+ "gpt4_0314": 1185,
+ "claude-3-sonnet-20240229": 1180,
+ "gpt4_0613": 1161,
+ "mistral-large-2402": 1155,
+ "mistral-medium": 1147,
+ "claude": 1146,
+ "claude-2": 1127,
+ "claude-2.1": 1117,
+ "Mixtral-8x7B-Instruct-v0.1": 1116,
+ "gpt-3.5-turbo-0613": 1115,
"Yi-34B-Chat": 1115,
- "gemini-pro": 1114,
- "claude-instant-1.2": 1109,
- "gpt-3.5-turbo-0301": 1105,
- "wizardlm-70b": 1105,
- "tulu-2-dpo-70b": 1104,
- "vicuna-33b-v1.3": 1093,
- "Starling-LM-7B-alpha": 1090,
+ "gemini-pro": 1112,
+ "claude-instant-1.2": 1105,
+ "gpt-3.5-turbo-0301": 1103,
+ "wizardlm-70b": 1103,
+ "tulu-2-dpo-70b": 1099,
+ "vicuna-33b-v1.3": 1090,
+ "Starling-LM-7B-alpha": 1085,
"deepseek-llm-67b-chat": 1082,
"llama-2-70b-chat-hf": 1082,
- "OpenHermes-2.5-Mistral-7B": 1078,
- "gpt-3.5-turbo-1106": 1071,
+ "OpenHermes-2.5-Mistral-7B": 1073,
+ "gpt-3.5-turbo-1106": 1069,
"dolphin-2.2.1-mistral-7b": 1065,
"wizardlm-13b-v1.2": 1058,
"zephyr-7b-beta": 1051,
diff --git a/src/alpaca_eval/leaderboards/data_AlpacaEval_2/weighted_alpaca_eval_gpt4_turbo_leaderboard.csv b/src/alpaca_eval/leaderboards/data_AlpacaEval_2/weighted_alpaca_eval_gpt4_turbo_leaderboard.csv
index 86b639a0..413db3e8 100644
--- a/src/alpaca_eval/leaderboards/data_AlpacaEval_2/weighted_alpaca_eval_gpt4_turbo_leaderboard.csv
+++ b/src/alpaca_eval/leaderboards/data_AlpacaEval_2/weighted_alpaca_eval_gpt4_turbo_leaderboard.csv
@@ -8,9 +8,11 @@ Qwen1.5-72B-Chat,26.49828339562733,1.304236164893057,201,600,4,805,25.2173913043
gpt4_0314,22.073258928708075,1.2466725494608204,172,627,6,805,21.73913043478261,verified,1371,35.30706121640206
claude-3-sonnet-20240229,25.556325292273296,1.3419811051815638,193,608,4,805,24.22360248447205,verified,1420,34.87247436243302
gpt4_0613_verbose,23.237360043453418,1.283539505582624,171,630,4,805,21.490683229813666,dev,1473,33.82126688658535
+mistral-large-2402,21.43877598137888,1.2485232545097724,166,638,1,805,20.6832298136646,verified,1362,32.65207998531868
claude-2.1_verbose,24.35407109006212,1.293586209982439,191,613,1,805,23.7888198757764,dev,1414,30.29117916664986
gpt4_0613,15.75503808763975,1.0754642482396215,117,684,4,805,14.782608695652174,verified,1140,30.18332231673423
Snorkel-Mistral-PairRM-DPO-best-of-16,34.8601328912795,1.3599450436840308,270,533,2,805,33.66459627329193,community,2616,29.974321613074405
+Contextual-KTO-Mistral-PairRM,33.227355200024846,1.3779687477923963,260,544,1,805,32.36024844720497,verified,2521,29.705808939683976
pairrm-Yi-34B-Chat,31.24128294680746,1.34824373994879,239,563,3,805,29.87577639751553,community,2195,28.81484086684313
mistral-medium,21.855772543652176,1.2682402187223842,164,639,2,805,20.496894409937887,minimal,1500,28.614337401726104
claude-2,17.188240356708075,1.17482825615589,131,673,1,805,16.335403726708076,minimal,1069,28.155196141629148
@@ -124,7 +126,7 @@ baize-v2-7b,3.404814977515528,0.5826293992489878,26,779,0,805,3.229813664596273,
chatglm2-6b,2.7621847964596284,0.5020758950625489,19,781,5,805,2.670807453416149,community,1027,4.35928292679035
pythia-12b-mix-sft,2.5780902809689445,0.5127326717340586,19,786,0,805,2.360248447204969,verified,913,4.221361861408184
falcon-7b-instruct,2.146617553167702,0.454225792894195,16,787,2,805,2.111801242236025,verified,478,4.036937566812824
-oasst-sft-pythia-12b,1.790114083180124,0.39855808830493417,13,790,2,805,1.7391304347826086,verified,726,3.2701021144567473
+oasst-sft-pythia-12b,1.790114083180124,0.3985580883049341,13,790,2,805,1.7391304347826086,verified,726,3.270102114456748
guanaco-13b,3.469596859739131,0.5518606725700214,22,780,3,805,2.919254658385093,verified,1774,3.003787329611614
guanaco-7b,2.880002266173913,0.5202924149314048,21,783,1,805,2.670807453416149,verified,1364,2.871116813131697
baichuan-13b-chat,1.9921455615279504,0.4176985079331233,14,790,1,805,1.8012422360248446,community,1727,2.062170253598568