GPQA Accuracy Mismatch on Completions vs Responses API (GPT-4o August 2024)

When reproducing the reported results on GPT-4o, I noticed that the responses API and completions API result in different numbers beyond expected error bars, especially on `gpt-4o-2024-08-06`.

My results on GPT-4o:
- Completions API: 53.0% (match)
- Responses API: 49.2% (no match)


I only changed one line of code: from `ChatCompletionsSampler` to `ResponsesSampler` 
https://github.com/openai/simple-evals/blob/3ec4e9b5ae3931a1858580e2fd3ce80c7fcbe1d9/simple_evals.py#L167

Command: `python -m simple-evals.simple_evals --model gpt-4o-2024-08-06 --eval gpqa --n-repeats 10`

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

GPQA Accuracy Mismatch on Completions vs Responses API (GPT-4o August 2024) #89

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

GPQA Accuracy Mismatch on Completions vs Responses API (GPT-4o August 2024) #89

Description

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions