mmlu_pro score issue (generate_prompt)

mmlu_pro score is very low for Qwen2.5-32B-Instruct (8.01). 

When I changed generate_prompt() in MMLUProTaskHandler class like generate_prompt() MMLUTaskHandler class, the score was increased into 57.80. 

# skythought/evals/tasks/mmlu/mmlu_handler.py
`class MMLUProTaskHandler(MMLUTaskHandler):`
`    def generate_prompt(self, prompt):`
`        multiple_choice_string = self.get_multiple_choice_answers(prompt) # ADDED`
`        prompt = prompt["question"] + "\n" + multiple_choice_string # ADDED `
`        return self.task_config.templating_parameters["template"].format(prompt=prompt)`


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

mmlu_pro score issue (generate_prompt) #108

skythought/evals/tasks/mmlu/mmlu_handler.py

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

mmlu_pro score issue (generate_prompt) #108

Description

skythought/evals/tasks/mmlu/mmlu_handler.py

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions