MastermindEval

flair 's Collections

updated May 29, 2025

Prompting and multiple-choice (MCQ) benchmarks to evaluate reasoning capabilities of LLMs using Mastermind.