GPT-5 ficou mais tímido? Como identificar regressões de performance em LLMs

GPT-5 ficou mais tímido? Como identificar regressões de performance em LLMs