Benchmarks de IA para Código Estão Quebrados? DeepSWE, SWE Bench Pro, Comparação e Críticas