Teste t ou Mann-Whitney?
Comparar uma medida contínua entre dois grupos é uma das análises mais comuns em saúde — e logo surge a dúvida: teste t ou Mann-Whitney? A resposta gira em torno de uma palavra: normalidade. Mas há nuances que muita gente ignora, e errar aqui pode comprometer toda a conclusão.
O que cada teste faz
- Teste t para amostras independentes: compara as médias de dois grupos. É um teste paramétrico — assume que os dados (mais precisamente, a distribuição em cada grupo) são aproximadamente normais.
- Mann-Whitney (Wilcoxon-Mann-Whitney): a alternativa não paramétrica. Em vez de médias, trabalha com postos (rankings): ordena todos os valores e testa se um grupo tende a ter valores maiores que o outro. Não exige normalidade.
A regra prática (e seus limites)
O procedimento clássico em duas etapas é: teste a normalidade; se ela for plausível, use o teste t; se for rejeitada, use o Mann-Whitney. O teste de normalidade mais usado é o Shapiro-Wilk, cuja hipótese nula é "os dados são normais". Um p > 0,05 no Shapiro-Wilk sugere que a normalidade é aceitável.
Essa regra funciona, mas tem armadilhas importantes que vale conhecer.
A Evidens faz desenho, cálculo amostral, análise e figuras — você continua único autor.
Solicitar orçamento
Os limites do Shapiro-Wilk
O teste de normalidade depende do tamanho da amostra de um jeito traiçoeiro:
- Amostras pequenas: o Shapiro-Wilk tem pouco poder — pode não detectar uma não normalidade real e dar "tudo certo" mesmo quando não está.
- Amostras grandes: ele fica hipersensível — detecta desvios mínimos e clinicamente irrelevantes da normalidade, levando a rejeitar a normalidade sem necessidade.
Por isso, não decida só pelo valor de p do Shapiro-Wilk. Inspecione também os gráficos: histograma e gráfico Q-Q mostram a forma da distribuição e revelam assimetrias e outliers que o teste numérico esconde.
O papel do tamanho amostral
Há um detalhe que muda o jogo: pelo teorema central do limite, a distribuição das médias se aproxima da normal à medida que a amostra cresce — mesmo que os dados originais não sejam normais. Na prática, o teste t é robusto a desvios moderados de normalidade quando as amostras são razoavelmente grandes. Ou seja: em amostra grande, uma leve assimetria não obriga a abandonar o teste t.
Já em amostras pequenas, com distribuições claramente assimétricas ou com outliers, o Mann-Whitney costuma ser a escolha mais segura.
Um detalhe sobre o que o Mann-Whitney testa
É comum dizer que o Mann-Whitney "compara medianas". Isso só é estritamente verdade quando as duas distribuições têm formato semelhante. No caso geral, ele testa se um grupo tende a produzir valores maiores que o outro (uma diferença de localização estocástica), o que nem sempre equivale à diferença de medianas. É uma distinção fina, mas importante na hora de redigir os resultados com precisão.
Como decidir e reportar
- Defina o teste no plano de análise, antes de ver os dados — escolher o teste pelo p mais conveniente é p-hacking.
- Avalie a normalidade combinando Shapiro-Wilk com histograma e Q-Q.
- Considere o tamanho da amostra e a robustez do teste t.
- Reporte qual teste usou, como verificou os pressupostos e apresente a medida de efeito com intervalo de confiança, não apenas o valor de p.
Para o quadro completo de qual teste cabe em cada situação (mais de dois grupos, dados pareados etc.), veja o roteiro em qual teste estatístico usar.
Perguntas frequentes
Quando usar teste t e quando usar Mann-Whitney?
Teste t compara médias quando os dados são aproximadamente normais; Mann-Whitney é a alternativa não paramétrica, usada quando a normalidade não se sustenta, sobretudo em amostras pequenas.
O que o Shapiro-Wilk avalia?
Testa se os dados vêm de uma distribuição normal. Funciona melhor em amostras pequenas a médias e fica hipersensível em amostras muito grandes.
Em amostra grande sempre uso teste t?
O teste t é robusto a desvios moderados em amostras grandes. Ainda assim, assimetrias fortes ou outliers podem justificar o Mann-Whitney.
O Mann-Whitney compara medianas?
Só sob distribuições de formato semelhante. No geral, testa se um grupo tende a ter valores maiores que o outro.
A Evidens faz desenho, cálculo amostral, análise e figuras — você continua único autor.
Solicitar orçamento