Qual a diferença entre análise univariada e multivariada?

A análise univariada descreve uma variável por vez, sem relacioná-la a outras. A bivariada relaciona duas variáveis (por exemplo, um fator e o desfecho). A multivariada estima o efeito de vários fatores sobre o desfecho ao mesmo tempo, ajustando o efeito de cada um pelos demais — é o que permite controlar fatores de confusão. Na prática, o que muitos artigos chamam de 'análise univariada' na seleção de variáveis é, tecnicamente, uma série de análises bivariadas.

Por que preciso de análise multivariada se a bivariada já deu significativa?

Porque uma associação bivariada pode ser explicada por um terceiro fator (confundimento). A idade, por exemplo, pode estar associada tanto à exposição quanto ao desfecho e criar uma associação aparente entre eles. O modelo multivariado estima o efeito de cada fator mantendo os outros constantes, revelando se a associação persiste após o ajuste.

Como seleciono as variáveis para o modelo multivariado?

O melhor critério é clínico e baseado na literatura: incluir os confundidores conhecidos e as variáveis com plausibilidade, definidas antes de olhar os dados. A prática comum de levar ao modelo apenas o que teve p<0,05 na bivariada é criticada porque enviesa as estimativas e ignora confundidores importantes. Um limiar mais frouxo (p<0,20 ou p<0,25) é usado como triagem, mas a decisão informada pela literatura é preferível.

Quantas variáveis posso colocar no modelo?

Depende do número de eventos, não do tamanho total da amostra. A regra clássica é de 10 eventos por variável (EPV) na regressão logística e de Cox — com 40 óbitos, por exemplo, o modelo comporta cerca de 4 preditores. Abaixo disso, as estimativas ficam instáveis e os intervalos de confiança, largos. Regras mais recentes flexibilizam o número, mas a lógica de limitar preditores ao tamanho do evento permanece.

Análise multivariada e multivariável são a mesma coisa?

Estritamente, não. 'Multivariável' (multivariable) descreve um modelo com vários preditores e um único desfecho — o caso da regressão logística e de Cox. 'Multivariada' (multivariate) descreve, no sentido técnico, modelos com múltiplos desfechos simultâneos. Na prática médica, 'multivariada' é usada amplamente para o primeiro caso, e é assim que a maioria dos leitores entende o termo.

Preciso relatar as duas análises no artigo?

Em geral, sim. Uma tabela típica apresenta a estimativa bruta (não ajustada) e a ajustada lado a lado, para cada variável, com intervalo de confiança e valor de p. Mostrar as duas deixa clara a mudança das estimativas após o ajuste e atende às diretrizes de relato como o STROBE.

Modelagem

Análise univariada e multivariada: o que é e quando usar

Q: Quantas variáveis posso colocar no modelo?

Depende do número de eventos, não do tamanho total da amostra. A regra clássica é de 10 eventos por variável (EPV) na regressão logística e de Cox — com 40 óbitos, por exemplo, o modelo comporta cerca de 4 preditores. Abaixo disso, as estimativas ficam instáveis e os intervalos de confiança, largos. Regras mais recentes flexibilizam o número, mas a lógica de limitar preditores ao tamanho do evento permanece.

Q: Análise multivariada e multivariável são a mesma coisa?

Estritamente, não. 'Multivariável' (multivariable) descreve um modelo com vários preditores e um único desfecho — o caso da regressão logística e de Cox. 'Multivariada' (multivariate) descreve, no sentido técnico, modelos com múltiplos desfechos simultâneos. Na prática médica, 'multivariada' é usada amplamente para o primeiro caso, e é assim que a maioria dos leitores entende o termo.

Q: Preciso relatar as duas análises no artigo?

Em geral, sim. Uma tabela típica apresenta a estimativa bruta (não ajustada) e a ajustada lado a lado, para cada variável, com intervalo de confiança e valor de p. Mostrar as duas deixa clara a mudança das estimativas após o ajuste e atende às diretrizes de relato como o STROBE.

Equipe Evidens · 3 de julho de 2026 · leitura de 15 min

Resposta rápida. A análise univariada descreve uma variável de cada vez; a bivariada relaciona um fator ao desfecho, sem controlar mais nada; a multivariada (multivariável) estima o efeito de vários fatores ao mesmo tempo, cada um ajustado pelos demais. É esse ajuste que controla os fatores de confusão e transforma uma associação bruta em uma estimativa mais próxima do efeito real. A regra prática que sustenta tudo: escolha as variáveis pela clínica e pela literatura, não pelo valor de p da bivariada, e respeite o limite de eventos por variável.

Quase todo estudo clínico com desfecho definido passa por esta sequência: descrever a amostra, comparar grupos e, então, montar um modelo que estime o efeito de um fator ajustado pelos outros. Os nomes — univariada, bivariada, multivariada — parecem intercambiáveis, e são usados de forma confusa até em artigos publicados. Mas a diferença entre eles é justamente onde mora o raciocínio causal do estudo. Entender isso é o que separa "a variável X deu p < 0,05" de "o efeito de X se mantém depois de controlar idade, estágio e comorbidade".

Este guia organiza os três níveis, explica por que o multivariado é quase sempre necessário, mostra como selecionar variáveis sem cair nas armadilhas clássicas e lista os erros que mais aparecem na banca e na revisão por pares.

Os três níveis, sem confusão de nomes

A contagem no nome se refere ao número de variáveis analisadas ao mesmo tempo:

Nível	Quantas variáveis	Pergunta que responde
Univariada	Uma	Como essa variável se distribui? (média, mediana, frequência)
Bivariada	Duas	Este fator, sozinho, está associado ao desfecho?
Multivariável	Três ou mais	Qual o efeito deste fator sobre o desfecho, ajustado pelos outros?

A análise univariada é puramente descritiva: idade média dos participantes, proporção de mulheres, mediana de tempo de internação. Não há relação entre variáveis — é a matéria-prima da "Tabela 1".

A análise bivariada cruza duas variáveis: um teste t comparando a idade entre quem teve e quem não teve o desfecho, um qui-quadrado entre sexo e complicação, uma regressão logística simples com um único preditor. Aqui já há uma associação, mas ela olha o fator isolado, como se nada mais existisse.

A análise multivariável coloca vários fatores no mesmo modelo. Cada coeficiente passa a representar o efeito daquele fator mantendo os demais constantes — o famoso "ajustado por". É esse mecanismo que permite responder à pergunta que realmente interessa na pesquisa clínica.

A confusão de nomenclatura que você vai encontrar. Muitos artigos escrevem "análise univariada" para o passo de testar cada candidato contra o desfecho antes de montar o modelo. Tecnicamente isso é bivariado (duas variáveis: o candidato e o desfecho). O uso é tão disseminado que virou convenção, mas saber a diferença evita mal-entendidos — e perguntas capciosas de banca.

Por que o univariado (ou bivariado) quase nunca basta

O motivo tem um nome: confundimento. Um fator de confusão é uma terceira variável associada tanto à exposição quanto ao desfecho, capaz de criar — ou mascarar — uma associação entre eles.

O exemplo clássico: suponha que, na análise bivariada, pacientes operados por uma técnica nova morram menos do que os da técnica antiga. Parece que a técnica nova é melhor. Mas, se a técnica nova foi oferecida preferencialmente a pacientes mais jovens e com menos comorbidade, a diferença pode ser inteiramente da idade, não da técnica. A idade é um confundidor: está ligada à escolha da técnica (exposição) e ao risco de morte (desfecho).

O modelo multivariável resolve isso estimando o efeito da técnica dentro de cada faixa de idade e comorbidade ao mesmo tempo — matematicamente, mantendo esses fatores constantes. Se, depois desse ajuste, a vantagem da técnica desaparecer, ela era um artefato do confundimento. Se persistir, a evidência a favor da técnica fica muito mais forte.

É por isso que estudos observacionais sérios raramente param na bivariada: sem randomização, os grupos diferem em muitas coisas além da exposição de interesse, e só o ajuste multivariável (ou métodos como o escore de propensão) aproxima a comparação de um cenário justo.

Precisa montar o modelo multivariável do seu estudo?
A Evidens faz o desenho, a seleção de variáveis, a análise e as figuras — você continua único autor.
Solicitar orçamento

Como escolher as variáveis do modelo

Esta é a decisão mais delicada — e a mais errada — de toda a modelagem. Há duas escolas.

A abordagem estatística automática (e por que desconfiar dela)

A prática mais comum em trabalhos de conclusão e artigos iniciantes: rodar a bivariada de cada candidato, e levar ao modelo multivariável apenas os que tiveram p < 0,05. É simples, mas tem problemas reais e bem documentados:

Ignora confundidores importantes. Um confundidor pode não ter associação bivariada significativa com o desfecho e, ainda assim, ser essencial no ajuste. Excluí-lo por causa do p enviesa a estimativa de interesse.
Depende do acaso da amostra. O corte em 0,05 faz a seleção variar de amostra para amostra; em outra coleta, o conjunto de variáveis "significativas" seria outro.
Infla o otimismo do modelo. Selecionar preditores olhando o desfecho e depois estimá-los na mesma amostra superestima a força das associações (o modelo parece melhor do que é).

Métodos automáticos passo a passo (stepwise: forward, backward) sofrem dos mesmos males e são criticados na literatura metodológica há décadas, embora ainda apareçam muito.

A abordagem informada pela clínica (a recomendada)

A escolha mais defensável parte do conhecimento prévio, não dos dados:

Inclua os confundidores conhecidos da literatura, tenham eles p significativo ou não — idade, sexo, estágio, comorbidade, no que for pertinente.
Defina as variáveis antes de olhar os resultados, idealmente no protocolo. Isso protege contra o p-hacking de seleção.
Use plausibilidade biológica e causal. Ferramentas como o DAG (grafo acíclico direcionado) ajudam a decidir o que ajustar e — igualmente importante — o que não ajustar, para não introduzir novos vieses.
Cuidado com mediadores. Ajustar por uma variável que está no caminho causal entre a exposição e o desfecho (um mediador) pode esconder justamente o efeito que você quer medir.

Quando um limiar de triagem é usado, a literatura sugere um corte frouxo (p < 0,20 ou p < 0,25) em vez de 0,05, exatamente para não descartar confundidores cedo demais. Mas o julgamento informado pela clínica é superior a qualquer regra automática.

Um roteiro prático de seleção

Reunindo os dois mundos, uma sequência defensável para a maioria dos estudos observacionais é:

Liste os candidatos antes de olhar os dados, a partir da pergunta e da literatura.
Force a entrada dos confundidores consagrados (idade, sexo, estágio, comorbidade — conforme o tema), independentemente do p.
Confira o teto de eventos por variável (adiante) antes de decidir quantos candidatos adicionais cabem.
Se precisar triar, use um corte frouxo (p < 0,20) ou, melhor, a plausibilidade — nunca só o p < 0,05.
Cheque colinearidade entre candidatos (VIF, matriz de correlação): dois preditores que medem quase a mesma coisa inflam os erros-padrão e desestabilizam os coeficientes.
Documente a decisão — quais entraram, quais saíram e por quê. É o que o revisor vai querer ver.

Variáveis contínuas: não as "quebre" sem motivo

Um erro silencioso na montagem do modelo é categorizar variáveis contínuas por conveniência — transformar idade em "≥ 60 vs < 60", por exemplo. Parece mais fácil de interpretar, mas custa caro:

Joga informação fora. Um paciente de 61 anos e um de 89 viram "a mesma coisa" no modelo, o que raramente é verdade clinicamente.
O ponto de corte é arbitrário. Escolher o corte que dá o menor p é uma forma de p-hacking, e o resultado não se replica.
Reduz o poder estatístico. Dicotomizar uma contínua equivale, grosso modo, a descartar parte da amostra.

A recomendação metodológica é manter a variável contínua e, se houver suspeita de relação não linear (o risco não sobe de forma constante com a idade, por exemplo), modelá-la com termos apropriados — polinômios ou splines — em vez de recortá-la em caixas. Categorize apenas quando houver um limiar clínico real e consagrado.

Termos de interação: quando o efeito depende de outro fator

O modelo multivariável básico assume que o efeito de cada preditor é o mesmo em todos os subgrupos. Nem sempre é. Um termo de interação testa se o efeito de um fator muda conforme o nível de outro — por exemplo, se um tratamento funciona bem em pacientes jovens mas não em idosos.

Interações são poderosas, mas exigem parcimônia: cada uma consome graus de liberdade (conta no orçamento de eventos por variável) e precisa de justificativa prévia. Testar todas as interações possíveis à cata de uma significativa é mais uma forma de p-hacking. Inclua apenas as que a pergunta de pesquisa pede — e interprete o efeito principal com cuidado quando houver interação no modelo, porque ele deixa de valer "em média".

Quantas variáveis cabem: a regra de eventos por variável

Existe um teto para o número de preditores, e ele não depende do tamanho total da amostra — depende do número de eventos (o desfecho menos frequente).

A regra tradicional é de 10 eventos por variável (EPV) na regressão logística e na regressão de Cox. Alguns exemplos:

Estudo com 300 pacientes e 40 óbitos: o limite são os 40 eventos, não os 300 — cabem cerca de 4 preditores, não 30.
Coorte com 1.000 pacientes e 500 eventos: até cerca de 50 preditores, folgado.

Ultrapassar o EPV produz overfitting: o modelo se ajusta ao ruído da amostra, os coeficientes ficam instáveis, os intervalos de confiança se alargam e a replicação em outra base falha. Categorias raras de uma variável e a separação (quando um preditor prevê o desfecho perfeitamente) são sinais de que há preditores demais para o número de eventos.

O EPV mudou? Trabalhos recentes mostram que 10 é uma regra de bolso, não uma lei — dependendo do cenário, valores menores podem bastar, e às vezes é preciso mais. A recomendação moderna é calcular o tamanho amostral necessário para o modelo desde o desenho, em vez de confiar cegamente no número 10. A lógica, porém, é a mesma: limite os preditores ao que o seu número de eventos sustenta.

Como isso aparece no artigo

A convenção de relato é apresentar, para cada variável, a estimativa bruta (não ajustada) e a ajustada lado a lado:

Variável	OR bruto (IC95%)	OR ajustado (IC95%)
Técnica nova	0,55 (0,34–0,89)	0,81 (0,48–1,37)
Idade (por década)	1,70 (1,40–2,06)	1,63 (1,33–2,00)
Estágio avançado	2,90 (1,90–4,42)	2,55 (1,63–3,99)

A leitura dessa tabela conta uma história: o efeito aparente da "técnica nova" (OR bruto 0,55, significativo) desaparece após o ajuste (OR 0,81, intervalo cruzando 1) — era confundido pela idade e pelo estágio, que se mantêm fortes no modelo ajustado. Mostrar as duas colunas torna essa mudança transparente e atende ao checklist STROBE, que pede o relato das estimativas brutas e ajustadas e dos confundidores considerados.

Repare que a interpretação certa do OR ajustado da técnica é: "mantidos a idade e o estágio constantes, a técnica nova não mostrou associação significativa com o desfecho". A palavra-chave é mantidos constantes — sem ela, a frase vira a conclusão bruta, que estava errada.

Sobre a escolha do modelo conforme o desfecho: desfecho binário pede regressão logística (razão de chances); tempo até um evento pede regressão de Cox (hazard ratio); desfecho contínuo pede regressão linear. O princípio do ajuste multivariável é o mesmo nos três — muda a medida de efeito e os pressupostos, não a lógica de controlar confundidores.

Ajuste não conserta tudo

Vale um alerta contra o excesso de confiança: o modelo multivariável só controla os confundidores que você mediu e incluiu. O que ficou de fora — o confundimento residual — continua distorcendo o resultado. Se um fator prognóstico importante não foi coletado, nenhum ajuste o traz de volta.

Por isso, mesmo um belo modelo ajustado em estudo observacional não prova causalidade: sugere associação independente dos fatores conhecidos, o que é diferente. É também por isso que o escore de propensão, os desenhos com grupo de comparação bem escolhido e, no topo, os ensaios randomizados existem — cada um ataca o confundimento de um jeito, e a randomização é a única que lida também com o que não foi medido.

Erros que mais aparecem na banca e na revisão

Parar na bivariada. Concluir causalidade a partir de associações não ajustadas, em estudo observacional, é o erro mais comum e o mais fácil de o revisor apontar.
Selecionar variáveis só pelo p < 0,05. Deixa confundidores conhecidos de fora e enviesa o modelo.
Estourar o EPV. Vinte preditores para 30 eventos geram um modelo que não se sustenta — intervalos enormes, coeficientes absurdos.
Ajustar por um mediador. Controlar uma variável no caminho causal apaga o efeito que se quer medir.
Confundir "não significativo" com "sem efeito". Um intervalo de confiança largo em amostra pequena não prova ausência de efeito; apenas revela imprecisão. Reporte sempre o intervalo de confiança, não só o p.
Não checar os pressupostos do modelo. Linearidade, ausência de multicolinearidade, riscos proporcionais (no Cox) — cada modelo tem suas condições, e ignorá-las invalida as conclusões.

Perguntas frequentes

Qual a diferença entre univariada e multivariada?

A univariada descreve uma variável por vez; a bivariada relaciona um fator ao desfecho isoladamente; a multivariada estima vários fatores ao mesmo tempo, cada um ajustado pelos outros — o que permite controlar confundimento.

Por que preciso da multivariada se a bivariada já deu significativa?

Porque a associação bivariada pode ser efeito de um terceiro fator. O modelo ajustado revela se ela persiste depois de controlar os confundidores.

Como seleciono as variáveis do modelo?

Pela clínica e pela literatura, definidas antes de olhar os dados. Levar ao modelo só o que teve p < 0,05 na bivariada é criticado porque enviesa as estimativas e ignora confundidores.

Quantas variáveis posso colocar?

Depende do número de eventos, não da amostra total. A regra clássica é 10 eventos por variável; abaixo disso, o modelo fica instável.

Multivariada e multivariável são a mesma coisa?

Tecnicamente não: "multivariável" tem vários preditores e um desfecho; "multivariada" tem múltiplos desfechos. Na prática médica, os termos são usados como sinônimos para o primeiro caso.

Preciso relatar as duas análises?

Em geral sim — a tabela típica mostra a estimativa bruta e a ajustada lado a lado, o que torna o efeito do ajuste transparente e atende ao STROBE.

Quer o modelo certo, com as variáveis certas?
A Evidens apoia o desenho, a seleção de variáveis, a análise multivariável e as figuras — sem coautoria, com o trabalho 100% seu.
Solicitar orçamento

Equipe Evidens · publicado em 3 de julho de 2026 · Conheça nossos serviços