Modelagem

Análise univariada e multivariada: o que é e quando usar

Equipe Evidens · 3 de julho de 2026 · leitura de 15 min
Resposta rápida. A análise univariada descreve uma variável de cada vez; a bivariada relaciona um fator ao desfecho, sem controlar mais nada; a multivariada (multivariável) estima o efeito de vários fatores ao mesmo tempo, cada um ajustado pelos demais. É esse ajuste que controla os fatores de confusão e transforma uma associação bruta em uma estimativa mais próxima do efeito real. A regra prática que sustenta tudo: escolha as variáveis pela clínica e pela literatura, não pelo valor de p da bivariada, e respeite o limite de eventos por variável.

Quase todo estudo clínico com desfecho definido passa por esta sequência: descrever a amostra, comparar grupos e, então, montar um modelo que estime o efeito de um fator ajustado pelos outros. Os nomes — univariada, bivariada, multivariada — parecem intercambiáveis, e são usados de forma confusa até em artigos publicados. Mas a diferença entre eles é justamente onde mora o raciocínio causal do estudo. Entender isso é o que separa "a variável X deu p < 0,05" de "o efeito de X se mantém depois de controlar idade, estágio e comorbidade".

Este guia organiza os três níveis, explica por que o multivariado é quase sempre necessário, mostra como selecionar variáveis sem cair nas armadilhas clássicas e lista os erros que mais aparecem na banca e na revisão por pares.

Os três níveis, sem confusão de nomes

A contagem no nome se refere ao número de variáveis analisadas ao mesmo tempo:

NívelQuantas variáveisPergunta que responde
UnivariadaUmaComo essa variável se distribui? (média, mediana, frequência)
BivariadaDuasEste fator, sozinho, está associado ao desfecho?
MultivariávelTrês ou maisQual o efeito deste fator sobre o desfecho, ajustado pelos outros?

A análise univariada é puramente descritiva: idade média dos participantes, proporção de mulheres, mediana de tempo de internação. Não há relação entre variáveis — é a matéria-prima da "Tabela 1".

A análise bivariada cruza duas variáveis: um teste t comparando a idade entre quem teve e quem não teve o desfecho, um qui-quadrado entre sexo e complicação, uma regressão logística simples com um único preditor. Aqui já há uma associação, mas ela olha o fator isolado, como se nada mais existisse.

A análise multivariável coloca vários fatores no mesmo modelo. Cada coeficiente passa a representar o efeito daquele fator mantendo os demais constantes — o famoso "ajustado por". É esse mecanismo que permite responder à pergunta que realmente interessa na pesquisa clínica.

A confusão de nomenclatura que você vai encontrar. Muitos artigos escrevem "análise univariada" para o passo de testar cada candidato contra o desfecho antes de montar o modelo. Tecnicamente isso é bivariado (duas variáveis: o candidato e o desfecho). O uso é tão disseminado que virou convenção, mas saber a diferença evita mal-entendidos — e perguntas capciosas de banca.

Por que o univariado (ou bivariado) quase nunca basta

O motivo tem um nome: confundimento. Um fator de confusão é uma terceira variável associada tanto à exposição quanto ao desfecho, capaz de criar — ou mascarar — uma associação entre eles.

O exemplo clássico: suponha que, na análise bivariada, pacientes operados por uma técnica nova morram menos do que os da técnica antiga. Parece que a técnica nova é melhor. Mas, se a técnica nova foi oferecida preferencialmente a pacientes mais jovens e com menos comorbidade, a diferença pode ser inteiramente da idade, não da técnica. A idade é um confundidor: está ligada à escolha da técnica (exposição) e ao risco de morte (desfecho).

O modelo multivariável resolve isso estimando o efeito da técnica dentro de cada faixa de idade e comorbidade ao mesmo tempo — matematicamente, mantendo esses fatores constantes. Se, depois desse ajuste, a vantagem da técnica desaparecer, ela era um artefato do confundimento. Se persistir, a evidência a favor da técnica fica muito mais forte.

É por isso que estudos observacionais sérios raramente param na bivariada: sem randomização, os grupos diferem em muitas coisas além da exposição de interesse, e só o ajuste multivariável (ou métodos como o escore de propensão) aproxima a comparação de um cenário justo.

Precisa montar o modelo multivariável do seu estudo?
A Evidens faz o desenho, a seleção de variáveis, a análise e as figuras — você continua único autor.
Solicitar orçamento

Como escolher as variáveis do modelo

Esta é a decisão mais delicada — e a mais errada — de toda a modelagem. Há duas escolas.

A abordagem estatística automática (e por que desconfiar dela)

A prática mais comum em trabalhos de conclusão e artigos iniciantes: rodar a bivariada de cada candidato, e levar ao modelo multivariável apenas os que tiveram p < 0,05. É simples, mas tem problemas reais e bem documentados:

Métodos automáticos passo a passo (stepwise: forward, backward) sofrem dos mesmos males e são criticados na literatura metodológica há décadas, embora ainda apareçam muito.

A abordagem informada pela clínica (a recomendada)

A escolha mais defensável parte do conhecimento prévio, não dos dados:

Quando um limiar de triagem é usado, a literatura sugere um corte frouxo (p < 0,20 ou p < 0,25) em vez de 0,05, exatamente para não descartar confundidores cedo demais. Mas o julgamento informado pela clínica é superior a qualquer regra automática.

Um roteiro prático de seleção

Reunindo os dois mundos, uma sequência defensável para a maioria dos estudos observacionais é:

  1. Liste os candidatos antes de olhar os dados, a partir da pergunta e da literatura.
  2. Force a entrada dos confundidores consagrados (idade, sexo, estágio, comorbidade — conforme o tema), independentemente do p.
  3. Confira o teto de eventos por variável (adiante) antes de decidir quantos candidatos adicionais cabem.
  4. Se precisar triar, use um corte frouxo (p < 0,20) ou, melhor, a plausibilidade — nunca só o p < 0,05.
  5. Cheque colinearidade entre candidatos (VIF, matriz de correlação): dois preditores que medem quase a mesma coisa inflam os erros-padrão e desestabilizam os coeficientes.
  6. Documente a decisão — quais entraram, quais saíram e por quê. É o que o revisor vai querer ver.

Variáveis contínuas: não as "quebre" sem motivo

Um erro silencioso na montagem do modelo é categorizar variáveis contínuas por conveniência — transformar idade em "≥ 60 vs < 60", por exemplo. Parece mais fácil de interpretar, mas custa caro:

A recomendação metodológica é manter a variável contínua e, se houver suspeita de relação não linear (o risco não sobe de forma constante com a idade, por exemplo), modelá-la com termos apropriados — polinômios ou splines — em vez de recortá-la em caixas. Categorize apenas quando houver um limiar clínico real e consagrado.

Termos de interação: quando o efeito depende de outro fator

O modelo multivariável básico assume que o efeito de cada preditor é o mesmo em todos os subgrupos. Nem sempre é. Um termo de interação testa se o efeito de um fator muda conforme o nível de outro — por exemplo, se um tratamento funciona bem em pacientes jovens mas não em idosos.

Interações são poderosas, mas exigem parcimônia: cada uma consome graus de liberdade (conta no orçamento de eventos por variável) e precisa de justificativa prévia. Testar todas as interações possíveis à cata de uma significativa é mais uma forma de p-hacking. Inclua apenas as que a pergunta de pesquisa pede — e interprete o efeito principal com cuidado quando houver interação no modelo, porque ele deixa de valer "em média".

Quantas variáveis cabem: a regra de eventos por variável

Existe um teto para o número de preditores, e ele não depende do tamanho total da amostra — depende do número de eventos (o desfecho menos frequente).

A regra tradicional é de 10 eventos por variável (EPV) na regressão logística e na regressão de Cox. Alguns exemplos:

Ultrapassar o EPV produz overfitting: o modelo se ajusta ao ruído da amostra, os coeficientes ficam instáveis, os intervalos de confiança se alargam e a replicação em outra base falha. Categorias raras de uma variável e a separação (quando um preditor prevê o desfecho perfeitamente) são sinais de que há preditores demais para o número de eventos.

O EPV mudou? Trabalhos recentes mostram que 10 é uma regra de bolso, não uma lei — dependendo do cenário, valores menores podem bastar, e às vezes é preciso mais. A recomendação moderna é calcular o tamanho amostral necessário para o modelo desde o desenho, em vez de confiar cegamente no número 10. A lógica, porém, é a mesma: limite os preditores ao que o seu número de eventos sustenta.

Como isso aparece no artigo

A convenção de relato é apresentar, para cada variável, a estimativa bruta (não ajustada) e a ajustada lado a lado:

VariávelOR bruto (IC95%)OR ajustado (IC95%)
Técnica nova0,55 (0,34–0,89)0,81 (0,48–1,37)
Idade (por década)1,70 (1,40–2,06)1,63 (1,33–2,00)
Estágio avançado2,90 (1,90–4,42)2,55 (1,63–3,99)

A leitura dessa tabela conta uma história: o efeito aparente da "técnica nova" (OR bruto 0,55, significativo) desaparece após o ajuste (OR 0,81, intervalo cruzando 1) — era confundido pela idade e pelo estágio, que se mantêm fortes no modelo ajustado. Mostrar as duas colunas torna essa mudança transparente e atende ao checklist STROBE, que pede o relato das estimativas brutas e ajustadas e dos confundidores considerados.

Repare que a interpretação certa do OR ajustado da técnica é: "mantidos a idade e o estágio constantes, a técnica nova não mostrou associação significativa com o desfecho". A palavra-chave é mantidos constantes — sem ela, a frase vira a conclusão bruta, que estava errada.

Sobre a escolha do modelo conforme o desfecho: desfecho binário pede regressão logística (razão de chances); tempo até um evento pede regressão de Cox (hazard ratio); desfecho contínuo pede regressão linear. O princípio do ajuste multivariável é o mesmo nos três — muda a medida de efeito e os pressupostos, não a lógica de controlar confundidores.

Ajuste não conserta tudo

Vale um alerta contra o excesso de confiança: o modelo multivariável só controla os confundidores que você mediu e incluiu. O que ficou de fora — o confundimento residual — continua distorcendo o resultado. Se um fator prognóstico importante não foi coletado, nenhum ajuste o traz de volta.

Por isso, mesmo um belo modelo ajustado em estudo observacional não prova causalidade: sugere associação independente dos fatores conhecidos, o que é diferente. É também por isso que o escore de propensão, os desenhos com grupo de comparação bem escolhido e, no topo, os ensaios randomizados existem — cada um ataca o confundimento de um jeito, e a randomização é a única que lida também com o que não foi medido.

Erros que mais aparecem na banca e na revisão

Perguntas frequentes

Qual a diferença entre univariada e multivariada?

A univariada descreve uma variável por vez; a bivariada relaciona um fator ao desfecho isoladamente; a multivariada estima vários fatores ao mesmo tempo, cada um ajustado pelos outros — o que permite controlar confundimento.

Por que preciso da multivariada se a bivariada já deu significativa?

Porque a associação bivariada pode ser efeito de um terceiro fator. O modelo ajustado revela se ela persiste depois de controlar os confundidores.

Como seleciono as variáveis do modelo?

Pela clínica e pela literatura, definidas antes de olhar os dados. Levar ao modelo só o que teve p < 0,05 na bivariada é criticado porque enviesa as estimativas e ignora confundidores.

Quantas variáveis posso colocar?

Depende do número de eventos, não da amostra total. A regra clássica é 10 eventos por variável; abaixo disso, o modelo fica instável.

Multivariada e multivariável são a mesma coisa?

Tecnicamente não: "multivariável" tem vários preditores e um desfecho; "multivariada" tem múltiplos desfechos. Na prática médica, os termos são usados como sinônimos para o primeiro caso.

Preciso relatar as duas análises?

Em geral sim — a tabela típica mostra a estimativa bruta e a ajustada lado a lado, o que torna o efeito do ajuste transparente e atende ao STROBE.

Quer o modelo certo, com as variáveis certas?
A Evidens apoia o desenho, a seleção de variáveis, a análise multivariável e as figuras — sem coautoria, com o trabalho 100% seu.
Solicitar orçamento
Equipe Evidens · publicado em 3 de julho de 2026 · Conheça nossos serviços