Confundimento

Escore de propensão: pareamento, ponderação e ajuste em estudos observacionais

Equipe Evidens · 23 de junho de 2026 · leitura de 12 min

Em um estudo sem randomização, quem recebe o tratamento quase nunca é parecido com quem não recebe — e essa diferença, e não o tratamento, pode explicar o desfecho. O escore de propensão é a ferramenta mais usada para reequilibrar esses grupos a partir das características medidas. Este guia explica o que ele é, as quatro formas de aplicá-lo, como provar que funcionou e, sobretudo, o que ele não resolve.

Resposta rápida. O escore de propensão é a probabilidade de cada participante receber o tratamento, dadas as suas características medidas antes da alocação. Estima-se essa probabilidade — em geral por regressão logística — e usa-se ela para equilibrar os grupos por pareamento, ponderação (IPTW), estratificação ou ajuste. Depois, checa-se o balanceamento pela diferença padronizada de médias (SMD < 0,1). O método controla apenas o confundimento medido — não substitui a randomização nem corrige variáveis não observadas.

O problema: comparar grupos que não são comparáveis

Em um ensaio clínico randomizado, o sorteio garante que, em média, os grupos comecem iguais em tudo — idade, gravidade, comorbidades, fatores que nem foram medidos. Qualquer diferença no desfecho pode então ser atribuída ao tratamento. Em um estudo observacional, não há sorteio: o tratamento foi escolhido por médicos e pacientes com base em motivos clínicos. Pacientes mais graves podem receber mais o tratamento agressivo; pacientes mais jovens e saudáveis podem receber a cirurgia que os idosos não toleram.

O resultado é o confundimento por indicação, a forma mais traiçoeira de viés em estudos de tratamento. Se quem recebeu a droga já era mais grave, comparar diretamente os dois grupos faz a droga parecer pior do que é — não porque ela piora o paciente, mas porque foi dada justamente aos piores. A pergunta central de qualquer estudo observacional de efeito vira, então: como tornar os grupos comparáveis usando o que conhecemos sobre eles?

A resposta intuitiva é ajustar para todas as diferenças. Mas com muitas covariáveis isso fica difícil: um modelo com vinte variáveis de confusão exige muitos desfechos para ser estável, e raramente conseguimos parear pacientes "iguais" em vinte dimensões ao mesmo tempo. Foi para resolver exatamente isso que Rosenbaum e Rubin propuseram, em 1983, o escore de propensão.

O que é o escore de propensão

O escore de propensão é a probabilidade de um participante receber o tratamento, dada toda a sua coleção de características medidas antes da alocação. É um número entre 0 e 1: um paciente com escore de 0,8 tinha, segundo suas características, 80% de "propensão" a receber o tratamento; um com 0,2 tinha pouca.

A propriedade que torna esse número útil é matemática e elegante: ele é um escore de balanceamento. Entre tratados e não tratados que compartilham o mesmo escore de propensão, a distribuição de todas as covariáveis usadas para calculá-lo tende a ser a mesma. Em outras palavras, o escore resume dezenas de variáveis em uma única dimensão, e equilibrar essa dimensão equilibra todas as variáveis de uma vez. Em vez de procurar um controle idêntico em vinte características, basta procurar um controle com escore parecido.

A ideia central. O escore de propensão transforma um problema multidimensional ("achar controles parecidos em muitas variáveis") em um problema unidimensional ("achar controles com probabilidade parecida de serem tratados"). Equilibrar o escore equilibra, em conjunto, todas as covariáveis que entraram nele.

Como o escore é estimado

O caminho padrão é uma regressão logística em que o desfecho do modelo é o tratamento (recebeu = 1, não recebeu = 0) e as variáveis explicativas são os fatores de confusão. Note a inversão: aqui o desfecho clínico do estudo (morte, recidiva, complicação) não entra na conta — o modelo só prevê quem foi tratado. Para cada participante, o modelo devolve uma probabilidade prevista, que é o seu escore de propensão.

Não é preciso que esse modelo seja parcimonioso nem que cada coeficiente faça sentido clínico — ele não é um modelo explicativo, é uma máquina de gerar probabilidades bem calibradas. Por isso é comum incluir muitas variáveis e até termos de interação, e por isso métodos de aprendizado de máquina (como gradient boosting) às vezes substituem a logística para capturar relações não lineares. O critério de sucesso não é o ajuste do modelo de tratamento em si, e sim o balanceamento das covariáveis que ele produz no final — voltaremos a isso.

As quatro formas de usar o escore

Estimado o escore, há quatro maneiras clássicas de usá-lo para remover o confundimento. As duas primeiras são de longe as mais comuns na literatura clínica.

MétodoComo funcionaEstima por padrão
PareamentoCasa cada tratado com 1+ não tratados de escore semelhante; quem não casa é descartadoATT (efeito nos tratados)
Ponderação (IPTW)Pondera cada participante pelo inverso da probabilidade do tratamento que recebeuATE (efeito na população)
EstratificaçãoDivide a amostra em faixas (quintis) do escore e combina os efeitos dentro delasATE aproximado
Ajuste como covariávelInclui o escore como uma variável no modelo do desfechoEfeito condicional

Pareamento por escore de propensão

É a abordagem mais transparente e a mais publicada. A lógica imita um ensaio: para cada paciente tratado, busca-se entre os não tratados aquele com escore de propensão mais próximo, formando pares comparáveis. A análise final compara desfechos dentro desses pares.

Algumas decisões definem a qualidade do pareamento:

O preço do pareamento é o descarte: tratados sem nenhum controle comparável (e muitos controles que sobram) ficam de fora. Isso muda a população analisada e é por isso que o pareamento costuma estimar o efeito nos tratados (ATT) — a pergunta passa a ser "qual o efeito naqueles que de fato receberam o tratamento", não em toda a população.

Ponderação pelo inverso da probabilidade (IPTW)

A ponderação não descarta ninguém: ela reequilibra a amostra dando a cada participante um peso. A ideia, vinda da teoria de amostragem, é criar uma "pseudo-população" em que o tratamento ficou independente das covariáveis. Cada participante recebe peso igual ao inverso da probabilidade do tratamento que de fato recebeu:

Ao dar mais peso aos participantes "atípicos" — tratados que pareciam candidatos a controle e vice-versa —, o IPTW reconstrói grupos equilibrados usando a amostra inteira. Por isso ele estima, na forma clássica, o efeito médio na população toda (ATE).

O ponto frágil do IPTW são os pesos extremos. Um participante com escore muito próximo de 0 ou de 1 gera um peso enorme, que domina a análise e infla a variância — um único paciente pode "puxar" todo o resultado. Duas defesas são padrão: os pesos estabilizados (que multiplicam pela probabilidade marginal do tratamento e mantêm os pesos mais comportados) e o truncamento (limitar os pesos a um percentil, por exemplo 1% e 99%). Pesos extremos costumam ser um sinal de que há participantes sem contraparte comparável — um problema de suporte comum, que discutimos a seguir.

Vai comparar dois tratamentos sem randomização?
A Evidens ajuda a escolher entre pareamento e ponderação, montar o escore de propensão, checar o balanceamento e estimar o efeito com o intervalo de confiança correto — você continua único autor.
Solicitar orçamento

Estratificação e ajuste como covariável

As outras duas formas são menos usadas hoje, mas vale conhecê-las. Na estratificação, divide-se a amostra em faixas do escore — classicamente cinco quintis — e estima-se o efeito do tratamento dentro de cada faixa, combinando depois os cinco efeitos em uma média ponderada. Cinco estratos já removem cerca de 90% do confundimento das covariáveis incluídas, segundo o trabalho original de Cochran. É simples, mas o equilíbrio dentro de cada estrato é apenas aproximado.

No ajuste como covariável, o escore de propensão entra simplesmente como mais uma variável no modelo de regressão do desfecho, ao lado do tratamento. É o método mais fácil de implementar, mas o menos transparente: ele não mostra se os grupos ficaram realmente comparáveis e ainda depende de o efeito do escore sobre o desfecho ter sido modelado na forma correta. De modo geral, pareamento e IPTW são preferidos justamente porque separam o desenho da análise: primeiro equilibram os grupos, depois — e só depois — olham para o desfecho.

O passo que não pode faltar: checar o balanceamento

Estimar o escore é meio caminho. O que prova que o método funcionou é mostrar que, depois de parear ou ponderar, tratados e não tratados ficaram parecidos nas covariáveis. A ferramenta padrão é a diferença padronizada de médias (SMD, standardized mean difference): a diferença entre os grupos em cada covariável, expressa em desvios-padrão.

Um erro frequente — e que ainda aparece em artigos publicados — é usar o valor de p de testes (t, qui-quadrado) para julgar o balanceamento. Isso é incorreto por duas razões: o valor de p depende do tamanho da amostra (em amostras grandes, diferenças triviais ficam "significativas"; em pequenas, diferenças grandes "não significativas"), e o balanceamento é uma propriedade da amostra que temos, não uma inferência sobre uma população. O SMD não depende do tamanho da amostra e é a métrica recomendada. Se alguma covariável importante continuar desequilibrada, refina-se o modelo do escore (adicionando termos ou interações) e repete-se — até que o balanceamento esteja bom.

Suporte comum: onde os grupos se sobrepõem

O escore de propensão só consegue comparar tratados e não tratados onde os dois existem. Se todos os pacientes com escore acima de 0,9 foram tratados e não há um único não tratado nessa faixa, não há com quem compará-los — nenhum método inventa o controle que não existe. Essa exigência tem dois nomes:

Na prática, plota-se a distribuição dos escores nos dois grupos e inspeciona-se a sobreposição. Pacientes fora do suporte comum são aparados, o que melhora a validade interna — ao custo de restringir a quem os resultados se aplicam. É uma troca honesta: melhor responder bem a uma pergunta sobre os pacientes comparáveis do que responder mal a uma pergunta sobre todos.

O que o escore de propensão NÃO resolve

Aqui está o ponto mais importante e o mais incompreendido. O escore de propensão equilibra apenas as variáveis que foram medidas e incluídas no modelo. Ele não toca no que não foi medido.

É exatamente aqui que ele difere da randomização. Um sorteio equilibra, em média, todos os fatores — os conhecidos, os medidos, os não medidos e os que nem sabemos que existem. O escore de propensão equilibra a performance status, o estádio, a idade e as comorbidades se você as mediu; mas se a decisão de tratar dependeu também da fragilidade percebida pelo médico, da preferência do paciente ou de um marcador que ninguém coletou, esse confundimento residual por variáveis não observadas permanece intacto. Uma tabela de balanceamento impecável com SMDs todos abaixo de 0,1 prova que as covariáveis medidas ficaram equilibradas — e não diz nada sobre as que faltam.

Por isso, um estudo com escore de propensão continua sendo um estudo observacional, com a hierarquia de evidência que isso implica. Métodos como a análise de sensibilidade a variáveis não medidas (por exemplo, o E-value, que quantifica quão forte um confundidor oculto teria de ser para anular o achado) ajudam a medir a robustez, mas não eliminam o problema. Quando se desconfia de confundimento não medido forte, desenhos alternativos — como variáveis instrumentais — podem ser mais apropriados, embora tenham suposições próprias e exigentes.

Quais variáveis incluir no escore

A escolha das covariáveis decide a qualidade de tudo. As regras, apoiadas por simulações, são razoavelmente claras:

Na dúvida entre incluir ou não uma variável fracamente ligada ao tratamento mas ligada ao desfecho, a literatura recomenda incluí-la. O risco maior é deixar de fora um confundidor real do que incluir um preditor de desfecho a mais.

Escore de propensão ou regressão multivariável tradicional?

É a pergunta que todo orientador faz. A verdade desconfortável é que, na maioria dos cenários, os dois métodos chegam a estimativas parecidas — ambos controlam o confundimento medido, e nenhum corrige o não medido. A escolha é mais de estratégia e comunicação do que de exatidão.

O escore de propensão leva vantagem em situações específicas:

A regressão tradicional, por sua vez, é mais direta quando há desfechos de sobra e poucas covariáveis, e quando o interesse é o efeito ajustado de várias variáveis ao mesmo tempo, não só do tratamento. Muitos estudos fazem as duas e mostram que concordam — uma análise de sensibilidade que reforça a confiança no achado.

A análise final e a medida de efeito

Depois de equilibrar os grupos, estima-se o efeito do tratamento sobre o desfecho clínico — agora sim com o desfecho real do estudo. A medida segue o tipo de desfecho: odds ratio ou risco relativo para desfechos binários, diferença de médias para contínuos, hazard ratio para tempo até evento.

Um detalhe técnico que muita análise erra: a incerteza precisa refletir o método. No pareamento, os pares não são independentes, então o ideal é usar variância que reconheça o pareamento (modelos robustos ou estratificados por par). No IPTW, os pesos introduzem correlação, e a variância correta usa estimadores robustos (sandwich) ou bootstrap — tratar os dados ponderados como se fossem uma amostra simples subestima o intervalo de confiança. Uma prática recomendada moderna é a estimação duplamente robusta, que combina o escore de propensão com um modelo do desfecho: basta um dos dois estar correto para a estimativa ser válida.

E o tamanho amostral?

O escore de propensão não cria informação; ele reorganiza a que existe. O poder estatístico continua governado pelo número de desfechos e pelo tamanho efetivo da amostra após o ajuste — que é menor do que o bruto, porque o pareamento descarta participantes e a ponderação reduz o tamanho efetivo quando há pesos desiguais. Por isso o cálculo do tamanho amostral de um estudo que usará escore de propensão deve prever essa perda: planejar com o número que sobrará depois do pareamento, não com o total inicial. Pareamentos com caliper apertado e bancos com pouca sobreposição podem descartar uma fração grande da amostra.

Erros comuns que comprometem o estudo

O que reportar

Estudos com escore de propensão são cobertos pelo checklist STROBE, e há recomendações específicas para o método. No relato, deixe explícito: quais covariáveis entraram no escore e por quê; como o escore foi estimado (modelo e variáveis); o método usado (pareamento — com algoritmo, caliper e razão; ou ponderação — com estabilização/truncamento); a checagem do balanceamento com SMD antes e depois (idealmente uma tabela ou love plot); o tratamento do suporte comum e de quem foi excluído; a medida de efeito com intervalo de confiança calculado de forma compatível com o método; e qual efeito (ATE ou ATT) foi estimado. Uma análise de sensibilidade a confundimento não medido (como o E-value) fortalece muito o trabalho. Descrever o balanceamento com clareza é o item que os revisores mais cobram — é o que distingue um uso rigoroso do escore de uma aplicação meramente decorativa.

Perguntas frequentes

O que é o escore de propensão?

É a probabilidade de um participante receber o tratamento, dadas as suas características medidas antes da alocação. Em geral é estimado por regressão logística, com o tratamento como desfecho do modelo e os confundidores como variáveis explicativas. Resumir muitas covariáveis em um único número permite equilibrar os grupos como se a alocação tivesse sido aleatória — dentro do que foi medido.

Quais são as formas de usar o escore?

Pareamento (casar tratados e não tratados de escore semelhante), ponderação pelo inverso da probabilidade (IPTW), estratificação por faixas do escore e ajuste do escore como covariável. Pareamento e IPTW são as mais usadas porque deixam o balanceamento visível e separam o desenho da análise.

O escore de propensão substitui a randomização?

Não. Ele equilibra apenas os confundidores medidos e incluídos no modelo. A randomização equilibra também os fatores não medidos e desconhecidos; o escore não faz isso. Por isso o estudo permanece observacional, sujeito a confundimento residual.

Como se verifica se funcionou?

Comparando as covariáveis entre os grupos depois do pareamento ou da ponderação, com a diferença padronizada de médias (SMD). Um SMD abaixo de 0,1 indica bom balanceamento. Não se deve usar o valor de p, que depende do tamanho da amostra.

Qual a diferença entre ATE e ATT?

O ATE é o efeito médio se toda a população fosse tratada versus não tratada; o ATT é o efeito restrito a quem de fato recebeu o tratamento. O pareamento costuma estimar o ATT; o IPTW clássico estima o ATE. A escolha deve refletir a pergunta clínica.

Quantas variáveis incluir?

Os fatores de confusão e os preditores do desfecho, mesmo fracos. Não inclua variáveis medidas após o tratamento nem instrumentos. Todas devem ter sido medidas antes da alocação.

Escore de propensão ou regressão tradicional?

Os dois controlam o confundimento medido e costumam concordar. O escore é vantajoso com desfecho raro e muitas covariáveis e quando se quer demonstrar comparabilidade; a regressão tradicional é mais simples quando há desfechos suficientes para o número de variáveis.

Precisa de método ou análise para o seu estudo?
A Evidens faz desenho, análise e figuras — você continua único autor.
Solicitar
Equipe Evidens · publicado em 23 de junho de 2026 · Conheça nossos serviços