Escore de propensão: pareamento, ponderação e ajuste em estudos observacionais
Em um estudo sem randomização, quem recebe o tratamento quase nunca é parecido com quem não recebe — e essa diferença, e não o tratamento, pode explicar o desfecho. O escore de propensão é a ferramenta mais usada para reequilibrar esses grupos a partir das características medidas. Este guia explica o que ele é, as quatro formas de aplicá-lo, como provar que funcionou e, sobretudo, o que ele não resolve.
O problema: comparar grupos que não são comparáveis
Em um ensaio clínico randomizado, o sorteio garante que, em média, os grupos comecem iguais em tudo — idade, gravidade, comorbidades, fatores que nem foram medidos. Qualquer diferença no desfecho pode então ser atribuída ao tratamento. Em um estudo observacional, não há sorteio: o tratamento foi escolhido por médicos e pacientes com base em motivos clínicos. Pacientes mais graves podem receber mais o tratamento agressivo; pacientes mais jovens e saudáveis podem receber a cirurgia que os idosos não toleram.
O resultado é o confundimento por indicação, a forma mais traiçoeira de viés em estudos de tratamento. Se quem recebeu a droga já era mais grave, comparar diretamente os dois grupos faz a droga parecer pior do que é — não porque ela piora o paciente, mas porque foi dada justamente aos piores. A pergunta central de qualquer estudo observacional de efeito vira, então: como tornar os grupos comparáveis usando o que conhecemos sobre eles?
A resposta intuitiva é ajustar para todas as diferenças. Mas com muitas covariáveis isso fica difícil: um modelo com vinte variáveis de confusão exige muitos desfechos para ser estável, e raramente conseguimos parear pacientes "iguais" em vinte dimensões ao mesmo tempo. Foi para resolver exatamente isso que Rosenbaum e Rubin propuseram, em 1983, o escore de propensão.
O que é o escore de propensão
O escore de propensão é a probabilidade de um participante receber o tratamento, dada toda a sua coleção de características medidas antes da alocação. É um número entre 0 e 1: um paciente com escore de 0,8 tinha, segundo suas características, 80% de "propensão" a receber o tratamento; um com 0,2 tinha pouca.
A propriedade que torna esse número útil é matemática e elegante: ele é um escore de balanceamento. Entre tratados e não tratados que compartilham o mesmo escore de propensão, a distribuição de todas as covariáveis usadas para calculá-lo tende a ser a mesma. Em outras palavras, o escore resume dezenas de variáveis em uma única dimensão, e equilibrar essa dimensão equilibra todas as variáveis de uma vez. Em vez de procurar um controle idêntico em vinte características, basta procurar um controle com escore parecido.
Como o escore é estimado
O caminho padrão é uma regressão logística em que o desfecho do modelo é o tratamento (recebeu = 1, não recebeu = 0) e as variáveis explicativas são os fatores de confusão. Note a inversão: aqui o desfecho clínico do estudo (morte, recidiva, complicação) não entra na conta — o modelo só prevê quem foi tratado. Para cada participante, o modelo devolve uma probabilidade prevista, que é o seu escore de propensão.
Não é preciso que esse modelo seja parcimonioso nem que cada coeficiente faça sentido clínico — ele não é um modelo explicativo, é uma máquina de gerar probabilidades bem calibradas. Por isso é comum incluir muitas variáveis e até termos de interação, e por isso métodos de aprendizado de máquina (como gradient boosting) às vezes substituem a logística para capturar relações não lineares. O critério de sucesso não é o ajuste do modelo de tratamento em si, e sim o balanceamento das covariáveis que ele produz no final — voltaremos a isso.
As quatro formas de usar o escore
Estimado o escore, há quatro maneiras clássicas de usá-lo para remover o confundimento. As duas primeiras são de longe as mais comuns na literatura clínica.
| Método | Como funciona | Estima por padrão |
|---|---|---|
| Pareamento | Casa cada tratado com 1+ não tratados de escore semelhante; quem não casa é descartado | ATT (efeito nos tratados) |
| Ponderação (IPTW) | Pondera cada participante pelo inverso da probabilidade do tratamento que recebeu | ATE (efeito na população) |
| Estratificação | Divide a amostra em faixas (quintis) do escore e combina os efeitos dentro delas | ATE aproximado |
| Ajuste como covariável | Inclui o escore como uma variável no modelo do desfecho | Efeito condicional |
Pareamento por escore de propensão
É a abordagem mais transparente e a mais publicada. A lógica imita um ensaio: para cada paciente tratado, busca-se entre os não tratados aquele com escore de propensão mais próximo, formando pares comparáveis. A análise final compara desfechos dentro desses pares.
Algumas decisões definem a qualidade do pareamento:
- Vizinho mais próximo. O algoritmo mais comum: para cada tratado, escolhe-se o não tratado de escore mais próximo. Simples e eficaz quando há controles suficientes.
- Caliper. Define-se uma distância máxima aceitável entre os escores (uma recomendação clássica é 0,2 do desvio-padrão do escore na escala logito). Pares fora do caliper são recusados — melhora a qualidade dos pares ao custo de descartar quem não tem par bom.
- Razão de pareamento. Pode-se casar 1:1, 1:2 ou mais controles por tratado. Mais controles aumentam a precisão, mas pioram a qualidade média dos pares.
- Com ou sem reposição. Sem reposição, cada controle entra em um único par; com reposição, um mesmo controle pode parear com vários tratados — útil quando há poucos controles parecidos, mas exige cuidado na variância.
O preço do pareamento é o descarte: tratados sem nenhum controle comparável (e muitos controles que sobram) ficam de fora. Isso muda a população analisada e é por isso que o pareamento costuma estimar o efeito nos tratados (ATT) — a pergunta passa a ser "qual o efeito naqueles que de fato receberam o tratamento", não em toda a população.
Ponderação pelo inverso da probabilidade (IPTW)
A ponderação não descarta ninguém: ela reequilibra a amostra dando a cada participante um peso. A ideia, vinda da teoria de amostragem, é criar uma "pseudo-população" em que o tratamento ficou independente das covariáveis. Cada participante recebe peso igual ao inverso da probabilidade do tratamento que de fato recebeu:
- Um tratado recebe peso 1 ÷ (escore de propensão). Um tratado que tinha baixa probabilidade de ser tratado (escore 0,1) é raro e "vale por muitos": peso 10.
- Um não tratado recebe peso 1 ÷ (1 − escore). Um não tratado que tinha alta probabilidade de tratamento (escore 0,9) também é raro e ganha peso alto.
Ao dar mais peso aos participantes "atípicos" — tratados que pareciam candidatos a controle e vice-versa —, o IPTW reconstrói grupos equilibrados usando a amostra inteira. Por isso ele estima, na forma clássica, o efeito médio na população toda (ATE).
O ponto frágil do IPTW são os pesos extremos. Um participante com escore muito próximo de 0 ou de 1 gera um peso enorme, que domina a análise e infla a variância — um único paciente pode "puxar" todo o resultado. Duas defesas são padrão: os pesos estabilizados (que multiplicam pela probabilidade marginal do tratamento e mantêm os pesos mais comportados) e o truncamento (limitar os pesos a um percentil, por exemplo 1% e 99%). Pesos extremos costumam ser um sinal de que há participantes sem contraparte comparável — um problema de suporte comum, que discutimos a seguir.
A Evidens ajuda a escolher entre pareamento e ponderação, montar o escore de propensão, checar o balanceamento e estimar o efeito com o intervalo de confiança correto — você continua único autor.
Solicitar orçamento
Estratificação e ajuste como covariável
As outras duas formas são menos usadas hoje, mas vale conhecê-las. Na estratificação, divide-se a amostra em faixas do escore — classicamente cinco quintis — e estima-se o efeito do tratamento dentro de cada faixa, combinando depois os cinco efeitos em uma média ponderada. Cinco estratos já removem cerca de 90% do confundimento das covariáveis incluídas, segundo o trabalho original de Cochran. É simples, mas o equilíbrio dentro de cada estrato é apenas aproximado.
No ajuste como covariável, o escore de propensão entra simplesmente como mais uma variável no modelo de regressão do desfecho, ao lado do tratamento. É o método mais fácil de implementar, mas o menos transparente: ele não mostra se os grupos ficaram realmente comparáveis e ainda depende de o efeito do escore sobre o desfecho ter sido modelado na forma correta. De modo geral, pareamento e IPTW são preferidos justamente porque separam o desenho da análise: primeiro equilibram os grupos, depois — e só depois — olham para o desfecho.
O passo que não pode faltar: checar o balanceamento
Estimar o escore é meio caminho. O que prova que o método funcionou é mostrar que, depois de parear ou ponderar, tratados e não tratados ficaram parecidos nas covariáveis. A ferramenta padrão é a diferença padronizada de médias (SMD, standardized mean difference): a diferença entre os grupos em cada covariável, expressa em desvios-padrão.
- Calcula-se o SMD de cada covariável antes e depois do ajuste.
- A convenção é que um SMD abaixo de 0,1 indica desequilíbrio desprezível.
- O resultado costuma ser mostrado em uma tabela (a "Tabela 1" antes e depois) ou em um love plot, que põe os SMDs lado a lado.
Um erro frequente — e que ainda aparece em artigos publicados — é usar o valor de p de testes (t, qui-quadrado) para julgar o balanceamento. Isso é incorreto por duas razões: o valor de p depende do tamanho da amostra (em amostras grandes, diferenças triviais ficam "significativas"; em pequenas, diferenças grandes "não significativas"), e o balanceamento é uma propriedade da amostra que temos, não uma inferência sobre uma população. O SMD não depende do tamanho da amostra e é a métrica recomendada. Se alguma covariável importante continuar desequilibrada, refina-se o modelo do escore (adicionando termos ou interações) e repete-se — até que o balanceamento esteja bom.
Suporte comum: onde os grupos se sobrepõem
O escore de propensão só consegue comparar tratados e não tratados onde os dois existem. Se todos os pacientes com escore acima de 0,9 foram tratados e não há um único não tratado nessa faixa, não há com quem compará-los — nenhum método inventa o controle que não existe. Essa exigência tem dois nomes:
- Suporte comum (overlap). A faixa de escores em que há participantes dos dois grupos. Comparar fora dela é extrapolar.
- Positividade. A condição teórica de que todo participante tenha probabilidade maior que zero (e menor que um) de receber qualquer um dos tratamentos. Escores colados em 0 ou 1 violam a positividade e são a origem dos pesos extremos do IPTW.
Na prática, plota-se a distribuição dos escores nos dois grupos e inspeciona-se a sobreposição. Pacientes fora do suporte comum são aparados, o que melhora a validade interna — ao custo de restringir a quem os resultados se aplicam. É uma troca honesta: melhor responder bem a uma pergunta sobre os pacientes comparáveis do que responder mal a uma pergunta sobre todos.
O que o escore de propensão NÃO resolve
Aqui está o ponto mais importante e o mais incompreendido. O escore de propensão equilibra apenas as variáveis que foram medidas e incluídas no modelo. Ele não toca no que não foi medido.
É exatamente aqui que ele difere da randomização. Um sorteio equilibra, em média, todos os fatores — os conhecidos, os medidos, os não medidos e os que nem sabemos que existem. O escore de propensão equilibra a performance status, o estádio, a idade e as comorbidades se você as mediu; mas se a decisão de tratar dependeu também da fragilidade percebida pelo médico, da preferência do paciente ou de um marcador que ninguém coletou, esse confundimento residual por variáveis não observadas permanece intacto. Uma tabela de balanceamento impecável com SMDs todos abaixo de 0,1 prova que as covariáveis medidas ficaram equilibradas — e não diz nada sobre as que faltam.
Por isso, um estudo com escore de propensão continua sendo um estudo observacional, com a hierarquia de evidência que isso implica. Métodos como a análise de sensibilidade a variáveis não medidas (por exemplo, o E-value, que quantifica quão forte um confundidor oculto teria de ser para anular o achado) ajudam a medir a robustez, mas não eliminam o problema. Quando se desconfia de confundimento não medido forte, desenhos alternativos — como variáveis instrumentais — podem ser mais apropriados, embora tenham suposições próprias e exigentes.
Quais variáveis incluir no escore
A escolha das covariáveis decide a qualidade de tudo. As regras, apoiadas por simulações, são razoavelmente claras:
- Inclua os fatores de confusão — variáveis associadas tanto ao tratamento quanto ao desfecho. São o alvo principal.
- Inclua também os preditores do desfecho, mesmo que tenham pouca relação com o tratamento. Eles aumentam a precisão sem introduzir viés.
- Não inclua variáveis medidas depois do tratamento — mediadores ou consequências do tratamento. Ajustar por elas bloqueia parte do efeito que se quer medir (viés de sobreajuste).
- Evite os instrumentos — variáveis que predizem o tratamento mas não têm relação com o desfecho a não ser pelo tratamento. Incluí-las não reduz o confundimento e infla a variância, podendo até amplificar o viés de variáveis não medidas.
- Tudo medido antes da alocação. Uma covariável só é confundidora se precede o tratamento; usar valores posteriores quebra a temporalidade.
Na dúvida entre incluir ou não uma variável fracamente ligada ao tratamento mas ligada ao desfecho, a literatura recomenda incluí-la. O risco maior é deixar de fora um confundidor real do que incluir um preditor de desfecho a mais.
Escore de propensão ou regressão multivariável tradicional?
É a pergunta que todo orientador faz. A verdade desconfortável é que, na maioria dos cenários, os dois métodos chegam a estimativas parecidas — ambos controlam o confundimento medido, e nenhum corrige o não medido. A escolha é mais de estratégia e comunicação do que de exatidão.
O escore de propensão leva vantagem em situações específicas:
- Desfecho raro com muitas covariáveis. A regra prática é ter ao menos cerca de dez desfechos por variável no modelo. Se há 30 mortes e 20 confundidores, um modelo de Cox ou logístico do desfecho fica instável. O escore de propensão modela o tratamento (que costuma ser muito mais frequente que o desfecho raro), então as 20 covariáveis não consomem os escassos graus de liberdade do desfecho.
- Quando mostrar comparabilidade importa. A tabela de balanceamento antes/depois é uma evidência visual poderosa de que os grupos ficaram parecidos — mais convincente para o leitor do que coeficientes de um modelo.
- Para separar desenho e análise. Montar o escore e checar o balanceamento antes de olhar o desfecho protege contra a tentação de ajustar o modelo até o resultado agradar.
A regressão tradicional, por sua vez, é mais direta quando há desfechos de sobra e poucas covariáveis, e quando o interesse é o efeito ajustado de várias variáveis ao mesmo tempo, não só do tratamento. Muitos estudos fazem as duas e mostram que concordam — uma análise de sensibilidade que reforça a confiança no achado.
A análise final e a medida de efeito
Depois de equilibrar os grupos, estima-se o efeito do tratamento sobre o desfecho clínico — agora sim com o desfecho real do estudo. A medida segue o tipo de desfecho: odds ratio ou risco relativo para desfechos binários, diferença de médias para contínuos, hazard ratio para tempo até evento.
Um detalhe técnico que muita análise erra: a incerteza precisa refletir o método. No pareamento, os pares não são independentes, então o ideal é usar variância que reconheça o pareamento (modelos robustos ou estratificados por par). No IPTW, os pesos introduzem correlação, e a variância correta usa estimadores robustos (sandwich) ou bootstrap — tratar os dados ponderados como se fossem uma amostra simples subestima o intervalo de confiança. Uma prática recomendada moderna é a estimação duplamente robusta, que combina o escore de propensão com um modelo do desfecho: basta um dos dois estar correto para a estimativa ser válida.
E o tamanho amostral?
O escore de propensão não cria informação; ele reorganiza a que existe. O poder estatístico continua governado pelo número de desfechos e pelo tamanho efetivo da amostra após o ajuste — que é menor do que o bruto, porque o pareamento descarta participantes e a ponderação reduz o tamanho efetivo quando há pesos desiguais. Por isso o cálculo do tamanho amostral de um estudo que usará escore de propensão deve prever essa perda: planejar com o número que sobrará depois do pareamento, não com o total inicial. Pareamentos com caliper apertado e bancos com pouca sobreposição podem descartar uma fração grande da amostra.
Erros comuns que comprometem o estudo
- Julgar o balanceamento pelo valor de p. Use o SMD (< 0,1), não testes de hipótese, que dependem do tamanho da amostra.
- Incluir variáveis pós-tratamento no escore. Mediadores e consequências do tratamento introduzem viés de sobreajuste; só entram covariáveis anteriores à alocação.
- Ignorar o suporte comum. Comparar faixas de escore onde só existe um dos grupos é extrapolar para pacientes sem contraparte real.
- Não tratar os pesos extremos no IPTW. Sem estabilização ou truncamento, um punhado de pesos enormes pode dominar o resultado.
- Usar variância ingênua. Tratar pares ou dados ponderados como amostra simples subestima o intervalo de confiança — use estimadores robustos.
- Apresentar o escore como se fosse randomização. Ele controla o confundimento medido; afirmar que "equilibra os grupos como um ensaio" omite as variáveis não observadas.
- Confundir ATE e ATT. Reporte qual efeito está sendo estimado e por quê — pareamento e ponderação respondem a perguntas sutilmente diferentes.
O que reportar
Estudos com escore de propensão são cobertos pelo checklist STROBE, e há recomendações específicas para o método. No relato, deixe explícito: quais covariáveis entraram no escore e por quê; como o escore foi estimado (modelo e variáveis); o método usado (pareamento — com algoritmo, caliper e razão; ou ponderação — com estabilização/truncamento); a checagem do balanceamento com SMD antes e depois (idealmente uma tabela ou love plot); o tratamento do suporte comum e de quem foi excluído; a medida de efeito com intervalo de confiança calculado de forma compatível com o método; e qual efeito (ATE ou ATT) foi estimado. Uma análise de sensibilidade a confundimento não medido (como o E-value) fortalece muito o trabalho. Descrever o balanceamento com clareza é o item que os revisores mais cobram — é o que distingue um uso rigoroso do escore de uma aplicação meramente decorativa.
Perguntas frequentes
O que é o escore de propensão?
É a probabilidade de um participante receber o tratamento, dadas as suas características medidas antes da alocação. Em geral é estimado por regressão logística, com o tratamento como desfecho do modelo e os confundidores como variáveis explicativas. Resumir muitas covariáveis em um único número permite equilibrar os grupos como se a alocação tivesse sido aleatória — dentro do que foi medido.
Quais são as formas de usar o escore?
Pareamento (casar tratados e não tratados de escore semelhante), ponderação pelo inverso da probabilidade (IPTW), estratificação por faixas do escore e ajuste do escore como covariável. Pareamento e IPTW são as mais usadas porque deixam o balanceamento visível e separam o desenho da análise.
O escore de propensão substitui a randomização?
Não. Ele equilibra apenas os confundidores medidos e incluídos no modelo. A randomização equilibra também os fatores não medidos e desconhecidos; o escore não faz isso. Por isso o estudo permanece observacional, sujeito a confundimento residual.
Como se verifica se funcionou?
Comparando as covariáveis entre os grupos depois do pareamento ou da ponderação, com a diferença padronizada de médias (SMD). Um SMD abaixo de 0,1 indica bom balanceamento. Não se deve usar o valor de p, que depende do tamanho da amostra.
Qual a diferença entre ATE e ATT?
O ATE é o efeito médio se toda a população fosse tratada versus não tratada; o ATT é o efeito restrito a quem de fato recebeu o tratamento. O pareamento costuma estimar o ATT; o IPTW clássico estima o ATE. A escolha deve refletir a pergunta clínica.
Quantas variáveis incluir?
Os fatores de confusão e os preditores do desfecho, mesmo fracos. Não inclua variáveis medidas após o tratamento nem instrumentos. Todas devem ter sido medidas antes da alocação.
Escore de propensão ou regressão tradicional?
Os dois controlam o confundimento medido e costumam concordar. O escore é vantajoso com desfecho raro e muitas covariáveis e quando se quer demonstrar comparabilidade; a regressão tradicional é mais simples quando há desfechos suficientes para o número de variáveis.
A Evidens faz desenho, análise e figuras — você continua único autor.
Solicitar