Estudo caso-controle aninhado ou convencional: quando usar cada um
O estudo caso-controle é rápido, barato e ótimo para desfechos raros. Mas carrega dois problemas conhecidos: de onde vêm os controles e como a exposição foi medida. O caso-controle aninhado resolve boa parte disso ao nascer dentro de uma coorte — e é por isso que ele aparece cada vez mais em estudos de biomarcadores. Este guia explica o que é cada desenho, quando escolher um ou outro e qual a análise correta.
O que é um estudo caso-controle
No estudo caso-controle, a lógica é olhar para trás. Você parte de quem teve o desfecho (os casos) e de quem não teve (os controles), e compara a frequência da exposição nos dois grupos. Se os casos foram mais expostos do que os controles, há uma associação entre exposição e desfecho.
Esse desenho tem vantagens claras. É rápido, porque o desfecho já ocorreu — não é preciso esperar anos de seguimento. É barato, porque estuda só os casos e uma amostra de não casos, e não uma população inteira. E é o desenho ideal para desfechos raros: para estudar uma doença que atinge 1 em 10 mil pessoas, uma coorte precisaria de um número enorme de participantes; o caso-controle junta os poucos casos que existem e busca controles para comparar.
A medida de efeito típica é o odds ratio, porque o desenho não permite calcular incidência diretamente (você escolheu quantos casos e quantos controles entrariam, então não há denominador populacional).
Os dois calcanhares do caso-controle convencional
Apesar de útil, o caso-controle convencional é o desenho observacional mais vulnerável a viés. Dois problemas concentram a maior parte da crítica.
1. Viés de seleção: de onde vêm os controles?
O ponto mais difícil de um caso-controle é escolher os controles. Eles deveriam representar a população que gerou os casos — ou seja, pessoas que, se tivessem desenvolvido o desfecho, teriam virado casos no mesmo estudo. Na prática, isso é difícil de garantir. Controles de hospital podem ter outras doenças ligadas à exposição; controles da comunidade podem diferir dos casos em acesso ao serviço, hábitos ou disposição para participar. Quando os controles não representam a base correta, a associação observada fica distorcida.
2. Viés de memória e de medida
No caso-controle convencional, a exposição costuma ser reconstruída depois que o desfecho apareceu — por entrevista, questionário ou revisão de prontuário. Quem está doente tende a procurar explicações e lembra exposições passadas com mais detalhe e mais empenho do que quem está saudável. Esse viés de memória infla artificialmente a associação. Há ainda o risco de causalidade reversa: a exposição medida agora pode já ser consequência da doença, e não a causa dela.
Esses dois problemas têm a mesma raiz: no caso-controle clássico, a seleção dos controles e a medida da exposição acontecem depois do desfecho. É exatamente o que o desenho aninhado muda.
O caso-controle aninhado: o desenho dentro da coorte
Um estudo caso-controle aninhado (em inglês, nested case-control) é um caso-controle construído dentro de uma coorte que já existe. Imagine uma coorte de 50 mil pessoas acompanhadas por dez anos, todas com dados e amostras coletadas no início. Durante o seguimento, 600 desenvolvem o desfecho de interesse. Em vez de analisar as 50 mil, você define:
- Casos — os participantes da coorte que desenvolveram o desfecho durante o seguimento.
- Controles — uma amostra dos participantes da mesma coorte que, no momento em que cada caso ocorreu, ainda não tinham o desfecho.
A diferença que muda tudo: como a coorte foi montada antes de qualquer desfecho, a exposição já estava medida no início, do mesmo jeito para todos. Não há reconstrução retrospectiva, não há viés de memória, e a temporalidade — exposição antes do desfecho — fica garantida por desenho. E como casos e controles saem da mesma coorte, eles compartilham a mesma base populacional, o que praticamente elimina o velho problema de "de onde vêm os controles".
Como o aninhado é montado: o conjunto de risco
O detalhe técnico que define um bom caso-controle aninhado é quando os controles são sorteados. A forma recomendada é a amostragem por densidade de incidência (também chamada de amostragem do conjunto de risco, ou risk-set sampling):
No momento em que cada caso ocorre, olha-se para todos os participantes que ainda estavam sob risco naquele instante — vivos, em seguimento e sem o desfecho — e sorteia-se entre eles 1 a 4 controles. Esse grupo de "candidatos a controle" no momento do caso é o conjunto de risco. Um detalhe que confunde muita gente: nessa amostragem, uma pessoa sorteada como controle para um caso pode mais tarde virar caso ela mesma, e isso é correto — reflete que ela estava sob risco enquanto era controle.
Como os controles são pareados pelo tempo de seguimento (cada caso é comparado com quem estava sob risco no mesmo ponto do tempo), o desenho controla automaticamente o efeito do tempo de acompanhamento — uma variável de confusão importante em estudos longos.
Há uma alternativa mais antiga, a amostragem cumulativa, em que os controles são sorteados ao final, apenas entre quem nunca virou caso. Ela é mais simples, mas perde a vantagem temporal e exige a suposição de doença rara para que o odds ratio aproxime o risco relativo. A amostragem por densidade de incidência é a preferida na maioria dos estudos modernos.
Um exemplo concreto
Vale fixar a ideia com números. Suponha uma coorte de 50 mil mulheres acompanhadas por dez anos. No início, todas responderam questionários e doaram uma amostra de sangue, que foi congelada e guardada num biobanco. A pergunta de pesquisa: o nível de uma proteína inflamatória no sangue prediz câncer de mama?
Ao longo do seguimento, 600 mulheres desenvolvem câncer de mama (os casos). Dosar a proteína nas 50 mil amostras custaria, digamos, 50 reais por exame — 2,5 milhões de reais. Inviável. No caso-controle aninhado, você faz assim:
- Para cada um dos 600 casos, sorteia 2 controles entre as mulheres que, no momento em que aquele caso foi diagnosticado, ainda estavam em seguimento e sem câncer de mama.
- Isso dá 600 casos + 1.200 controles = 1.800 amostras a dosar — 90 mil reais, contra 2,5 milhões.
- A proteína é medida nas amostras congeladas de antes do diagnóstico, então o nível reflete o período pré-doença, não o efeito do tumor já instalado.
Com a regressão logística condicional, o resultado estima a razão de taxas de câncer de mama por nível da proteína — praticamente a mesma resposta que sairia de analisar a coorte inteira, por menos de 4% do custo de laboratório. Esse é o caso de uso que tornou o aninhado o desenho-padrão dos estudos de biomarcadores.
O primo do aninhado: o estudo caso-coorte
Existe um segundo desenho eficiente dentro de coortes, fácil de confundir com o aninhado: o estudo caso-coorte (case-cohort). A diferença está em como os controles são escolhos.
No caso-coorte, define-se logo no início uma subcoorte aleatória — uma amostra da coorte sorteada independentemente do desfecho. Essa subcoorte funciona como o grupo de comparação, e a ela somam-se todos os casos que aparecerem ao longo do seguimento (inclusive os que já estavam na subcoorte). A grande vantagem prática: como a subcoorte foi sorteada sem olhar para nenhum desfecho, a mesma subcoorte pode servir de comparação para vários desfechos diferentes. Se a coorte vai estudar câncer, doença cardiovascular e diabetes, um único conjunto de controles atende a todos.
| Aspecto | Caso-controle aninhado | Caso-coorte |
|---|---|---|
| Como os controles são sorteados | No momento de cada caso, entre quem está sob risco (conjunto de risco) | Subcoorte aleatória definida no início, independente do desfecho |
| Pareamento por tempo | Sim, embutido | Não embutido; tratado na análise |
| Reuso para vários desfechos | Difícil (controles ligados a um desfecho) | Sim — força do desenho |
| Análise típica | Regressão logística condicional | Modelo de Cox ponderado |
| Medida de efeito | Razão de taxas / hazard ratio | Hazard ratio / risco relativo |
A Evidens ajuda a escolher entre caso-controle aninhado e caso-coorte, definir a amostragem dos controles e planejar a análise — você continua único autor.
Solicitar orçamento
Quando o aninhado realmente compensa
Se você já tem a coorte inteira medida, por que não analisar todos os participantes? Porque às vezes medir a exposição em todo mundo é caro ou inviável. É aqui que o aninhado brilha:
- Biomarcadores em amostras armazenadas. A coorte guardou sangue, urina ou tecido congelado de todos no início, mas dosar um marcador caro nas 50 mil amostras custaria uma fortuna. No aninhado, você dosa só os 600 casos e, digamos, 1.200 controles — uma fração do custo, com a mesma validade.
- Medidas trabalhosas. Ler lâminas, classificar imagens, extrair e sequenciar DNA, revisar prontuários longos — qualquer exposição cuja medição consuma tempo ou dinheiro por participante.
- Exposições que se degradam. Algumas dosagens só fazem sentido em amostras bem preservadas; processar apenas os participantes selecionados concentra recursos onde eles importam.
A lógica econômica é direta: o poder estatístico de um caso-controle depende muito mais do número de casos (que é fixo e geralmente pequeno) do que do número de controles. Passar de "todos os controles da coorte" para "alguns controles por caso" custa pouca precisão e economiza muito. Por isso o aninhado entrega quase a mesma resposta da coorte completa por uma parcela do custo.
Aninhado ou analisar a coorte inteira?
Como o aninhado é uma amostra da coorte, ele perde um pouco de precisão em relação a analisar todos os participantes — os intervalos de confiança ficam um pouco mais largos. A pergunta prática é se essa perda importa. Na maioria dos casos, não: o poder de um caso-controle é governado pelo número de casos, que é o mesmo nos dois cenários, e com 4 controles por caso a eficiência já chega perto de 90% da coorte completa. Você troca uma fatia pequena de precisão por uma economia enorme de custo e de trabalho.
A conta vira a favor da coorte inteira em duas situações: quando a exposição já está medida em todos a custo desprezível (um campo num registro eletrônico, por exemplo) — aí não há o que economizar —, e quando o desfecho não é tão raro e há muitos casos, situação em que cada ponto de precisão pode contar. Fora disso, para desfechos pouco frequentes e medidas caras, o aninhado entrega quase a mesma resposta com uma fração do esforço.
E quando a exposição muda no tempo?
Uma força extra do aninhado dentro de coortes com seguimento é lidar com exposições que mudam ao longo do tempo — uso de um medicamento que começa e para, peso que varia, hábitos que se alteram. Como cada caso é comparado com controles do mesmo momento do seguimento, você pode usar o valor da exposição até aquele ponto, e não um valor único fixado no início. Isso aproxima a análise do que um modelo de Cox com covariáveis dependentes do tempo faria na coorte completa, e evita atribuir ao começo do estudo uma exposição que só apareceu depois. É um motivo a mais para preferir a amostragem por densidade de incidência quando a exposição não é estática.
A análise correta de um caso-controle aninhado
Como os controles foram pareados por tempo a cada caso, a análise precisa respeitar esse pareamento. A ferramenta padrão é a regressão logística condicional, que compara cada caso apenas com os controles do seu próprio conjunto de risco, e não joga todo mundo no mesmo bolo. Usar regressão logística comum aqui é um erro frequente — ela ignora o pareamento e pode enviesar as estimativas e os intervalos de confiança.
Um ponto elegante do desenho: com amostragem por densidade de incidência, o odds ratio da logística condicional estima a razão de taxas de incidência (próxima do hazard ratio), sem precisar da suposição de doença rara. Isso resolve uma das limitações clássicas do caso-controle convencional. Modelos de Cox sobre o conjunto de risco também são uma opção e levam ao mesmo lugar. Para o caso-coorte, a análise é diferente: usa-se um modelo de Cox ponderado (com pesos que corrigem o fato de a subcoorte ser uma amostra), nas variantes de Prentice, Self-Prentice ou Barlow.
Sobre confundimento: o aninhado controla covariáveis da mesma forma que qualquer estudo — por pareamento adicional na seleção (idade, sexo) e por ajuste multivariável na análise. Lembre-se de que não se estima o efeito da variável pela qual você pareou: se parear por idade, a idade sai da conta como exposição. Vale revisar os princípios em viés e fatores de confusão.
Quantos controles por caso?
A relação mais usada é de 1 a 4 controles por caso. O ganho de poder estatístico é grande quando se passa de 1 para 2, ainda relevante até cerca de 4, e fica pequeno a partir daí — uma propriedade conhecida como a "regra do 4". Quando cada medida de controle custa caro, raramente compensa ir além de 4 ou 5 controles por caso. O cálculo exato do tamanho amostral deve considerar o número esperado de casos, a razão controles:casos, a prevalência da exposição entre os controles e o efeito mínimo que se quer detectar.
Vantagens e limitações em uma página
Vantagens do caso-controle aninhado
- Temporalidade garantida — exposição medida antes do desfecho, sem causalidade reversa.
- Menos viés de memória — a exposição não é reconstruída pela lembrança de quem já adoeceu.
- Menos viés de seleção — casos e controles vêm da mesma base populacional bem definida.
- Eficiência de custo — mede a exposição cara só em quem entra no estudo.
- Estima a razão de taxas sem suposição de doença rara (com densidade de incidência).
Limitações
- Depende de uma coorte preexistente com exposição medida e, idealmente, amostras armazenadas. Sem coorte, não há aninhado.
- Perde alguma precisão em relação a analisar a coorte inteira — é uma troca consciente de precisão por custo.
- Controles atrelados a um desfecho — diferente do caso-coorte, é trabalhoso reaproveitar os mesmos controles para outro desfecho.
- Exige análise pareada — a logística condicional é obrigatória; ignorar o pareamento enviesa o resultado.
Onde o desenho mais aparece
O caso-controle aninhado virou peça central da epidemiologia de biomarcadores, justamente porque grandes coortes passaram a guardar amostras biológicas no início do seguimento. Exemplos do tipo de pergunta que ele responde bem:
- Marcadores sanguíneos e câncer — vitamina D, marcadores inflamatórios, hormônios ou metabólitos medidos em soro armazenado anos antes do diagnóstico, para testar se predizem o tumor.
- Infecção e doença futura — anticorpos ou DNA viral em amostras pré-diagnóstico (por exemplo, sorologia para um agente medida antes do aparecimento de uma neoplasia ligada a ele).
- Marcadores genéticos e moleculares — genotipagem ou metilação feita só nos selecionados, quando rodar a coorte inteira seria caro demais.
- Farmacoepidemiologia em bancos de dados — dentro de uma coorte de usuários de um medicamento, comparar quem teve um evento adverso raro com controles do mesmo banco, pareados por tempo de uso.
O fio comum a todos: existe uma coorte com a informação registrada antes do desfecho, e a medida que interessa é cara ou trabalhosa o bastante para não valer a pena fazer em todo mundo.
Passo a passo para conduzir um caso-controle aninhado
Na prática, o desenho se organiza em uma sequência clara:
- Defina a coorte de origem — a população, o período de entrada, o tempo de seguimento e como a exposição (ou a amostra a ser medida depois) foi registrada no início.
- Defina o desfecho e identifique os casos — com um critério objetivo e a data de ocorrência de cada caso, que será o ponto de referência no tempo.
- Escolha a estratégia de amostragem dos controles — densidade de incidência (preferível) ou cumulativa, e quais variáveis usar no pareamento (tempo é quase sempre uma; idade e sexo são comuns).
- Defina a razão controles:casos — em geral de 1 a 4, conforme o custo da medida e o poder desejado.
- Sorteie os controles em cada conjunto de risco — para cada caso, entre quem estava sob risco no momento do diagnóstico.
- Meça a exposição nos casos e controles selecionados, idealmente de forma cega ao status de caso ou controle.
- Analise com modelo pareado — regressão logística condicional, com ajuste para os confundidores que não entraram no pareamento.
- Relate segundo o STROBE, descrevendo a coorte, a definição de casos e, sobretudo, como os controles foram amostrados.
Erros comuns que reprovam o estudo
- Usar regressão logística comum em dados pareados. Se houve pareamento por tempo, a análise correta é a condicional. Ignorar isso enviesa as estimativas — é o erro técnico mais frequente.
- Sortear controles só entre quem nunca virou caso, achando que é mais "limpo". Na amostragem por densidade de incidência, um controle pode virar caso depois, e isso é correto. Excluir esses participantes introduz viés.
- Esquecer o tempo. Comparar um caso do ano 9 com um controle medido no ano 1, sem alinhar o tempo de seguimento, mistura efeitos de duração e idade com o efeito da exposição.
- Medir a exposição sabendo quem é caso. Se o laboratório sabe quais amostras são de casos, a aferição pode pender para um lado. O processamento cego protege contra isso.
- Tentar estimar o efeito da variável de pareamento. O que você pareou sai da análise como exposição — não dá para medir o efeito da idade se você pareou por idade.
- Tratar um caso-controle convencional como se fosse aninhado. Sem uma coorte de origem definida e exposição medida antes do desfecho, o desenho não tem as garantias do aninhado, por mais que os controles sejam bem escolhidos.
Quando NÃO aninhar
Se você não tem uma coorte por trás — apenas casos identificados em um serviço e controles a recrutar —, o desenho possível é o caso-controle convencional, feito com o máximo de cuidado na escolha dos controles e na medida da exposição. Se você tem a coorte e a exposição já foi medida em todos a um custo desprezível (por exemplo, está num registro eletrônico), pode não haver motivo para amostrar: analise a coorte inteira e ganhe precisão. O aninhado é a escolha certa no meio-termo: existe coorte, mas medir a exposição em todos é caro.
O que reportar
Estudos caso-controle aninhados são cobertos pelo checklist STROBE (extensão para caso-controle). No relato, deixe explícito: a coorte de origem e seu período; como os casos foram definidos e identificados; como e quando os controles foram amostrados (densidade de incidência ou cumulativa, e as variáveis de pareamento); a razão controles:casos; como a exposição foi medida e em que momento; e a análise pareada empregada. Descrever a amostragem dos controles com clareza é o item que os revisores mais cobram — é o que separa um aninhado bem-feito de um caso-controle disfarçado.
Perguntas frequentes
O que é um estudo caso-controle aninhado?
É um caso-controle conduzido dentro de uma coorte já existente. Os casos são quem desenvolveu o desfecho no seguimento; os controles são uma amostra de quem ainda não tinha o desfecho, na mesma coorte. Como a exposição foi medida antes do desfecho, o desenho preserva a temporalidade e reduz viés de seleção e de memória.
Qual a diferença entre o aninhado e o caso-controle convencional?
No convencional, casos e controles são reunidos depois do desfecho e a exposição é medida retrospectivamente. No aninhado, ambos vêm da mesma coorte e a exposição já estava registrada antes — controles mais comparáveis, temporalidade clara e menos viés de memória.
Qual a diferença entre caso-controle aninhado e caso-coorte?
No aninhado, os controles de cada caso são sorteados entre quem estava sob risco no momento do caso, em geral pareados por tempo. No caso-coorte, os controles são uma subcoorte aleatória definida no início, independente do desfecho, e podem servir para vários desfechos ao mesmo tempo.
Qual é a análise estatística correta?
Quando os controles são pareados por tempo, usa-se regressão logística condicional. Com amostragem por densidade de incidência, o odds ratio estima a razão de taxas (próxima do hazard ratio), sem suposição de doença rara. No caso-coorte, a análise é por modelo de Cox ponderado.
Quantos controles por caso?
Em geral de 1 a 4. O ganho de poder é grande até cerca de 4 controles por caso e marginal depois disso, então raramente se passa de 4 ou 5 quando a medida da exposição é cara.
Por que o aninhado é tão usado em estudos de biomarcadores?
Porque dosar um marcador caro em uma coorte inteira costuma ser inviável. No aninhado, mede-se só os casos e uma amostra de controles, usando amostras armazenadas de antes do desfecho. Sai quase a mesma resposta da coorte completa por uma fração do custo de laboratório.
Um controle pode virar caso depois?
Sim, e é correto. Na amostragem por densidade de incidência, alguém sorteado como controle estava sob risco naquele momento; se desenvolver o desfecho mais tarde, entra também como caso. Excluir esses participantes introduziria viés.
A Evidens faz desenho, análise e figuras — você continua único autor.
Solicitar