Correlação não implica em causalidade (caso contrário eu nunca mais tomaria sorvete)

Cientistas revelam: consumo de queijo mozarela te deixa mais inteligente!

(gráfico retirado de: http://tylervigen.com/view_correlation?id=3890)

Absurdo, certo? Mas e se eu dissesse que comer ‘sour cream’ amenta número de acidentes com motos?

(veja outros exemplos como esse nesse site.)

Se você não acreditou nos enunciados acima, parabéns: você é uma pessoa sensata. Mas então porque ainda vemos afirmações tão absurdas como essas se passarem por verdade todos os dias? Primeiro porque talvez o absurdo não seja tão fácil de reconhecermos, e certamente porque tendemos a confundir correlação com causalidade. Nesse texto, tentaremos entender por que.

Daniel Kahneman, prêmio Nobel de Economia em 2002, dedicou grande parte de sua pesquisa ao entendimento de como as pessoas tomam decisões. No seu livro mais recente, “Thinking Fast and Slow“, ele tenta fazer um apanhado de sua pesquisa acadêmica, feita em grande parte com o psicólogo Amos Tversky. Uma das conclusões mais importantes dessa pesquisa é a de que as pessoas são particularmente ruins em lidar com problemas probabilísticos (veja uma entrevista com Kahneman sobre o livro clicando aqui).

Um dos motivos para essa “deficiência” é que nosso cérebro parece ser desenhado para reconhecer padrões. De uma perspectiva evolutiva, ela pode ter deixado os primeiros hominídeos aptos a perceber situações perigosas rapidamente – e portanto evita-las. Mas essa característica também nos criou muita dificuldade para lidar com a aleatoriedade. Um exemplo particularmente interessante desse tipo de comportamento se deu quando a Apple decidiu mudar o algoritmo de escolha das músicas que iriam tocar no modo “shuffle” do iPod, devido a reclamações dos usuários que notavam que, por vezes, musicas do mesmo artista ou de artistas parecidos eram tocadas em sequência (o que é perfeitamente possível em um padrão aleatório), e portanto a seleção de músicas não parecia ser aleatória. A Apple então mudou o algoritmo de seleção das músicas para evitar que isso acontecesse. Nas palavras de Steve Jobs: ‘We’re making it less random to make it feel more random’ (veja a reportagem).

Outra maneira de frasearmos esse mesmo princípio é que nós estamos sempre, subconscientemente, procurando correlações entre eventos. Naturalmente, uma vez encontrada uma correlação entre eventos, ficamos tentados a estabelecer uma relação de causalidade entre eles. Mas confundir correlação com causalidade pode acabar gerando vários problemas na nossa interpretação dos fatos.

Antes de continuar, se você ainda não está convencido de que correlação e causalidade são duas coisas diferentes, vamos tratar de fazê-lo com alguns exemplos.

Observou-se que, em várias cidades nos Estados Unidos, o aumento da venda de sorvetes é acompanhado por um aumento no número de homicídios.
A taxa de divórcios no Estado de Maine (EUA) e o consumo per-capita de margarina nos EUA andam juntos (correlação = 0.99 – lembrando que a correlação varia entre -1 e 1).
A receita total de campos de golfe nos EUA tem correlação de 0.96 com o número de pessoas que morrem afogadas em fontes naturais de água (lagos, mar, etc).
A receita total gerada por instalações de ski tem correlação de 0.97 com o número de pessoas que morrem após ficarem embaraçados em sua roupa de cama (nos EUA).

Os dois gráficos do início desse texto e esses últimos 3 exemplos foram retirados do site (bastante interessante): http://tylervigen.com/ (há muitos outros exemplos, eu apenas escolhi alguns).

Espero que todos os leitores estejam convencidos após chegarem à conclusão de que sorvetes não induzem ninguém a cometer homicídios, mas ainda cito o livro “O Andar do Bêbado”, do físico Leonard Mlodinow, que apresenta inúmeros casos, variando de executivos de Hollywood a analistas de Wall Street, onde as pessoas tendem a perceber relações causais onde elas realmente não existem (mesmo para os leitores convencidos da diferença entre correlação e causalidade, ainda vale a leitura).

Mas então o que são exatamente correlação e causalidade?

Causalidade é uma relação entre dois eventos, A e B, que estabelece o evento A como causa do evento B, e o evento B como efeito do evento A. Por exemplo, nós sabemos que uma planta precisa de água para crescer. Logo, um pequeno fazendeiro que depende das chuvas para que sua plantação cresça, estabelece a seguinte relação: ‘chuva’ é a causa de ‘plantação crescer’ e ‘plantação crescer’ é o efeito de ‘chuva’.

Parece simples, mas não é. O grande problema com o conceito de causalidade é que não podemos medi-la. O máximo que podemos fazer é observar que toda vez que chove, a plantação cresce, e que toda vez que não chove, a plantação morre. Como nós já sabemos que as plantas precisam de água para crescer, podemos inferir que a chuva providencia água para as plantas, que então crescem. Mas note que, no final das contas, nossa observação pode apenas confirmar ou rejeitar a nossa hipótese de que plantas precisam de água para crescer. O contrário não vale, mas voltaremos a isso.

Correlação é um conceito mais complicado, então tentaremos apresenta-lo da forma mais simples possível. Vamos continuar com nosso exemplo: as variáveis aleatórias aqui são ‘quantidade de chuva’ e ‘crescimento da plantação’. Nesse caso, poderíamos observar que se chove muito, as plantas crescem muito; e que se chove pouco, as plantas crescem pouco. Se isso acontece na maioria das vezes, dizemos que há uma correlação positiva entre a quantidade de chuva e o crescimento das plantas, isto é: quanto mais chove, mais as plantas crescem. Se acontecesse o contrário (se há mais chuva, as plantas crescem menos), diríamos que há uma correlação negativa. Por fim, se a relação fosse completamente aleatória (isto é, a chuva em nada afeta o crescimentos das plantas), diríamos que a correlação é nula.

Veja que dessa discussão simples já conseguimos extrair uma conclusão extremamente importante: se sabemos como duas variáveis se comportam, então sabemos o que esperar da correlação entre elas. Mas em nenhum momento podemos dizer que, sabendo que duas variáveis têm correlação não nula, podemos inferir que uma causa a outra!

Imagine agora que o fazendeiro observa que suas vendas de produtos agrícolas sobem sempre que chove, e portanto sua renda é maior (suponha que ele não afete o preço dos produtos que vende). Em outras palavras, ele observa que a correlação entre a quantidade de chuva e a sua receita é positiva. Ele poderia então inferir que a chuva causou uma renda maior? Não! Afinal a chuva não tem relação nenhuma relação direta com sua renda. Nesse caso, a chuva afeta a renda por meio de um canal intermediário – o crescimento da produção –, mas não é causa do aumento da receita do fazendeiro.

Há outro tipo de confusão que fazemos entre correlação e causalidade, que talvez seja até mais difícil de identificar por não há uma terceira via que explique algum tipo de causalidade indireta. Ela se dá quando observamos uma correlação não nula, mas a verdadeira correlação é nula. Como explicamos em um texto anterior (clique aqui para ler), à medida que aumentamos uma amostra (aleatória), maior a chance que temos de acertar a verdadeira proporção de bolas pretas e brancas numa sacola, ou de pessoas que votam em um candidato específico. No entanto, se a amostra é pequena, nossa chance de errar é grande. O mesmo vale com a correlação entre duas variáveis aleatórias: se a amostra é grande, a correlação que observamos está provavelmente mais próxima do que estaria caso nossa amostra fosse pequena. Esse é provavelmente o caso da correlação entre o consumo de queijo e o número de doutores em engenharia civil. Por puro acaso, essas variáveis andaram juntas em alguns anos, mas se aumentarmos nossa amostras, poderíamos ver com mais clareza que elas realmente não são relacionadas.

Esse tipo de discussão já nos ajuda a entender porque as empresas farmacêuticas demoram tanto para colocar novas drogas no mercado. Tivemos um exemplo recente disso com a crise relacionada ao vírus do ebola. Como se tratava de uma situação crítica, algumas empresas até usaram medicamentos experimentais em alguns pacientes, mas isso em geral não é o caso. Em situações normais, as empresas farmacêuticas conduzem uma enorme quantidade de testes para ter certeza de que os pacientes realmente estão sendo curados pelo medicamento, e não por algum outro fator desconhecido. Em outras palavras, a mera correlação positiva entre ‘tomar o medicamento’ e ‘se curar da doença’ não é suficiente para concluir causalidade: primeiro devemos eliminar todos os outros fatores que também podem interferir na cura até que, por exclusão, concluímos que é o medicamento que a está causando.

Pois bem, o que isso tem a ver comigo, se eu não sou um fazendeiro ou uma empresa farmacêutica? Um exemplo que pode ser interessante são as campanhas dos candidatos a presidente do Brasil. A candidata à reeleição, Dilma Rouseff, frequentemente culpa a crise internacional pela má performance econômica do Brasil nos últimos anos. Como saber se essa má performance do crescimento econômico foi realmente culpa da crise internacional ou se foi culpa das políticas econômicas adotadas pelo governo? Como não podemos fazer experimentos em ciências sociais (em oposição à companhia farmacêutica), geralmente fazemos “experimentos naturais”, isto é: comparar a experiência brasileira com a experiência de países similares que adotaram políticas distintas. Esse tipo de análise é extremamente delicada, já que é muito difícil achar países similares em todos os sentidos mas que difiram em termos de política. Ao leitor interessado, cito o artigo de Carrasco et al (2014) que tenta fazer esse tipo de análise.

Para que fique claro que o objetivo desse texto não é político, note que o mesmo pode ser dito de qualquer candidato, não só da atual presidente. O candidato do PSBD, Aécio Neves, frequentemente cita bons resultados atingidos durante seu governo em Minas Gerais. Mas o período no qual ele governou coincidiu com um período de bom mercado externo, em particular para algumas commodities produzidas em Minas Gerais. Como saber se os bons resultados que o candidato menciona são fruto do bom cenário externo ou de suas políticas enquanto governador? Mais uma vez: análise das políticas e comparação com outros Estados semelhantes. Infelizmente desconheço alguma referência que tenha feito tal análise para o governo de Minas Gerais, mas tenho certeza de que existem estudos competentes com esse intuito.

A mensagem que esse texto pretende passar é: cuidado ao estabelecer relações causais entre eventos. Estudos empíricos não medem causalidade, eles apenas medem correlação. Essa afirmação é verdadeira em qualquer ciência. Nas ciências sociais em particular, as coisas são ainda piores, porque não podemos fazer experimentos. Sendo assim, estabelecer relações causais entre eventos é uma atividade extremamente delicada e requer muita atenção e reflexão. Muitas vezes nos descuidamos e confundimos uma mera correlação com causalidade, e assim descartamos outras possíveis explicações para um dado fenômeno. Esse tipo de descuido é natural, e todos já o cometemos, mas ele é por vezes muito sério e pode prejudicar nossa interpretação dos fatos. Se você leu até aqui, esperamos que esse texto tenha lhe servido para ao menos estar sempre alerta para a diferença entre o que é uma correlação e o que é uma causalidade.

Correlation

(imagem retirada de: http://xkcd.com/552/)

Referências:

CARRASCO, Vinicius, MELLO, João M. P. de, DUARTE, Isabela. A Década Perdida: 2003 – 2012. Departamento de Economia, PUC-Rio, texto para discussão nº 626. 2014. (link)

KAHNEMAN, Daniel. Thinking, Fast and Slow. Macmillan, 2011.

MLODINOW, Leonard. O andar do bêbado: como o acaso determina nossas vidas. Rio de Janeiro, Zahar, 2011, 1ª edição.

Pessoal,

Bacana a iniciativa, mas há alguns problemas no texto:

1) “O grande problema com o conceito de causalidade é que não podemos medi-la”.

A frase está muito estranha, talvez você quis dizer outra coisa, mas é possível medir efeitos causais. Por exemplo, cada aumento de uma unidade de X causa a redução de unidade de Y, coisas do tipo. Ou tomar o remédio X aumenta em z% a probabilidade de recuperação.

2) Controle sintético não é um experimento natural;

3) Na definição de correlação (que é mais simples do que a definição de causalidade), você próprio acabou misturando correlação com causalidade, quando você diz:

” Por fim, se a relação fosse completamente aleatória (isto é, a chuva em nada afeta o crescimentos das plantas), diríamos que a correlação é nula.”

Dizer que a chuva não afeta o crescimento das plantas é causal. Além disso, é impreciso dizer que algo completamente aleatório implica em correlação nula.

4) Causalidade também pode ser indireta:

A frase abaixo está incorreta:

“Nesse caso, a chuva afeta a renda por meio de um canal intermediário – o crescimento da produção –, mas não é causa do aumento da receita do fazendeiro.

Quando você diz que a chuva afeta (conceito causal) a renda por meio do crescimento da produção, isso é causalidade.

Pense no seguinte: um remédio pode aumentar a quantidade de anticorpos que combatem uma doença. Você vai dizer que o remédio não ajudou no combate da doença?

Acho que aqui você queria apontar para “confouding factors” , e não para causalidade indireta que é perfeitamente ok.

5) O problema das correlações das séries temporais apresentadas muito possivelmente tem mais a ver com tendência do que com amostra pequena.

CurtirCurtido por 2 pessoas

Responder

3 comentários sobre “Correlação não implica em causalidade (caso contrário eu nunca mais tomaria sorvete)”

Carlos Cinelli disse:

setembro 26, 2014 às 12:02 am

Pessoal,

Bacana a iniciativa, mas há alguns problemas no texto:

1) “O grande problema com o conceito de causalidade é que não podemos medi-la”.

A frase está muito estranha, talvez você quis dizer outra coisa, mas é possível medir efeitos causais. Por exemplo, cada aumento de uma unidade de X causa a redução de unidade de Y, coisas do tipo. Ou tomar o remédio X aumenta em z% a probabilidade de recuperação.

2) Controle sintético não é um experimento natural;

3) Na definição de correlação (que é mais simples do que a definição de causalidade), você próprio acabou misturando correlação com causalidade, quando você diz:

” Por fim, se a relação fosse completamente aleatória (isto é, a chuva em nada afeta o crescimentos das plantas), diríamos que a correlação é nula.”

Dizer que a chuva não afeta o crescimento das plantas é causal. Além disso, é impreciso dizer que algo completamente aleatório implica em correlação nula.

4) Causalidade também pode ser indireta:

A frase abaixo está incorreta:

“Nesse caso, a chuva afeta a renda por meio de um canal intermediário – o crescimento da produção –, mas não é causa do aumento da receita do fazendeiro.

Quando você diz que a chuva afeta (conceito causal) a renda por meio do crescimento da produção, isso é causalidade.

Pense no seguinte: um remédio pode aumentar a quantidade de anticorpos que combatem uma doença. Você vai dizer que o remédio não ajudou no combate da doença?

Acho que aqui você queria apontar para “confouding factors” , e não para causalidade indireta que é perfeitamente ok.

5) O problema das correlações das séries temporais apresentadas muito possivelmente tem mais a ver com tendência do que com amostra pequena.

CurtirCurtido por 2 pessoas

Responder
- absollaci disse:
  
  setembro 26, 2014 às 10:22 pm
  
  Olá Carlos, obrigado pelos comentários! Uma das coisas mais difíceis em escrever esses textos é usar uma linguagem simples sem perder a rigorosidade. Nesse aspecto, acho que você tem razão nas suas colocações. Vou tentar esclarecer um pouco:
  
  1) Nesse caso, o que eu quis dizer foi que não dá observar causalidade diretamente; ou seja, a priori, o que observamos nos dados é uma correlação entre duas variáveis aleatórias. Essa correlação pode ser fruto de uma relação causal entre as variáveis ou não, e o ponto do texto era chamar atenção para esse fato. Entretanto, uma vez que estabelecemos que há uma relação causal entre as variáveis (via alguma teoria ou até eliminação de outros fatores), podemos usar essa correlação para estimar o efeito de uma variável sobre outra.
  
  2) Ok. Tem razão, embora o controle sintético tente replicar as condições de um experimento natural.
  
  3) A ‘relação aleatória’ a qual eu me referia era independência estocástica. O problema é que o conceito de independência é um tanto complicado de passar via um post no blog, e eu tenho a impressão de que só quem já soubesse o que é independência acabaria entendendo. Esse foi o jeito que eu encontrei de tentar passar a ideia (talvez haja algum jeito muito melhor…).
  
  4) De novo, tem razão. Eu falei de duas coisas no texto: causalidade indireta e correlação espúria, e não fui muito claro em distinguir uma coisa da outra. Mas, mais uma vez, isso tem mais a ver com as restrições em escrever um texto que seja ao mesmo tempo compreensível para alguém que nunca estudou estatística (infelizmente não vemos isso no ensino médio), curto o suficiente (afinal ninguém lê nada muito longo na internet), e que trate do assunto que queríamos.
  
  5) Possivelmente… e provavelmente. Mas os períodos das séries que aparecem foram escolhidos para terem a maior correlação possível. É provável que a tendência entre consumo de queijo e número de PhD’s em engenharia civil não tenham uma tendência tão próxima ao longo de uma série mais longa.
  
  CurtirCurtido por 2 pessoas
“Coxinhas” e “Petralhas” que tal um voto racional? | Economia de Pen Drive disse:

outubro 19, 2014 às 10:50 pm

[…] para vieses o tempo todo. A má interpretação de dados, gerada por análises simplistas, já foi tópico comentado aqui. Temos uma predisposição a aceitar causalidades sem análises cuidadosas. Assim como temos uma […]

CurtirCurtir

Responder