Seguro que han oído muchas veces aquello de que correlación no implica causalidad. En otro caso, acaban de leerlo. ¿Qué significa correlación? ¿Para que se estudia? ¿Cuándo podemos concluir algo al estudiar la correlación entre dos datos? A estas y otras preguntas vamos a tratar de responder en las líneas siguientes (uy, qué teatrero me ha salido).

Como decíamos en la introducción, el consumo de queso y el golf en Estados Unidos están fuerte y directamente relacionados como nos muestra la siguiente gráfica:

width=

La línea verde representa el consumo de queso (medido en libras americanas) per cápita en ese país desde 2000 a 2009 y la línea roja los beneficios (en millones de dólares) de los campos de golf en las mismas fechas. Si se fijan, abajo aparece un dato que nos informa de que la correlación es 0.989705. ¿Qué es ese número y que nos indica? Ese número es una medida que cuando alcanza valores muy cercanos a 1, indica una correlación directa: cuando crece el consumo de queso, los campos de golf ganan más dinero.

Sin embargo, y evidentemente, no tienen nada que ver. Ni el consumo de queso causa beneficios en los campos de golf, ni la práctica de dicho deporte incita al consumo del citado producto lácteo.

Lo dicho: correlación no implica causalidad. Pero sí al revés, si una determinada acción causa un determinado efecto, al estudiar los datos aparecerá correlación. Lo que ocurre, a veces, es que algunos caen en un error lógico, conocido como la falacia de afirmación del consecuente: si A implica B, entonces B implica A. Y no, no es así, y el ejemplo simple es el de: si llueve se moja el suelo, pero si el suelo está mojado no tiene porque haber llovido.

Vamos a contar un poco de estadística, con lenguaje informal, para tratar de explicarlo.

Suponga que usted es, por ejemplo, agricultor y está barajando la posibilidad de adquirir para sus cultivos un nuevo fertilizante. Supongamos además que dispone usted de muchas hectáreas, al estilo de la Duquesa de Alba, y en ese caso, por lo tanto, antes de usar el citado fertilizante, quiere comprobar que, efectivamente, mejora el rendimiento de sus cultivos. Para ello, en una parcela pequeña y durante un periodo determinado de tiempo, usted usa el fertilizante, aumentando poco a poco la dosis. En su hoja de cálculo usted va registrando, regularmente, dos datos: el rendimiento del cultivo y la dosis de fertilizante administrada.

Ahora representamos esos datos en una gráfica, como la siguiente (es un ejemplo ficticio, muy simple, para simplificar la explicación):

Gráfica 1

Si al representar los datos en la gráfica nos queda algo como en la gráfica 1, podríamos pensar que, efectivamente, cuánto más dosis mejor funciona, ¿no? Pues no, si nos sale así, lo que sabemos es que los datos están correlacionados positivamente (cuando crece uno crece el otro y al revés, pero no que uno sea la causa del otro), pero no tiene por qué ser uno de ellos el causante del crecimiento o el decrecimiento del otro. Causalidad implica correlación, como decíamos en el título, pero no al revés.

Este razonamiento es válido, el de que los datos están correlacionados, porque la distribución de los puntos rojos es 'cercana' a una recta.

Gráfica 2

Si ocurre algo como lo que muestra la gráfica 3, que los puntos están muy dispersos, y su distribución no es, ni de lejos, 'cercana' a una recta, no sabemos nada. Solo que no están correlacionados de forma lineal, pero pudiera existir otro tipo de correlación. Nunca podemos deducir de esto que no existe correlación y, por lo tanto, que no exista causalidad.

Gráfica 3


En el único caso en el que, en principio, pueden mandar a paseo al vendedor de fertilizante es en aquel en el que al representar los datos obtengan una gráfica como la siguiente:

Gráfica 4

 

En este caso, existe un correlación negativa, eso significa que el fertilizante está afectando negativamente a sus cultivos ¿Por qué? Pues porque causalidad implicaría correlación positiva. Como no tenemos correlación positiva, sino negativa, significa que nuestro fertilizante no es bueno.

Volviendo al ejemplo del queso y el golf, en esta página pueden consultar muchos otros datos curiosos que están correlacionados y que no tienen nada que ver. Si en el caso del queso y el golf, la correlación es directa (cuanto más queso comen, más ganan los campos de golf); tienen esta otra en la que la correlación es inversa entre el consumo de margarina y las muertes por inanición (cuanto más margarina, menos muerte por hambre).

width=

También hay una gráfica en esa página que muestra la correlación inversa entre el número de películas de Nicolas Cage y el número de accidentes de helicópteros en las que mueren sus ocupantes.

width=

Bueno, bueno... lo que voy a decir no tiene nada que ver con estadística, pero en el próximo vuelo en el que me pongan una película de Cage, yo me tiro en paracaídas, que ya tuve bastante con aquel vuelo en el que ocurrió todo lo malo. Y es que, parafraseando a mi hijo mayor, yo cuando vuelo, no soy tan científica.