Correlación es sólo un síntoma de causación

La frase de “todo está interconectado”, típica del pensamiento mágico, encuentra su contestación en la no menos famosa “la correlación no implica causalidad”. Sobre las confusiones que genera confundir estos dos conceptos estadísticos Kristin Suleng publicaba un reportaje en Buenavida, la sección de salud del diario El País. “Ver películas de Nicolas Cage aumenta el riesgo de ahogarse en la piscina” contaba con las voces de varios expertos matemáticos, entre ellos David Ríos, director de la Cátedra AXA en Riesgos Adversarios en el ICMAT, para darnos algunas pistas sobre cómo entrenar el razonamiento probabilístico y estadístico y así evitar caer en trampas y manipulaciones. Reproducimos a continuación una entrevista completa a partir de las preguntas enviadas por El País, en la que ahonda sobre los errores en la concepción de fenómenos en los que hay incertidumbre.P: Es conocida la frase de que la correlación no implica causalidad, pero confundir ambas sigue siendo un error habitual. ¿Qué hacemos mal?

R: Lo que hacemos mal es confundir la ocurrencia simultánea (en el tiempo y/o en el lugar) de dos fenómenos, con que uno sea causa del otro. Un ejemplo clásico es suponer que porque en verano el consumo de helados en Denia esté altamente correlacionado con el número de ahogados en, por ejemplo, Benidorm, tal consumo sea causa de ahogamiento. En realidad en este caso hay una tercera variable, la temperatura, que explica las oscilaciones en ambas variables: a mayor calor en Denia, mayor consumo de helados allí, pero también hará mayor calor en Benidorm, y mayor cantidad de gente que se bañará allí, por lo que, en consecuencia, más gente se ahogará.

P: ¿Por qué seguimos cayendo en esa trampa?

R: La razón de cometer ese error, y otros muchos, se debe, principalmente, a un inadecuado entrenamiento en el razonamiento probabilístico y estadístico que recibimos. También, puede deberse a un comportamiento no ético de quién nos da la información, que puede estar motivado por intereses económicos (por ejemplo, que quieran conducirnos a realizar compras o inversiones que les interese vendernos), políticos (que conduzca a decisiones que puedan interesar a un grupo de presión) o científicos (por la presión de obtener conclusiones más “llamativas” que puedan ser publicadas en revistas científicas).

P: ¿Cómo se define la correlación?

R: En términos generales, la correlación entre dos variables mide la dependencia que existe entre ellas, es decir, si una de las variables crece, la otra tiende a hacerlo también (por ejemplo al hacer más calor, se venden más helados) o a decrecer (por ejemplo, en ciertas situaciones, al crecer el precio de la gasolina se compra menos, y viceversa).

P: ¿Matemáticamente esto en qué se traduce?

R: La correlación se mide de forma matemática, habitualmente con el coeficiente de correlación de Pearson, que mide la relación de dependencia lineal entre dos variables, aunque hay otros métodos. En términos estadísticos, este coeficiente se asocia a la covarianza de las variables (que mide si las variaciones sobre las medias de estas variables se dan de forma simultánea). Este valor se “normaliza” dividiendo por las desviaciones típicas de las variables correspondientes. De esta manera, esta medida es muy conveniente, pues es adimensional y escala entre -1 y 1. Cuando es 1, la relación entre ambas variables es lineal y creciente; cuando es -1, es lineal y decreciente. Cuando las variables son independientes (es decir, una no aporta información alguna sobre la otra y viceversa) el coeficiente es 0 (pero si es 0 no significa que las variables sean independientes, salvo en casos especiales). Así que una correlación alta (cercana a 1) es indicativo de co-ocurrencia y co-crecimiento de dos variables.

P: ¿Qué matices hay entre correlación y causalidad? ¿En qué se diferencian?

R: La causalidad es algo diferente: cuando se da un fenómeno, se produce el otro, con alta probabilidad y bajo ciertas circunstancias. Una correlación alta puede ser indicio de causalidad (de una variable sobre la otra, o viceversa). Sin embargo, también puede deberse a, entre otras, que haya una tercera variable que cause ambas (sin que haya relación entre las variables de interés); que una de ellas cause una tercera variable que a su vez sea causa de la segunda variable en cuestión; o que no haya realmente conexión entre ambas variables y sea una coincidencia esa alta correlación.

Así pues, el fallo (involuntario o no) reside en asumir que tal indicio de causalidad es de hecho cierto.

P: ¿A qué lleva esta confusión?

R: Muchas decisiones relevantes dependen de la detección de relaciones causa-efecto. Por ejemplo, en medicina, para la introducción de medicamentos y la prohibición de hábitos de consumo; en seguridad aérea, para la implementación de procedimientos de vuelo; en política pública, para la puesta en marcha de medidas económicas. Si creemos que hay una relación causal entre dos o más variables, cuando en realidad no existe tal relación, podemos estar malgastando recursos inútilmente e, incluso, perjudicialmente.

P:¿Qué claves debemos tener en cuenta para no caer en las estadísticas falsas como los ejemplos presentados en este blog?

R: La clave principal es recordar que correlación es sólo un síntoma de causación y, a partir de ahí, poner en cuarentena una conclusión demasiado rápida sobre causación. Es importante valorarla de forma crítica y pensar si ésta relación es relevante (en término económicos, sociales,…) o no. Si sí lo es, debemos pensar primero si podemos estar en alguno de los supuestos antes mencionados (causa común, causa intermedia, casualidad,….). En ocasiones, razonando sobre el fenómeno físico, económico, social,… podemos detectar en qué caso estamos. Si no es así, y el fenómeno es suficientemente relevante (por ejemplo, detectar que fumar produce cáncer), se han de realizar estudios aleatorizados controlados, que puede ayudar a dilucidar la cuestión. En ocasiones no son factibles tales estudios y los llamados métodos de inferencia causal pueden ser de ayuda.

P: ¿Es importante conocer la diferencia entre correlación y causalidad en nuestra vida cotidiana? ¿Por qué?

R: En general, sería importante mejorar nuestro entrenamiento en razonamiento estadístico y probabilístico para mejorar nuestra vida cotidiana: entender mejor algunos riesgos, tomar mejores decisiones como consumidores, como votantes,… en general, para adoptar una visión más crítica de la realidad que nos rodea y ser menos manipulables. Y parte de ese mejor entrenamiento es entender la diferencia entre correlación y causalidad. Así podríamos entender mejor tratamientos médicos, productos financieros y de seguros,… y otros que nos ofreciesen.

P: La forma en que se presentan los datos influye en cómo interpretamos la información. ¿Cómo podemos hacer para no dejarnos manipular?

R: Los políticos, sociólogos, economistas, estadísticos y diseñadores saben bien que la presentación de los datos les lleva a vender mejor productos, ideas,…. El simple hecho de cómo se representan dos variables (los colores, las escalas en que se miden, los pictogramas elegidos,…) ya puede llevar a interpretaciones erróneas. Frente a ello, complementar la representación gráfica con resúmenes numéricos (como la correlación) puede ser muy útil para facilitar la interpretación. Pero también hay que tener cuidado con el tipo de resumen numérico que se utiliza, sea adecuado a los datos empleados,… Por ejemplo, en las valoraciones de políticos que suelen dar los periódicos, se calcula la media, lo cual no tiene mucho sentido para escalas ordinales. En el caso de correlaciones (de Pearson) hay que aplicarlas según los datos que se manejen (para otros tipos de datos hay
otras correlaciones) y recordar que es una medida de la covariación lineal de dos variables.

P: En una economía basada en los datos, las administraciones públicas y privadas utilizan las estadísticas y las correlaciones para la toma de decisiones. ¿Qué implicaciones podría tener si gobiernos y empresas no distinguen entre correlación y causalidad?

R: Si aceptan como causales los fenómenos para los que se detecta alta correlación sin aplicar ninguna reflexión crítica, tales organizaciones pueden tomar decisiones inútiles o, incluso, dañinas y malgastar recursos, en un mundo en el que los recursos son escasos.

Confundir correlación y causalidad es un ejemplo de los errores que solemos tener las personas al procesar información sobre fenómenos en los que hay incertidumbre. Otros ejemplos serían la tendencia al exceso de confianza sobre lo que en realidad sabemos, la no consideración de las tasas básicas al procesar información o la confusión con el concepto de probabilidades condicionadas.