La crisis de replicación: por qué tanta psicología no resistió el examen

En agosto de 2015, un equipo de 270 investigadores liderado por el psicólogo Brian Nosek publicó una sola cifra que cayó sobre la disciplina como un veredicto. Trabajando bajo el nombre de la Open Science Collaboration, habían tomado 100 estudios de tres revistas de psicología de primera línea, habían rehecho cada uno con el mayor cuidado posible y habían contabilizado los resultados. Alrededor del 36 por ciento de ellos se replicó. Dicho con claridad, cuando los científicos se remangaron y volvieron a realizar estos experimentos célebres, casi dos de cada tres no lograron producir el efecto original.

Los estudios no eran oscuros. Muchos habían sido citados cientos de veces, enseñados en cursos de grado e incorporados a libros de divulgación sobre la mente. Algunos habían dado origen a programas de investigación enteros. Verlos evaporarse bajo una nueva prueba cuidadosa fue, para una generación de psicólogos, algo a la vez alarmante y esclarecedor. La cifra no demostraba que la psicología fuera falsa, pero sí obligaba a plantear una pregunta incómoda que la disciplina había podido evitar durante décadas: ¿cuánto de lo que creemos saber sobre el comportamiento humano es realmente cierto?

Un ajuste de cuentas que empezó con un único proyecto cuidadoso

El proyecto que desencadenó el ajuste de cuentas fue deliberadamente poco dramático en su diseño, y esa contención es parte de por qué importó. La Open Science Collaboration seleccionó sus 100 estudios de tres revistas respetadas, todas publicadas en 2008, que abarcaban la psicología social y la cognitiva. Para cada estudio, un equipo realizó una replicación directa, es decir, siguió el procedimiento original con la mayor fidelidad posible, a menudo en consulta con los autores originales, y, lo que es crucial, utilizó muestras sustancialmente mayores que las originales. Luego tabularon cada resultado de forma abierta, compartiendo materiales y datos para que cualquiera pudiera comprobar el trabajo.

Esa transparencia fue tan importante como el dato titular. El objetivo no era tender una emboscada a investigadores individuales, sino hacer un inventario honesto de la literatura publicada. Según varias medidas, el panorama resultaba descorazonador. Allí donde los estudios originales informaban de un efecto, las replicaciones tendían a encontrar efectos que en promedio eran aproximadamente la mitad de grandes, y muchos no eran estadísticamente distinguibles de cero. Los efectos en psicología cognitiva, que a menudo implica tareas de laboratorio más limpias, se sostuvieron mejor que los de la psicología social, que estudia comportamientos más enmarañados y dependientes del contexto. Nada de esto provino de un crítico externo y hostil. Provino de la disciplina examinándose a sí misma con las herramientas en las que ya confiaba.

Los hallazgos famosos que se desmoronaron en silencio

Algunas de las bajas fueron hallazgos que habían circulado durante años como hechos consolidados, de esos que se repiten con seguridad en clases y charlas TED. Tres en particular se convirtieron en emblemas de la crisis.

El primero fue el priming social, la idea de que señales sutiles e inadvertidas pueden remodelar el comportamiento de formas sorprendentemente grandes. Un célebre estudio temprano afirmaba que los voluntarios expuestos a palabras asociadas con la vejez caminaban después más despacio por el pasillo. Cuando laboratorios independientes intentaron reproducir ese resultado con los controles adecuados, el efecto resultó esquivo. El segundo fue el agotamiento del yo, la propuesta de que la fuerza de voluntad se nutre de un recurso limitado que se agota, de modo que ejercer autocontrol en una tarea te deja más débil para la siguiente. Contaba con una vasta literatura de apoyo y, sin embargo, un esfuerzo de replicación amplio, coordinado y preregistrado en muchos laboratorios encontró poco o ningún efecto. El tercero fue la pose de poder, la afirmación de que mantener durante un par de minutos una postura expansiva y segura eleva la testosterona, baja la hormona del estrés, el cortisol, y hace que las personas se comporten con más audacia. Las afirmaciones hormonales y conductuales no sobrevivieron a una nueva prueba cuidadosa, y uno de los autores originales acabó por desentenderse de ellas de forma pública.

Conviene ser preciso. Una replicación fallida no siempre significa que el efecto original sea inexistente; puede significar que el efecto es más pequeño, más frágil o más dependiente de las condiciones de lo que se creía en un principio. Pero cuando un hallazgo no puede ser reproducido de forma fiable por investigadores competentes que siguen la misma receta, su pretensión de ser conocimiento establecido se desvanece, por muy famoso que fuera en su momento.

La aritmética que subyace al desmoronamiento

¿Por qué tanta investigación resultó ser tan endeble? Parte de la respuesta es una aritmética nada glamorosa. Durante la mayor parte del siglo XX, un experimento típico de psicología utilizaba algo así como veinte a cuarenta participantes por condición. Eso suena razonable hasta que se considera el tamaño de los efectos que los psicólogos estudian en realidad. El comportamiento humano está influido por una enorme maraña de causas, así que el efecto de cualquier manipulación aislada suele ser de pequeño a mediano. Detectar de forma fiable un efecto genuinamente pequeño exige muchísimo más que cuarenta personas; puede exigir cientos.

El concepto relevante es la potencia estadística, la probabilidad de que un estudio detecte un efecto real cuando este de verdad existe. Los estudios con poca potencia no solo son menos sensibles; son activamente engañosos. Cuando un estudio pequeño y poco potente sí cruza el umbral de la significación estadística, el efecto que informa suele estar inflado, porque solo un resultado inusualmente grande (y en parte afortunado) podría haber alcanzado la significación con tan pocos participantes. La literatura se llenó por tanto de tamaños de efecto que parecían impresionantes pero que eran, en parte, espejismos estadísticos. La crisis estaba incorporada antes de que nadie se comportara mal, sencillamente porque las muestras eran demasiado pequeñas para sostener las conclusiones que se extraían de ellas.

Cómo investigadores honestos se engañaron a sí mismos

El problema más profundo, sin embargo, no era la aritmética deficiente, sino la callada flexibilidad oculta dentro de la práctica investigadora corriente. El software estadístico moderno hace trivialmente fácil ejecutar decenas de análisis sobre el mismo conjunto de datos, y un investigador rara vez decide cada detalle por adelantado. ¿Deben eliminarse los valores atípicos, y con qué punto de corte? ¿Hay que controlar por edad, o por género, o por estado de ánimo? ¿Cuáles de varios ítems de un cuestionario cuentan como resultado? Cada una de estas decisiones es defendible por sí sola, pero juntas crean lo que el estadístico Andrew Gelman llamó el jardín de los senderos que se bifurcan, un conjunto ramificado de decisiones analíticas en el que casi siempre algún sendero conduce a un resultado significativo.

Cuando los investigadores prueban conscientemente un análisis tras otro e informan solo de los que alcanzan la significación, la práctica se llama p-hacking, e infla la tasa de falsos positivos muy por encima del 5 por ciento nominal que se supone que la prueba de significación garantiza. Lo inquietante es que no hace falta ser deshonesto para hacerlo. Un científico genuinamente convencido de que su hipótesis es correcta seguirá ajustando hasta que los datos cooperen, y luego olvidará los callejones sin salida. El artículo publicado presenta una historia limpia y segura, pero la literatura construida a partir de muchos artículos así no es lo que aparenta ser. La fiabilidad informada es una ilusión producida por todos los análisis que se ejecutaron y nunca se mencionaron.

Los incentivos que premiaban los hallazgos frágiles

Estos hábitos individuales se vieron amplificados por la estructura de toda la empresa. Las revistas prefieren con firmeza publicar resultados positivos, los estudios que encuentran un efecto, antes que resultados nulos, los estudios que no encuentran nada. Esto es el sesgo de publicación, y todo investigador sabe que moldea su carrera. Un cajón lleno de hallazgos nulos no consigue que te contraten, te financien ni te den la plaza, así que los resultados nulos desaparecen en silencio mientras los positivos afortunados se imprimen. El registro publicado acaba sesgado hacia hallazgos que pueden haber sido casualidades, porque los fracasos que los habrían equilibrado nunca llegaron a la imprenta.

El sesgo de publicación también fomenta una distorsión más sutil conocida como HARKing, que en inglés significa formular hipótesis después de conocer los resultados. En propiedad, una hipótesis es una predicción hecha antes de ver los datos, y una predicción confirmada resulta impresionante precisamente porque te comprometiste con ella de antemano. El HARKing invierte el orden: realizas el estudio, ves qué apareció y luego escribes el artículo como si lo hubieras predicho desde el principio. El resultado se lee como una confirmación limpia de una idea audaz, cuando en verdad es una descripción de cualquier ruido que casualmente surgió. Combina estudios con poca potencia, análisis flexible, el cajón de los nulos desaparecidos e hipótesis colocadas a posteriori, y tendrás una máquina casi diseñada para fabricar hallazgos que no se replicarán.

Las reformas que están recomponiendo la disciplina

La parte alentadora de esta historia es que la psicología no respondió con negación. Respondió con reformas, y las reformas apuntan directamente a los mecanismos en lugar de reprender a los individuos. La piedra angular es el preregistro, un compromiso público y con marca temporal con tu hipótesis, tus métodos y tu plan de análisis exacto, publicado antes de recoger ningún dato. Es la solución estructural más sencilla disponible, y es poderosa porque traza una línea firme entre predicciones y descubrimientos. Una vez que tu plan de análisis queda fijado por escrito, no puedes hacer p-hacking en silencio a través del jardín de los senderos que se bifurcan, y no puedes hacer HARKing, porque cualquiera puede ver qué predijiste en realidad.

Una extensión más ambiciosa es el informe registrado. Aquí una revista revisa y acepta provisionalmente un estudio basándose en la calidad de su pregunta y sus métodos antes de que existan datos, y se compromete a publicar los resultados ya salgan positivos o nulos. Ese solo cambio ataca el sesgo de publicación en su raíz, porque la aceptación ya no depende de obtener un resultado emocionante. Junto a esto, la disciplina ha adoptado muestras sustancialmente mayores, a menudo agrupando participantes de muchos laboratorios para que los efectos puedan medirse con la precisión que los estudios pequeños nunca tuvieron, así como datos abiertos y materiales abiertos para que cualquiera pueda escrutar y volver a ejecutar el trabajo.

La propia replicación también se ha clarificado como un oficio con dos tareas distintas. Una replicación directa repite el procedimiento original lo más fielmente posible para comprobar si el efecto original aparece en una muestra nueva; se pregunta: ¿este resultado concreto ocurrió por azar? Una replicación conceptual pone a prueba la misma hipótesis subyacente usando métodos diferentes; se pregunta: ¿es sólida la idea más amplia aunque el experimento concreto fuera imperfecto? Ambas son valiosas, pero responden a preguntas distintas, y una replicación conceptual nunca puede sustituir la rendición de cuentas básica de una directa.

Lo que aun así no se generaliza incluso cuando se replica

Incluso un hallazgo que sobrevive a una replicación directa puede arrastrar un problema aparte y más silencioso. En 2010, los investigadores Joseph Henrich, Steven Heine y Ara Norenzayan señalaron que la abrumadora mayoría de los participantes de la psicología procedían de sociedades occidentales, educadas, industrializadas, ricas y democráticas, una población que etiquetaron con el acrónimo WEIRD (por sus siglas en inglés). Estos participantes, a menudo estudiantes universitarios de grado en un puñado de países ricos, resultan ser inusuales en muchas medidas psicológicas, desde la percepción visual hasta el razonamiento moral o las nociones del yo. Un resultado que se replica a la perfección en muestras de universitarios estadounidenses puede aun así decirnos poco sobre la humanidad en general. Esta preocupación por la generalización se suma a la de la replicación: no basta con que un hallazgo sea real en el laboratorio donde se encontró; también tiene que sostenerse más allá de la estrecha porción de personas que casualmente fueron estudiadas.

Tomadas en conjunto, estas lecciones han cambiado el modo en que un lector cuidadoso debería abordar cualquier afirmación psicológica. La vieja pregunta era simplemente si un resultado era estadísticamente significativo. La pregunta contemporánea es más rica y más escéptica. ¿Estaba preregistrado el estudio, de modo que sus hipótesis y análisis quedaron fijados de antemano? ¿Era la muestra lo bastante grande para detectar el efecto que afirma? ¿Lo ha confirmado un equipo independiente mediante una replicación directa? ¿Y se sostiene en personas que no se parecen a los universitarios de las democracias ricas? Un único valor p significativo, antes tratado como un sello de verdad, ahora se lee correctamente como el comienzo de una indagación más que como su final.

Conclusiones clave

El proyecto de la Open Science Collaboration de 2015, en el que 270 investigadores volvieron a ejecutar 100 estudios publicados y hallaron que solo alrededor del 36 por ciento se replicaba, desencadenó un ajuste de cuentas en toda la disciplina cuyas causas eran estructurales y no obra de unos pocos malos actores. Efectos de alto perfil como el priming social, el agotamiento del yo y la pose de poder fracasaron bajo una nueva prueba cuidadosa porque la maquinaria de investigación subyacente estaba viciada: muestras de veinte a cuarenta participantes eran demasiado pequeñas (con una potencia estadística demasiado baja) para medir de forma fiable los efectos pequeños que la psicología estudia, la flexibilidad del análisis moderno permitía el p-hacking por el jardín de los senderos que se bifurcan, el sesgo de publicación enterraba los resultados nulos, y el HARKing disfrazaba descubrimientos a posteriori como predicciones confirmadas. La respuesta de la disciplina ha sido una reforma genuina dirigida de lleno a estos mecanismos, a saber, el preregistro, los informes registrados, muestras mucho mayores y a menudo de varios laboratorios, datos abiertos y una distinción más clara entre replicación directa y conceptual, mientras que la crítica WEIRD de Henrich, Heine y Norenzayan nos recuerda que incluso un hallazgo robusto puede no generalizarse más allá de las estrechas poblaciones que suelen estudiarse. La consecuencia práctica es un criterio más exigente para la creencia, según el cual un hallazgo se gana la confianza no a partir de un único resultado significativo, sino del preregistro, una potencia adecuada, la replicación independiente y la evidencia de que se sostiene en seres humanos diversos.

Learn more with Mindoria

Bite-sized lessons, spaced repetition, and live PvP trivia battles. Free on Android.

Download Free