El American Journal of Psychiatry debe retractarse de un estudio con resultados fraudulentos
*Artículo publicado originalmente por Mad in America: https://www.madinamerica.com/2023/09/the-stard-scandal-scientific-misconduct-on-a-grand-scale/ traducción realizada por Mad in México.
Cuando se puso en marcha el estudio STAR*D hace más de dos décadas, los investigadores del NIMH prometieron que los resultados se difundirían rápidamente y se utilizarían para orientar la atención clínica. Se trataba del “mayor y más largo estudio jamás realizado para evaluar el tratamiento de la depresión”, señaló el NIMH, y lo más importante es que se llevaría a cabo en pacientes del “mundo real”. Diversos estudios habían descubierto que entre el 60% y el 90% de los pacientes del mundo real no podían participar en ensayos industriales de antidepresivos debido a criterios de exclusión.
Los investigadores de STAR*D escribieron: “Dada la escasez de datos controlados [en grupos de pacientes del mundo real], los resultados deberían tener una importancia sustancial para la salud pública y la ciencia, ya que se obtienen en grupos/contextos de participantes representativos, utilizando herramientas de gestión clínica que pueden aplicarse fácilmente en la práctica diaria.”
En 2006, publicaron tres relatos de los resultados del STAR*D, y el NIMH, en su comunicado de prensa de noviembre, pregonó las buenas noticias. “En el transcurso de los cuatro niveles, casi el 70% de los que no se retiraron del estudio quedaron libres de síntomas”, informó el NIMH al público. He aquí un gráfico de un estudio publicado posteriormente, titulado “What Does STAR*D Teach Us” (¿Qué nos enseña STAR*D?), que traza ese camino hacia el bienestar:
Fuente: Gaynes, et al. “¿Qué nos enseñó STAR*D? Resultados de un ensayo clínico práctico a gran escala para pacientes con depresión”. Servicios Psiquiátricos 60 (2009):1439-1445.
Este fue el hallazgo que destacaron los medios de comunicación. El mayor y más largo estudio sobre antidepresivos en pacientes reales había descubierto que los fármacos funcionaban. En el estudio STAR*D, informó The New Yorker en 2010, hubo una “tasa de eficacia del sesenta y siete por ciento para la medicación antidepresiva, mucho mejor que la tasa alcanzada por un placebo.”
Ese fue el mismo año en que el psicólogo Ed Pigott y sus colegas publicaron su deconstrucción del ensayo STAR*D. Pigott había presentado una solicitud de la Ley de Libertad de Información para obtener el protocolo STAR*D y otros documentos clave, y una vez que él y sus colaboradores tuvieron el protocolo, pudieron identificar las diversas formas en que los investigadores del NIMH se habían desviado del protocolo para inflar la tasa de remisión. Publicaron datos de pacientes que mostraban que si se hubiera seguido el protocolo, la remisión acumulada habría sido del 38%. Los investigadores del STAR*D tampoco habían informado de la tasa de estancia hospitalaria al cabo de un año, pero Pigott y sus colegas encontraron ese resultado oculto en un gráfico confuso que los investigadores del STAR*D habían publicado. Sólo el 3% de los 4.041 pacientes que entraron en el ensayo habían remitido y permanecieron bien y en el ensayo hasta el final.
Las violaciones del protocolo y la publicación de un “resultado principal” inventado -la tasa de remisión acumulada del 67%- son pruebas de una mala conducta científica que alcanza el nivel de fraude. Sin embargo, a medida que Pigott y sus colegas han ido publicando sus artículos en los que deconstruyen el estudio, los investigadores del NIMH no han dicho ni pío en señal de protesta. Han permanecido en silencio, y este fue el caso cuando Pigott y sus colegas, en agosto de este año, publicaron su último artículo en BMJ Open. En él, analizaban datos de pacientes del ensayo y detallaban, una vez más, las violaciones del protocolo utilizadas para inflar los resultados. Como escribió BMJ Open en la sección de respuestas rápidas del artículo en línea, “invitamos a los autores del estudio STAR*D a dar una respuesta a este artículo, pero se negaron”.
De hecho, la única vez que se pidió a un investigador de STAR*D que respondiera, confirmó que la tasa de estancia hospitalaria del 3% que Pigott y sus colegas habían publicado era exacta. Aunque los principales periódicos han ignorado sistemáticamente los hallazgos de Pigott, después de que Pigott y sus colegas publicaran su artículo de 2010, Medscape Medical News se dirigió al investigador de STAR*D Maurizio Fava para pedirle un comentario. ¿Podría ser correcta esta cifra del 3%? “Creo que su análisis es razonable y no incompatible con lo que habíamos comunicado”, dijo Fava.
De eso hace ya 13 años. Se habían revelado las violaciones del protocolo, que se entienden como una forma de mala conducta científica. Se había revelado la inflación de las tasas de remisión y la ocultación de la asombrosamente baja tasa de permanencia. En 2011, Mad in America publicó dos blogs de Ed Pigott en los que se detallaba la mala praxis científica y se ponían en línea documentos que aportaban pruebas de dicha mala praxis. En 2015, Lisa Cosgrove y yo -basándonos en el trabajo publicado de Pigott y en los documentos que había puesto a disposición- publicamos un relato detallado de la mala conducta científica en nuestro libro Psiquiatría bajo la influencia. El fraude estaba a la vista de todos.
Pigott y sus colegas obtuvieron posteriormente los datos de los pacientes a través de la iniciativa “Restoring Invisible and Abandoned Trials” (RIAT), y su análisis ha confirmado la exactitud de su investigación anterior, cuando utilizaron el protocolo para deconstruir los datos publicados. Así pues, la documentación de la mala conducta científica por parte de Pigott y sus colegas ha pasado por dos etapas, la primera facilitada por su examen del protocolo y otros documentos de planificación del ensayo, y la segunda por su análisis de los datos de los pacientes.
Sin embargo, la Asociación Americana de Psiquiatría (APA) no ha reconocido públicamente esta mala conducta científica. La APA, o los psiquiatras académicos de Estados Unidos, no han hecho ningún llamamiento para que se retracten de los estudios que informaban de tasas de remisión infladas. No se ha censurado a los investigadores de STAR*D por su mala conducta científica. Por el contrario, han conservado, en su mayor parte, su estatus de líderes en el campo.
Así pues, dado el historial documentado de mala conducta científica, en el mayor y más importante ensayo de antidepresivos jamás realizado, sólo cabe sacar una conclusión: En la psiquiatría estadounidense, la mala conducta científica es una práctica aceptada.
Esto plantea un reto a la ciudadanía estadounidense. Si la psiquiatría no vigila su propia investigación, es el público quien debe dar a conocer el fraude y exigir que se retire el artículo publicado en el American Journal of Psychiatry, que hablaba de una tasa de remisión acumulada del 67%. Dado que STAR*D se diseñó para orientar la atención clínica, es de gran importancia para la salud pública que así se haga.
Intención de engañar
La Asociación Mundial de Editores Médicos enumera siete categorías de mala conducta científica. Dos de ellas se aplican a este caso:
- “Falsificación de datos, desde la fabricación hasta la presentación engañosa y selectiva de resultados y la omisión de datos contradictorios, o la supresión y/o distorsión deliberada de datos”.
- “Violación de las prácticas generales de investigación”, que incluyen “manipulaciones estadísticas o analíticas engañosas, o comunicación inadecuada de los resultados”.
El elemento esencial de la mala conducta científica es éste: no es el resultado de errores honestos, sino que nace de una “intención de engañar”.
En este caso, una vez que Pigott y sus colegas identificaron las desviaciones del protocolo presentes en los informes de STAR*D, la “intención de engañar” de los investigadores de STAR*D fue evidente. Al colgar el protocolo y otros documentos clave en Mad in America, Pigott hizo posible que la comunidad científica viera por sí misma el engaño.
Su reciente publicación en la RIAT permite hacer un recuento numérico preciso de cómo la mala conducta investigadora de los investigadores de STAR*D, que se desarrolló paso a paso a medida que publicaban tres artículos en 2006, sirvió para inflar la tasa de remisión comunicada. Este Informe MIA expone esa cronología del engaño. De hecho, los lectores podrían pensar en este Informe MIA como una presentación ante un jurado. ¿Demuestran las pruebas que la conclusión resumida del STAR*D de una tasa de remisión acumulada del 67% fue una invención, con esta mala conducta investigadora nacida del deseo de preservar la creencia social en la eficacia de los antidepresivos?
Protocolo del estudio
Según el protocolo STAR*D, los pacientes incluidos en el estudio tendrían que estar al menos “moderadamente deprimidos”, con una puntuación igual o superior a 14 en la Escala de Calificación de la Depresión de Hamilton (también conocida como HAM-D). Se les trataría con citalopram (Celexa) en su visita inicial y, a continuación, durante las 12 semanas siguientes, tendrían cinco visitas clínicas. En cada una de ellas, un coordinador evaluaría sus síntomas mediante una herramienta conocida como Inventario Rápido de Sintomatología Depresiva (QIDS-C). Como este estudio pretendía imitar la atención en el mundo real, los médicos utilizarían los datos del QIDS para ayudar a determinar si debía modificarse la dosis de citalopram y si debían recetarse otros medicamentos “ajenos al estudio”, como fármacos para el sueño, la ansiedad o para los efectos secundarios causados por el citalopram.
En cada visita clínica, los pacientes también autoinformaban de sus síntomas utilizando este mismo instrumento de medida (QIDS-SR). El instrumento QIDS había sido desarrollado por los investigadores de STAR*D, y querían comprobar si las puntuaciones autocalificadas coincidían con las puntuaciones QIDS evaluadas por los clínicos.
Al final del periodo de tratamiento, “Evaluadores de Resultados de Investigación” (ROA) independientes evaluarían los síntomas de los pacientes utilizando tanto la escala HAM-D17 como la escala “Inventario de Sintomatología Depresiva” (IDS-C30 ). El resultado primario fue la remisión de los síntomas, que se definió como una puntuación HAM-D ≤7. El protocolo establecía explícitamente:
“La evaluación de la eficacia en la investigación descansará en el HAM-D obtenido, no por el clínico o el coordinador de la investigación clínica, sino mediante entrevistas telefónicas con los ROA”.
Y:
“Las evaluaciones de los resultados de la investigación se distinguen de las evaluaciones realizadas en las visitas clínicas. Estas últimas están diseñadas para recopilar información que guíe a los clínicos en la aplicación del protocolo de tratamiento. Los resultados de la investigación no se recogen en la clínica”.
Durante esta evaluación de salida, los pacientes también informarían por sí mismos de sus resultados a través de un sistema de “grabación de voz interactiva” (IVR) utilizando el cuestionario QIDS. Esto se haría “para determinar cómo funcionaba este método en comparación con los dos estándares de oro anteriores”. El protocolo decía además:
“Comparar el IDS-C30 recogido por el ROA y el QIDS16 , recogido por IVR, nos permite determinar hasta qué punto una valoración de síntomas más breve obtenida por IVR puede sustituir a la valoración de un clínico. Si esta valoración más breve puede sustituir a la valoración del clínico, se facilita la difusión y aplicación de los resultados de STAR*D. Por lo tanto, la inclusión de QIDS16 por IVR tiene como objetivo mejoras metodológicas”.
Tras el primer ensayo de 12 semanas con citalopram, a los pacientes que no habían remitido se les animaba a entrar en un segundo “escalón de tratamiento”, que consistiría en cambiar a otro antidepresivo o añadir otro antidepresivo al citalopram. Los pacientes que no lograban remitir durante este segundo paso del tratamiento podían pasar a un tercer “paso del tratamiento” (en el que se les ofrecería una nueva combinación de tratamientos), y los que no lograban remitir en el paso 3 tendrían una última oportunidad de remitir. En cada caso, un evaluador de resultados de la investigación utilizaría la escala HAM-D para determinar si la depresión del paciente había remitido. Al final de los cuatro pasos, los investigadores del STAR*D publicarían la tasa de remisión acumulada, que predijeron que sería del 74%.
A los pacientes que remitían al final de cualquiera de los cuatro pasos se les instaba a participar en un estudio de mantenimiento de un año de duración para evaluar las tasas de recaída y recurrencia de los que seguían tomando antidepresivos. Según el protocolo, la bibliografía existente sugería que, en el “peor de los casos”, el 30% de los pacientes que remitían y seguían tomando antidepresivos “sufrían un brote depresivo en un plazo de cinco años”. Sin embargo, era posible que las tasas de recaída en el mundo real fueran mayores.
“¿Cuán frecuentes son las recaídas durante el tratamiento antidepresivo continuado en la práctica clínica del ‘mundo real’?”, se preguntaron los investigadores del STAR*D. “¿Durante cuánto tiempo [los pacientes remitidos] son capaces de mantenerse bien?”.
En resumen, el protocolo establecía:
- Los pacientes debían tener una puntuación HAM-D igual o superior a 14 para poder participar en el ensayo.
- El resultado primario sería una evaluación HAM-D de los síntomas administrada por un Research Outcome Assessor al final del periodo de tratamiento. La remisión se definió como una puntuación HAM-D igual o inferior a 7.
- El resultado secundario sería una evaluación de síntomas IDS-C30 administrada por un evaluador de resultados de investigación al final del periodo de tratamiento.
- El QIDS-C se administraría en las visitas clínicas para orientar las decisiones terapéuticas, como el aumento de la dosis de fármacos. Los pacientes también autoinformarían de sus síntomas en la escala QIDS (QIDS-SR) para ver si sus puntuaciones coincidían con las cifras de los clínicos. Las dos evaluaciones QIDS durante las visitas clínicas no se utilizarían para evaluar los resultados del estudio.
- El QIDS-SR administrado por IVR al final del tratamiento tenía por objeto ver si el uso de este cuestionario automatizado, que sólo llevaba seis minutos, podía sustituir a las escalas administradas por el clínico para orientar la atención clínica una vez publicados los resultados del STAR*D. No debía utilizarse para evaluar los resultados del estudio.
- Las tasas de recaída y de permanencia se publicarán al final del seguimiento de un año.
Aunque el protocolo no indicaba cómo se contabilizarían los abandonos, un artículo de 2004 de los investigadores del STAR*D sobre la “justificación y el diseño” del estudio afirmaba que los pacientes con puntuaciones HAM-D ausentes al final de cada fase de tratamiento “se suponía que no habían tenido una remisión”.
Por lo tanto, los documentos STAR*D eran claros: los que abandonaban durante una fase del tratamiento sin volver para una evaluación HAM-D de salida se contarían como no remitentes.
Resultados publicados
Resultados de la etapa 1
En enero de 2006, los investigadores del STAR*D comunicaron los resultados de la primera fase del tratamiento. Aunque se habían inscrito 4.041 pacientes en el estudio, sólo había 2.876 pacientes “evaluables”. El grupo no evaluable (N=1.165) estaba formado por 607 pacientes que tenían una puntuación basal HAM-D inferior a 14 y, por tanto, no eran aptos para el estudio; 324 pacientes a los que nunca se les había dado una puntuación basal HAM-D; y 234 que no volvieron tras su visita basal inicial. Setecientos noventa pacientes remitieron durante la primera fase y sus puntuaciones HAM-D descendieron a 7 o menos. Los investigadores del STAR*D informaron de una tasa de remisión de la HAM-D del 28% (790/2.876).
A primera vista, parecía un informe cuidadoso de los resultados. Sin embargo, había dos elementos discordantes con el protocolo.
Como señalaron Trivedi y sus colegas en su sección de “análisis estadístico”, se designó a los pacientes como “que no alcanzaban la remisión” cuando faltaba su puntuación HAM-D de salida. Además, señalaron que “la intolerancia se definió a priori como el abandono del tratamiento antes de las 4 semanas o el abandono a las 4 semanas o después con la intolerancia como motivo identificado”.
Por lo tanto, según estos dos criterios, los 234 pacientes que no regresaron después de la visita inicial, cuando se les recetó Celexa por primera vez, deberían haberse considerado fracasos del tratamiento y no pacientes no evaluables. Eran “intolerantes “al fármaco y habían abandonado el ensayo sin una puntuación HAM-D de salida. Si los investigadores del STAR*D se hubieran atenido a este elemento de su plan de estudio, el número de pacientes evaluables habría sido de 3.110, lo que habría reducido la tasa de remisión comunicada al 25% (790/3.110).
El segundo elemento discordante de esta primera publicación habla más claramente de una “intención de engañar”. En su resumen de resultados, escribieron:
“La remisión se definió como una puntuación de salida ≤7 en la Hamilton Depression Rating Scale (HAM-D) de 17 ítems (resultado primario) o una puntuación ≤5 en el Quick Inventory of Depressive Symptomatology, Self-Report (QIDS-SR) de 16 ítems (resultado secundario).”
Ahora presentaban el QIDS-SR como medida de resultado secundaria, a pesar de que el protocolo establecía explícitamente que la medida de resultado secundaria sería una puntuación IDS-C30 administrada por un evaluador de resultados de investigación. Además, ahora informaban de la remisión utilizando la puntuación QIDS-SR en la “última visita de tratamiento” del paciente, a pesar de que el protocolo indicaba explícitamente que “los resultados de la investigación no se recogen en la clínica”.
Este cambio a una puntuación QIDS-SR de la clínica permitió contar como remitentes a aquellos que no tenían una puntuación HAM-D de salida si su última puntuación QIDS-SR en la clínica era de cinco o menos. Esta desviación del protocolo añadió 153 a su recuento de remisiones, de modo que en la escala QIDS-SR, se dijo que el 33% había alcanzado la remisión (943/2.876).
Los investigadores del STAR*D incluso publicaron un gráfico de las tasas de remisión con el QIDS-SR, preparando el terreno para que se presentara, cuando se anunció la tasa de remisión acumulada, como el método principal para evaluar los resultados de eficacia.
Rush, et al. “Bupropion-SR, sertralina o venlafaxina-XR tras el fracaso de los ISRS para la depresión”. NEJM 354 (2006): 1231-42. También: Trivedi, et al. “Medication augmentation after the failure of SSRIs for depression”. NEJM 354 (2006): 1243-1252.
Dos meses después, los investigadores del STAR*D publicaron dos artículos en los que se detallaban las tasas de remisión de quienes no habían remitido con citalopram y habían entrado en el segundo escalón del tratamiento (N=1.439).
Una publicación hablaba de pacientes a los que se había retirado el citalopram y luego se les había asignado aleatoriamente bupropión, sertralina o venlafaxina. Hubo 729 pacientes así tratados en el paso 2, y la tasa de remisión fue del 21% en la escala HAM-D y del 26% en la escala QIDS-SR. Los investigadores concluyeron que “tras un tratamiento sin éxito, aproximadamente uno de cada cuatro pacientes tuvo una remisión de los síntomas tras cambiar a otro antidepresivo”. Esa conclusión presentaba a la QIDS-SR como la escala preferida para evaluar la remisión.
La segunda publicación hablaba de las tasas de remisión de 565 pacientes tratados con citalopram aumentado con bupropión o buspirona. La tasa de remisión fue del 30% con HAM-D y del 36% con QIDS-SR. Los investigadores concluyeron que estas dos tasas de remisión “no eran significativamente diferentes”, otro comentario más diseñado para legitimar la notificación de las tasas de remisión con QIDS.
Hubo otras dos desviaciones del protocolo en estos informes sobre los resultados del paso 2, aunque ninguna de ellas se descubrió fácilmente leyendo los artículos. La primera fue que los 931 pacientes citados como “no evaluables” en el informe del paso 1, ya fuera porque tenían una puntuación basal de HRSD inferior a 14 (607 pacientes) o porque no tenían puntuación basal alguna (324), se incluían ahora en los cálculos de pacientes remitidos. Esto se podía ver en un gráfico del artículo de Rush, en el que se afirmaba que de los 4.041 inscritos en el ensayo, al inicio del segundo paso 1.127 habían abandonado, 1.475 habían pasado al seguimiento de un año y 1.439 habían entrado en el paso 2. Los 931 pacientes que ahora simplemente fluían hacia el segundo paso eran los que habían abandonado. Los 931 pacientes pasaban ahora simplemente a una de esas tres categorías.
Aquí está el diagrama de flujo del documento de Rush que muestra este hecho:
Por supuesto, cabía esperar que la recalificación de los 931 pacientes como evaluables inflara notablemente las tasas de remisión acumulada. No sólo 607 no estaban lo suficientemente deprimidos como para entrar en el estudio, sino que Pigott y sus colegas, con su acceso a los datos a nivel de paciente, determinaron que 99 en este grupo tenían puntuaciones basales HAM-D por debajo de 8. Cumplían los criterios de remisión antes de que se les hubiera administrado la primera dosis de citalopresina. Cumplían los criterios de remisión antes de que se les administrara la primera dosis de citalopram.
La segunda desviación consistía en que los pacientes que, en una visita clínica, puntuaban como remitidos en el QIDS-SR y mantenían esa remisión durante “al menos 2 semanas”, ahora podían contarse como remitidos y “pasar a seguimiento”. Se sabe que los síntomas depresivos aumentan y disminuyen, y con esta nueva norma más laxa, los pacientes tenían múltiples oportunidades de ser contados como “remitidos” durante cualquier etapa del tratamiento, y lo hacían utilizando una escala de autoinforme que habían rellenado muchas veces.
Informe final sobre los resultados
En noviembre de 2006, los investigadores de STAR*D presentaron un informe exhaustivo sobre los resultados de las fases aguda y de mantenimiento del estudio. Las desviaciones del protocolo y, por tanto, la intención de engañar, se exponen en este documento.
Resultados agudos
Su tasa de remisión del 67% se basaba en tres desviaciones del protocolo y un cuarto cálculo “teórico” que transformaba 606 abandonos en remisiones imaginarias.
Sin embargo, el número de pacientes implicados en las desviaciones del protocolo puede parecer confuso por este motivo: en el documento de síntesis, el recuento de pacientes evaluables ha vuelto a cambiar. El informe del paso 1 hablaba de 2.876 pacientes evaluables. En el informe del paso 2 se añadieron los 931 pacientes sin una puntuación HAM-D de referencia, lo que aparentemente produjo un total de 3.807 pacientes evaluables. Pero el resumen final habla de 3.671 pacientes evaluables.
Entonces, ¿de dónde procede este descenso de 136 en el número de pacientes evaluables? En el informe de la etapa 1, el investigador de Star*D declaró que había 234 pacientes, del grupo inicial de 4.041 pacientes, que no volvieron para una segunda visita y, por tanto, no se incluyeron en el grupo evaluable. En este documento de resumen, los autores del STAR*D afirman que hay 370 en este grupo. No explican por qué el número de pacientes que “no regresaron” aumentó en 136 pacientes. (Véanse dos posibilidades en la nota a pie de página al final de este informe).
En cuanto a los 3.671 pacientes evaluables, el documento afirma que este grupo se compone de los 2.876 pacientes evaluables enumerados en el informe del paso 1, más los participantes cuya puntuación HAM-D basal era inferior a 14. Los autores de STAR*D no explican por qué incluyen en su recuento de pacientes evaluables a pacientes que no estaban lo suficientemente deprimidos como para cumplir los criterios de inclusión. Tampoco indican, en este informe resumido, cuántos se encuentran en este grupo. Tampoco mencionan su inclusión de pacientes que carecían de una puntuación HAM-D basal.
Así pues, lo que resulta evidente en este documento es que una vez más se están manipulando las cifras. Sin embargo, si el lector hace la aritmética, resulta evidente que el recuento de 3.671 pacientes evaluables está formado por los 2.876 pacientes considerados evaluables en el informe del paso 1, más 795 pacientes que carecían de una puntuación HAM-D cualificadora (de los 931 que inicialmente se dijo que estaban en este grupo). Lo que hicieron los autores del STAR*D en este informe final -por razones desconocidas- fue eliminar a 136 del grupo de 931 que carecían de una puntuación HAM-D cualificada y añadirlos al grupo de “no se presentaron a una segunda visita clínica”.
Aunque las cifras del recuento de pacientes han cambiado, sigue siendo posible hacer un recuento preciso, basado en las nuevas cifras del informe final resumido, de cómo las tres desviaciones del protocolo sirvieron para inflar la tasa de remisión, y lo hicieron de una de estas dos maneras: aumentando el número de pacientes remitentes o disminuyendo el número de pacientes evaluables.
- Categorización de los abandonos tempranos como pacientes no valorables
El informe del paso 1 enumeraba 234 participantes con puntuaciones basales de 14 o más que no volvieron para una visita “post basal”. Como ya se ha indicado, el protocolo preveía que estos pacientes se consideraran fracasos del tratamiento. En su informe resumido, los investigadores del STAR*D añadieron 136 a este recuento de pacientes no valorables, un cambio que reduce aún más el denominador en su cálculo de una tasa de remisión acumulada (pacientes remitentes/no valorables).
2. Incluir a los pacientes no elegibles en su recuento de pacientes remitidos
El informe del paso 1 excluyó a 931 pacientes cuyas puntuaciones HAM-D basales eran inferiores a 14 (607 pacientes) o faltaban (324 pacientes). El informe resumido final incluye a 795 participantes que carecían de una puntuación HAM-D de referencia y, como se verá más adelante, este grupo de 795 pacientes, que no cumplían los criterios de inclusión, añadió 570 al recuento de pacientes remitidos.
3. Cambio de medidas de resultado
Los investigadores del STAR*D no informaron de las tasas de remisión de la HAM-D. En su lugar, sólo informaron de las tasas de remisión basadas en las puntuaciones QIDS-SR obtenidas durante las visitas clínicas. Lo justificaron declarando que “los resultados de QIDS-SR y HRSD17 están muy relacionados”, y que las “puntuaciones de papel y lápiz” de QIDS-SR recogidas en las visitas clínicas eran “prácticamente intercambiables” con las puntuaciones “obtenidas del sistema de respuesta de voz interactiva”. El protocolo, por supuesto, había declarado:
-
- que el HAM-D iba a ser la medida principal de los resultados de remisión
- que el QIDS no debía utilizarse con este fin
- que las evaluaciones de los síntomas realizadas durante las visitas clínicas no se utilizarían con fines de investigación
La justificación que dieron los investigadores del STAR*D para informar sólo de las puntuaciones del QIDS-SR sugería que había una equivalencia entre el HAM-D y el QIDS, cuando, de hecho, el uso del QIDS-SR producía regularmente tasas de remisión más altas. La afirmación presentaba una falsa equivalencia a los lectores.
Con estas desviaciones del protocolo como base de sus cálculos, los investigadores del STAR*D comunicaron las siguientes tasas de remisión para cada uno de los cuatro pasos del tratamiento.
Así pues, la tasa de remisión acumulada al final de cuatro etapas fue del 51% (1.854/3.671).
En su reciente reanálisis, Pigott y sus colegas informaron de cuáles habrían sido las tasas de remisión si se hubiera seguido el protocolo. En primer lugar, el grupo evaluable debería haber sido de 3.110 pacientes (4.041 menos los 931 pacientes que no tenían una puntuación HAM-D basal o no tenían una puntuación HAM-D de 14 o superior). En segundo lugar, las puntuaciones HAM-D deberían haberse utilizado para definir la remisión. Estos son los datos:
Así pues, si se hubiera seguido el protocolo, el índice de remisión acumulado al final de los cuatro pasos habría sido del 35% (1.089/3.110). Las desviaciones del protocolo añadieron 765 remisores al bando de los “mejorados”.
El informe 2023 de Pigott también permite identificar el número exacto de remisiones añadidas que se produjeron al incluir a los 931 pacientes no elegibles en sus informes, y al cambiar a las QID como medida de resultado primaria.
Incluso después de estas maquinaciones, los investigadores del STAR*D seguían necesitando un impulso si querían acercarse a su tasa prevista de curación del 74%. Para ello, imaginaron que si los pacientes que habían abandonado el estudio hubieran permanecido en él durante las cuatro fases y hubieran remitido al mismo ritmo que los que se habían quedado hasta el final, otros 606 pacientes habrían remitido. Y voilà, se obtuvo una tasa de remisión del 67% (2.460/3.671).
Este cálculo teórico, por absurdo que fuera desde el punto de vista de la investigación, también violaba el protocolo. Los que abandonaron sin una puntuación HAM-D de salida inferior a 8 se consideraron no remitentes. Este cálculo teórico transformó 606 fracasos terapéuticos en éxitos terapéuticos.
He aquí el recuento final de cómo la mala conducta investigadora de los investigadores de STAR*D transformó una tasa de remisión del 35% en una de casi el doble:
Este es el relato de la mala conducta investigadora que tuvo lugar en la fase aguda del estudio STAR*D. El resumen del informe de síntesis hablaba de una “tasa global de remisión acumulada”, sin mencionar el elemento teórico. Como puede verse en esta captura de pantalla, la invención se presentó como un resultado final:
Esto, a su vez, se convirtió en el número falso que se vendía al público. Por ejemplo:
- El NIMH promocionó esta cifra en un comunicado de prensa.
- La revista The New Yorker, famosa por su comprobación de los hechos, señaló la tasa de remisión del 67% como prueba de la eficacia de los antidepresivos en el mundo real.
- Muchos artículos posteriores en la literatura de investigación hablaban de este resultado.
- Un editorial de 2013 en el American Journal of Psychiatry afirmaba que en el ensayo STAR*D, “tras cuatro tratamientos optimizados y bien administrados, aproximadamente el 70 % de los pacientes alcanza la remisión.” Un gráfico representaba esta tasa de permanencia:
Fuente: J. Greden. Depresión laboral: personalizar, asociarse o pagar el precio. Am J Psychiatry 2013;170:578-81.
Más recientemente, después de que un artículo de Moncrieff y sus colegas desacreditara, una vez más, la teoría del desequilibrio químico de la depresión, varios periódicos importantes, incluido The New York Times, sacaron a relucir la cifra del 67% para tranquilizar al público y decirle que no tenía por qué preocuparse, que los antidepresivos funcionaban, y funcionaban bien.
Resultados al año
Hubo 1.518 que entraron en el ensayo de seguimiento en remisión. El protocolo preveía visitas clínicas periódicas durante un año, en las que se evaluarían sus síntomas mediante el QIDS-SR. Los médicos utilizarían estas puntuaciones de autoinforme para orientar su atención clínica: podrían cambiar las dosis de medicación, recetar otros medicamentos y recomendar psicoterapia para ayudar a los pacientes a mantenerse bien. Cada tres meses se evaluaban sus síntomas con la escala HAM-D. La recaída se definió como una puntuación HAM-D de 14 o superior.
Esta era la gran pregunta planteada por STAR*D: ¿qué porcentaje de pacientes deprimidos tratados con antidepresivos remitían y se mantenían bien? Sin embargo, en la sección de discusión de su informe final, los investigadores de STAR*D sólo dedicaron dos breves párrafos a los resultados de un año. No informaron de las tasas de recaída, sino que se limitaron a escribir que “las tasas de recaída fueron mayores para los que entraron en el seguimiento después de más pasos de tratamiento.”
El cuadro 5 del informe ofrece las estadísticas de la tasa de recaídas: 33,5% para los remitentes del escalón 1, 47,4% para los del escalón 2, 42,9% para los del escalón 3 y 50% para los del escalón 4. Al menos a primera vista, esto sugería que quizás el 60% de los 1.518 pacientes se habían mantenido bien durante el estudio de mantenimiento de un año.
Sin embargo, en el debate y en la tabla de recaídas no se mencionaron los abandonos. ¿Cuántos habían permanecido en el ensayo hasta el final del año?
Había un segundo gráfico que parecía proporcionar información sobre las “tasas de recaída” a lo largo del periodo de 12 meses. Pero sin una explicación de los datos del gráfico, era imposible descifrar su significado. Aquí está:
Una vez que Pigott puso en marcha sus esfuerzos de investigación, pudo averiguarlo. Las cifras de la parte superior del gráfico indicaban cuántos pacientes que habían remitido seguían bien y participaban en el ensayo a los tres meses, a los seis meses, a los nueve meses y al año. En otras palabras, la parte superior de este gráfico ofrecía un recuento de las recaídas más los abandonos. Aquí es donde se esconden los abandonos.
Antes de publicar su hallazgo, Pigott consultó al bioestadístico de STAR*D, Stephen Wisniewski, para asegurarse de que estaba leyendo bien el gráfico. Wisniewski respondió:
“Durante el seguimiento pueden ocurrir dos cosas que influyan en el tamaño de la muestra analizada. Una es que se produzca el acontecimiento, en este caso, la recaída. La otra es el abandono. Así que los N a lo largo del tiempo representan el tamaño de la población que permanece en la muestra (es decir, que no ha abandonado o recaído en un momento anterior).”
He aquí, pues, el resultado a un año que los investigadores del STAR*D no quisieron aclarar. De los 1.518 pacientes con remisión que entraron en el seguimiento, sólo 108 seguían bien y en el ensayo al cabo de 12 meses. Los otros 1.410 pacientes recayeron (439) o abandonaron (971).
Pigott y sus colegas, cuando publicaron en 2010 su deconstrucción del estudio STAR*D, resumieron así los resultados a un año: De los 4.041 pacientes que entraron en el estudio, sólo 108 remitieron y se mantuvieron bien y en el estudio hasta el final del año. Se trata de una tasa documentada de recuperación y permanencia del 3%.
Notificación incorrecta de los resultados de un año
La Asociación Mundial de Editores Médicos califica la “comunicación inadecuada de resultados” de falta de ética en la investigación. La ocultación de los pésimos resultados a largo plazo encaja en esa definición de mala conducta.
En el protocolo, los investigadores del STAR*D afirmaban que determinarían la tasa de permanencia al cabo de un año. Sin embargo, no hablaron de esta cifra en su informe publicado sobre los resultados a un año y, que MIA sepa, ninguno de los investigadores del STAR*D ha escrito posteriormente sobre ello. La cifra del 3% no se encuentra en los libros de texto de psiquiatría y, de nuevo, que MIA sepa, ningún periódico importante de EE.UU. ha publicado este resultado. El único reconocimiento por parte de un investigador de STAR*D de este pésimo resultado se produjo cuando Medscape News preguntó a Maurizio Fava sobre el hallazgo de Pigott, y éste reconoció que no era “incompatible” con lo que ellos habían informado.
Como tal, los investigadores de STAR*D lo han mantenido en su mayor parte oculto al público y a su propia profesión, y probablemente nunca habría salido a la luz si no hubiera sido por la obsesión de Ed Pigott por dar cuerpo a los verdaderos resultados del “mayor y más largo ensayo con antidepresivos jamás realizado”.
De hecho, en 2009, el director del NIMH, Thomas Insel, declaró que “al cabo de 12 meses, con hasta cuatro etapas de tratamiento, aproximadamente el 70% de los participantes estaban en remisión”. Ahora estaba informando al público de que el 70% de los 4.041 pacientes que entraron en el estudio se pusieron bien y se mantuvieron bien, una declaración que ejemplifica la gran escala del fraude STAR*D. Setenta por ciento frente a una realidad del 3%: ésas son las cifras fundamentales que el público debe recordar cuando juzgue si, en la información sobre los resultados del estudio STAR*D, hay pruebas de una “intención de engañar”.
Corrupción institucional
En Psiquiatría bajo la influencia, Lisa Cosgrove y yo escribimos sobre el ensayo STAR*D como un ejemplo notable de “corrupción institucional”. Había dos “economías de influencia” que impulsaban esta corrupción: los intereses gremiales de la psiquiatría y los amplios vínculos financieros que los investigadores del STAR*D tenían con las compañías farmacéuticas.
La Asociación Americana de Psiquiatría, que se entiende mejor como una asociación comercial que promueve los intereses financieros y profesionales de sus miembros, ha promocionado durante mucho tiempo los antidepresivos como un tratamiento eficaz y seguro. Tras la comercialización del Prozac en 1988, la APA, junto con los fabricantes de antidepresivos, informó al público de que la depresión mayor era una enfermedad cerebral y que los fármacos corregían un desequilibrio químico del cerebro. La prescripción de estos fármacos despegó en la década de 1990 y ha seguido aumentando desde entonces, hasta el punto de que hoy en día más de uno de cada ocho adultos estadounidenses toma un antidepresivo cada día.
Los resultados del STAR*D, si se hubieran comunicado con exactitud, habrían desbaratado esa creencia social. Si se hubiera informado al público de que en este estudio del NIMH, que se había llevado a cabo en pacientes del mundo real, sólo el 35% había remitido, incluso después de cuatro fases de tratamiento, y que sólo el 3% había remitido y seguía estando bien al cabo de un año, la prescripción de estos fármacos -y la demanda social de los mismos- seguramente habría caído en picado. Los investigadores del STAR*D, mediante sus desviaciones del protocolo y sus remisiones imaginarias en pacientes que habían abandonado, además de su ocultación de los resultados a un año, convirtieron el estudio en una historia de la eficacia de estos fármacos. En un sentido comercial, estaban protegiendo uno de sus principales “productos”.
Además, con su mala praxis investigadora, protegían la imagen pública de su profesión. La tasa de remisión del 67% hablaba de hábiles psiquiatras que, probando diversas combinaciones de antidepresivos y otros fármacos, finalmente ayudaron a dos tercios de todos los pacientes a quedar “libres de síntomas”. Los pacientes que remitían estaban aparentemente completamente bien.
Aunque STAR*D estaba financiado por el NIMH, la influencia corruptora del dinero farmacéutico seguía presente en este estudio. Los investigadores de STAR*D tenían numerosos vínculos financieros con los fabricantes de antidepresivos. Aquí hay un gráfico que Lisa Cosgrove y yo publicamos en Psychiatry Under the Influence, que contaba el número de tales vínculos que los diversos investigadores tenían con las compañías farmacéuticas.
En total, los 12 investigadores de STAR*D tenían 151 vínculos con empresas farmacéuticas. Ocho de los 12 tenían vínculos con Forest, el fabricante de citalopram.
A las empresas farmacéuticas que venden antidepresivos, por supuesto, no les habría hecho ninguna gracia que sus principales líderes de opinión publicaran los resultados de un ensayo del NIMH que hablaba de resultados en el mundo real mucho peores que los resultados de los ensayos de sus fármacos financiados por la industria. La eficacia en el mundo real que se puso de manifiesto en el ensayo STAR*D desmentía los anuncios que hablaban de fármacos altamente eficaces que podían hacer que la depresión desapareciera milagrosamente.
Así pues, el fruto envenenado de la corrupción institucional: los periódicos siguen señalando hoy en día la tasa de remisión del 67% como prueba de la eficacia de los antidepresivos, mientras que la mayor parte del público -y los prescriptores de estos fármacos- siguen sin conocer los verdaderos resultados.
El daño causado
Los artículos publicados por Pigott y sus colegas desde 2010 han proporcionado un registro de la mala conducta científica de los investigadores de STAR*D. Este Informe MIA simplemente presenta una cronología del fraude y, basándose en su trabajo, un recuento numérico de cómo cada elemento de la mala conducta investigadora aumentó las tasas de remisión. El propósito de este Informe MIA es dejar clara la “intención de engañar” que estuvo presente en las desviaciones del protocolo por parte de los investigadores de STAR*D, su publicación de una tasa de remisión acumulada fraudulenta y su ocultación del resultado a un año que hablaba de un fracaso de este paradigma de atención.
Esta falta de ética en la investigación ha causado un daño extraordinario al público estadounidense y, se puede argumentar, al público mundial. Dado que se trataba de un estudio diseñado para evaluar los resultados en pacientes reales y orientar la atención clínica futura, si los resultados se hubieran comunicado de forma honesta y coherente con las normas científicas aceptadas, el público habría tenido motivos para cuestionar la eficacia de los antidepresivos y, como mínimo, habría sido prudente en cuanto a su uso. Sin embargo, el fraude dio lugar a una sonoridad -una tasa de remisión del 67% en pacientes del mundo real- que proporcionó una razón para que el público creyera en su eficacia, y una sonoridad para que los medios de comunicación la sacaran a relucir cuando surgieran nuevas preguntas sobre esta clase de fármacos.
Esto, por supuesto, es un fraude que viola los principios del consentimiento informado en medicina. El NIMH y los investigadores del STAR*D, con su promoción de una tasa de remisión falsa, estaban cometiendo un acto que, si un médico engañara a sabiendas a su paciente de este modo, constituiría una agresión médica.
Esta catalogación del daño causado se extiende a quienes recetan antidepresivos. Médicos de atención primaria, psiquiatras y otras personas del ámbito de la salud mental que quieren hacer lo correcto por sus pacientes han sido engañados sobre su eficacia en pacientes del mundo real por este fraude.
El daño también se extiende a la reputación de la psiquiatría ante el público. El escándalo STAR*D, como se conoce, alimenta la crítica pública de la psiquiatría que tanto resiente este campo.
Sí, y esto puede parecer contraintuitivo, ahora existe una oportunidad que la psiquiatría debe aprovechar. La Asociación Americana de Psiquiatría y la comunidad internacional de psiquiatras podrían dar un gran paso adelante en la recuperación de la confianza pública si hablaran del fraude del STAR*D y solicitaran una retractación de los artículos publicados. Hacerlo sería una acción que demostraría el compromiso de la profesión, a medida que avanza, de mantener los estándares de investigación y de proporcionar al público un informe honesto de la “base de pruebas” de los fármacos psiquiátricos.
Sin embargo, no hacerlo no hará más que profundizar las críticas justificadas contra este campo. Será una continuación de los últimos 15 años, cuando la psiquiatría ha demostrado, a través de su inacción, que la mala conducta en la investigación en este campo de la medicina -una mala conducta que se eleva al nivel de fraude científico- es una práctica aceptable, a pesar de que puede causar un gran daño.
Petición pública para que se retracte el artículo del sumario STAR*D
Como creemos que se trata de un asunto de gran importancia para la salud pública, Mad in America ha puesto en marcha una petición en change.org instando al American Journal of Psychiatry a retractarse del artículo resumen de noviembre de 2006 sobre los resultados del STAR*D. Un artículo de 2011 sobre el tema de la retractación en una revista médica señalaba lo siguiente:
Los artículos pueden ser retirados cuando sus conclusiones ya no se consideran fiables debido a una mala conducta o error científico, plagian trabajos publicados anteriormente o se descubre que infringen las directrices éticas. . . Aunque las retractaciones son relativamente raras, el proceso de retractación es esencial para corregir la literatura y mantener la confianza en el proceso científico.
En este caso, los hechos son claros: la tasa de remisión del 67% publicada en el American Journal of Psychiatry en noviembre de 2006 ya no puede “considerarse digna de confianza debido a la mala conducta científica”, y que la retractación del artículo “es esencial para corregir la literatura y mantener la confianza en el proceso científico”. El artículo también señalaba que “no hay plazo de prescripción para las retractaciones”.
Además, la Asociación Mundial de Editores Médicos, en su “Código de Conducta Profesional“, establece específicamente que “los editores deben corregir o retractar las publicaciones según sea necesario para garantizar la integridad del registro científico y perseguir cualquier acusación de mala conducta relacionada con la investigación, el revisor o el editor hasta que se resuelva el asunto”.
Y aquí hay un último hecho que justifica la retractación. El comunicado de prensa del NIMH de noviembre de 2006, que anunciaba que “casi el 70% de los que no se retiraron del estudio no presentaron síntomas”, contiene pruebas de que el propio NIMH, o al menos su oficina de prensa, fue engañado por sus propios investigadores. O eso, o el NIMH consintió en silencio el fraude.
En primer lugar, señala que de los 4.041 que entraron en el ensayo, “1.165 fueron excluidos porque o bien no cumplían los requisitos del estudio de tener una depresión “al menos moderada” (según una escala de valoración utilizada en el estudio) o bien decidieron no participar”. Así pues, afirmaba, había 2.871 “pacientes evaluables”. La oficina de prensa del NIMH o bien no sabía que 931 pacientes que carecían de una puntuación basal HAM-D que cumpliera los criterios de elegibilidad se habían añadido de nuevo a la mezcla de pacientes remitidos, o bien ocultó deliberadamente este hecho al público.
En segundo lugar, el comunicado de prensa afirmaba que el propósito de las evaluaciones QIDS-SR durante las visitas clínicas era informar sobre la atención continuada: “Se pidió a los pacientes que autoevaluaran sus síntomas. El estudio demostró que la mayoría de los pacientes deprimidos pueden autoevaluar rápida y fácilmente sus síntomas y estimar su carga de efectos secundarios en muy poco tiempo. Sus médicos pueden confiar en estas herramientas de autoevaluación para obtener información precisa y útil para tomar decisiones informadas sobre el tratamiento.” Esto, por supuesto, era coherente con el protocolo, que los QID se utilizarían para este fin, pero en cambio fue el instrumento que los investigadores del STAR*D utilizaron para informar de las tasas de remisión en su documento de resumen.
Nuestra esperanza es que la información sobre esta petición de Mad in America circule ampliamente por las redes sociales, produciendo un llamamiento público a la retractación que crezca demasiado como para que el American Journal of Psychiatry pueda ignorarlo. De hecho, la publicación del nuevo análisis de la RIAT de los resultados del STAR*D en una prestigiosa revista médica representa un momento de Rubicón para la psiquiatría estadounidense: o se retracta del artículo que hablaba de un resultado inventado, o admite ante sí misma, y ante el público, que la mala conducta científica y el engaño al público sobre los resultados de la investigación es un comportamiento aceptado en este campo de la medicina.
La petición puede firmarse aquí.
—
Nota a pie de página: Hay dos posibles explicaciones para el aumento del número de los 4.041 participantes de los que se dijo que no habían vuelto para una segunda visita (de 234 en el informe del paso 1 a 370 en el resumen final). Una posibilidad es que 136 de los 931 pacientes de los que se dijo que carecían de una puntuación HAM-D cualificadora nunca regresaron para una segunda visita y, por lo tanto, en el informe resumido, se añadieron a este grupo de “no regresaron” y se eliminaron del grupo de 931, dejando a 795 participantes que carecían de una puntuación HAM-D cualificadora incluidos en el recuento de pacientes evaluables.
Una segunda posibilidad puede encontrarse en el diagrama de flujo de pacientes publicado en el informe del paso 1. Aquí está:
¨
Aquí se puede ver que hubo 4.177 que dieron su consentimiento para participar en el estudio. A continuación, 136 fueron considerados no aptos por algún motivo y, por tanto, no se incluyeron en el recuento de 4.041 pacientes que entraron en el estudio. Sin embargo, los 136 pacientes no elegibles en el recuento de 4.177 habrían tenido una primera visita de detección, y una vez que se les dijo que no eran elegibles, no habrían regresado para una segunda visita clínica. Así pues, cabe la posibilidad de que los autores del estudio STAR*D tomaran este grupo de 136 pacientes no elegibles, que nunca entraron en el estudio, y los añadieran al grupo de “no regresaron” para reducir aún más el denominador en su recuento final de remisiones.
Así pues, existen dos posibilidades. La primera habla de una extraordinaria coincidencia numérica. Hubo 136 pacientes que fueron declarados no aptos antes de que comenzara el estudio, y un segundo grupo diferente de 136 pacientes que carecían de una puntuación HAM-D cualificada, a los que se permitió entrar en el estudio pero que no volvieron para una segunda visita clínica. La segunda posibilidad habla de falsificación de datos, una forma particularmente atroz de mala conducta en investigación.