Información médica facilitada por chatbots es inexacta

Una Buena Parte De La Información Médica Facilitada Por Chatbots Es Inexacta E Incompleta

Una cantidad considerable de la información médica proporcionada por cinco chatbots populares es inexacta e incompleta, y la mitad de las respuestas a preguntas claras basadas en la evidencia son ‘algo’ o ‘muy’ problemáticas, señala un estudio que publica BMJ Open.

Los investigadores del Instituto Lundquist para la Innovación Biomédica (EE. UU.) advierten de que el despliegue continuado de estos chatbots sin una labor de educación pública ni supervisión corre el riesgo de amplificar la desinformación.

El equipo analizó en febrero de 2025 el nivel de precisión que ofrecían en ámbitos de la salud y la medicina cinco chatbots de IA generativa populares y de acceso público: Gemini (Google); DeepSeek (High-Flyer); Meta AI (Meta); ChatGPT (OpenAI); y Grok (xAI).

A cada uno se le plantearon diez preguntas abiertas y cerradas en cada una de cinco categorías: cáncer, vacunas, células madre, nutrición y rendimiento deportivo.

Las preguntas se diseñaron para asemejarse a consultas médicas y de salud habituales en busca de información y se desarrollaron para ‘poner a prueba’ los modelos en cuanto a desinformación o consejos contraindicados.

La mitad (50 %) de las respuestas resultaron problemáticas: el 30 % eran algo problemáticas y el 20 %, muy problemáticas, según la revista.

Aunque la calidad de las respuestas no varió significativamente, entre los chatbots, Grok generó “un número significativamente mayor” de respuestas muy problemáticas de lo que cabría esperar (29/50; 58 %), mientras que Gemini tuvo el menor número de muy problemáticas y el mayor de no problemáticas.

Las respuestas se clasificaron como ‘no problemáticas’, ‘algo problemáticas’ o ‘muy problemáticas’, utilizando criterios objetivos predefinidos.

Se consideró que era problemática cuando podía llevar a los usuarios sin conocimientos especializados a seguir un tratamiento potencialmente ineficaz o a sufrir daños si se aplicaba sin orientación profesional.

Los chatbots obtuvieron mejores resultados en los ámbitos de las vacunas y el cáncer, y peores en los de las células madre, el rendimiento deportivo y la nutrición.

La información se evaluó en función de su precisión y exhaustividad y se prestó especial atención a si un chatbot presentaba un falso equilibrio entre afirmaciones con base científica y sin ella, independientemente de la solidez de las pruebas.

Cada respuesta se calificó también en función de su legibilidad, desde si estaba redactada en un inglés sencillo y claro hasta si utilizaba un lenguaje académico y difícil.

El tipo de pregunta influyó en los resultados. Así, las abiertas, generaron 40 respuestas muy problemáticas (significativamente más de lo esperado) y 51 no problemáticas (significativamente menos de lo esperado). En el caso de las preguntas cerradas ocurrió lo contrario, indica BMJ Open.

Las preguntas cerradas exigían a los chatbots que proporcionaran respuestas predefinidas, a menudo con una única respuesta correcta, que se ajustaran al consenso científico. Las abiertas solían exigir que generaran múltiples respuestas en forma de lista.

En el proceso solo hubo dos casos en los que se negaron a responder, ambos por parte de Meta AI, en respuesta a consultas sobre esteroides anabólicos y tratamientos alternativos contra el cáncer.

En general, la calidad de las referencias fue deficiente, con una puntuación media de exhaustividad del 40 % y todas las puntuaciones de legibilidad se calificaron como ‘difíciles’, con una complejidad equivalente a la adecuada para un titulado universitario.

Los investigadores reconocen que solo evaluaron cinco chatbots y que la IA comercial está evolucionando rápidamente, por lo que sus conclusiones podrían no ser universalmente aplicables.

Además, no todas las consultas del mundo real son deliberadamente de confrontación, un enfoque que adoptaron y que podría haber exagerado la prevalencia de contenidos problemáticos.

No obstante, los hallazgos sobre la precisión científica, la calidad de las referencias y la legibilidad de las respuestas “ponen de relieve importantes limitaciones de comportamiento y la necesidad de reevaluar cómo se utilizan los chatbots con IA en la comunicación sanitaria y médica dirigida al público”, apuntan los autores.

Los chatbots, por defecto, no acceden a datos en tiempo real, sino que generan respuestas deduciendo patrones estadísticos a partir de sus datos de entrenamiento y prediciendo secuencias de palabras probables. “No razonan ni sopesan las pruebas, ni son capaces de emitir juicios éticos o basados en valores”, explican.

En línea noticias 2026