Salud
La mitad de las respuestas médicas de chatbots de IA son problemáticas, según un estudio
MADRID, ESPAÑA/ SALUD DIGITAL.— El uso de chatbots de inteligencia artificial para consultas de salud podría conllevar riesgos significativos. Un estudio publicado en BMJ Open revela que el 50% de las respuestas proporcionadas por cinco plataformas populares presenta algún grado de problema en términos de precisión o exhaustividad.
El análisis evaluó herramientas ampliamente utilizadas como ChatGPT, Gemini, DeepSeek, Meta AI y Grok. En total, se formularon 250 preguntas sobre temas sensibles como cáncer, vacunas, nutrición, células madres y rendimiento deportivo, simulando consultas reales tanto del público general como del ámbito académico.
Los resultados muestran que un 30% de las respuestas fueron «algo problemáticas» y un 20% «muy problemáticas», es decir, potencialmente capaces de inducir a decisiones perjudiciales si se siguen sin asesoramiento profesional. Las preguntas abiertas resultaron especialmente vulnerables, generando un mayor volumen de respuestas inexactas o incompletas.
Un 30% de las respuestas fueron «algo problemáticas» y un 20% «muy problemáticas»
Aunque no hubo grandes diferencias globales entre plataformas, Grok registró una proporción superior de respuestas problemáticas, mientras que Gemini obtuvo mejores resultados relativos. En cuanto a áreas temáticas, los chatbots ofrecieron mayor precisión en vacunas y cáncer, pero fallaron más en cuestiones relacionadas con células madre, nutrición y rendimiento deportivo.
El estudio también detectó problemas relevantes en la calidad de las referencias, con una exhaustividad media del 40% y presencia de citas erróneas o incluso inventadas. Además, las respuestas tendían a presentarse con un tono seguro y sin matices, lo que puede aumentar el riesgo de que los usuarios confíen en información correcta. Otro aspecto preocupante es la legibilidad: los textos generados mostraron un nivel de complejidad equivalente al de un graduado universitario, lo que dificulta su comprensión para el público general.
Detectó problemas relevantes en la calidad de las referencias, con una exhaustividad media del 40% y presencia de citas erróneas o incluso inventadas
Los investigadores recuerdan que estos sistemas no razonan ni evalúan evidencia de forma crítica, sino que generan respuestas basadas en patrones aprendidos a partir de grandes volúmenes de datos, incluidos foros y contenidos no siempre verificados. Esto puede dar lugar a explicaciones que suenen convinventes pero que no son científicamente sólidas. Aunque el estudio presenta limitaciones, como el número de chatbots analizados y el uso de preguntas diseñadas para poner a prueba los sistemas, sus conclusiones subrayan la necesidad de implementar medidas de control.
En este contexto, los autores abogan por reforzar la educación pública, la formación de profesionales y la supervisión regulatoria para garantizar que la inteligencia artificial actúe como una herramienta de apoyo y no como un vector de desinformación en salud.
