Imprecisión en el 50 % de las Respuestas Médicas de Chats de IA: Un Llamado a la Precaución

0
2
Imprecisión en el 50 % de las respuestas médicas de chats de IA

La rápida adopción de los chats de inteligencia artificial generativa ha transformado la manera en que la sociedad accede a la información. Muchos usuarios actualmente utilizan estas herramientas como sustitutos de los motores de búsqueda tradicionales para consultas médicas cotidianas. Sin embargo, una investigación internacional publicada recientemente en la revista BMJ Open revela que confiar en estas tecnologías para obtener consejos de salud puede ser arriesgado.

El estudio, liderado por investigadores del Instituto Lundquist para la Innovación Biomédica en Estados Unidos, evaluó el desempeño de cinco de los modelos de IA más utilizados: Gemini (Google), DeepSeek, Meta AI, ChatGPT (OpenAI) y Grok (xAI). Los resultados son preocupantes: alrededor de la mitad de las respuestas a preguntas basadas en evidencia científica se clasificaron como “algo” o “altamente” problemáticas.

Con el fin de evaluar la fiabilidad de estos sistemas, los científicos diseñaron un protocolo de 250 consultas divididas en cinco categorías críticas: cáncer, vacunas, células madre, nutrición y rendimiento deportivo. Las preguntas fueron formuladas para replicar búsquedas comunes de los usuarios y, en algunos casos, para poner a prueba los modelos con mitos o consejos erróneos.

El análisis determinó que el 20% de las respuestas eran altamente problemáticas, lo que podría llevar a los usuarios a seguir tratamientos ineficaces o incluso perjudiciales si se toman sin la supervisión de un profesional. Uno de los aspectos más alarmantes del estudio es la forma en que las IA presentan la información, generalmente con un tono de certeza absoluta, sin advertencias o matices sobre las limitaciones de su conocimiento. Esta falsa neutralidad, que a menudo equipara ciencia con pseudociencia, resalta una limitación inherente a la arquitectura de estos modelos.

Nicholas Tiller, investigador principal del estudio, subraya que «mucha gente tiende a pensar que los chatbots son IA omniscientes con un pozo profundo de conocimiento. Pero no poseen conocimiento en el sentido humano; no ‘saben’ cosas». Los modelos de IA están diseñados para predecir secuencias de palabras basadas en vastos conjuntos de datos, pero carecen de la capacidad para verificar la información y ponderar la precisión de sus fuentes. Este «falso equilibrio» es un fenómeno común en su funcionamiento.

El estudio también revela que Grok, de la compañía xAI, obtuvo los peores resultados, con el 58% de sus respuestas clasificadas como altamente problemáticas. Por el contrario, Gemini mostró el menor número de fallos. No obstante, todos los modelos fallaron en un aspecto crucial: la accesibilidad. Según el índice de legibilidad de Flesch, la complejidad del lenguaje utilizado es comparable al de un graduado universitario, lo cual puede ser un riesgo para la salud pública.

Tiller advierte que «las respuestas excesivamente técnicas pueden socavar la comprensión en el público general y comprometer la toma de decisiones». El estudio señala también que las respuestas más largas y complejas tienden a aumentar la confianza del usuario en la máquina, aún cuando dicha complejidad no aporte precisión. Esto puede promover una «falsa credibilidad».

Asimismo, otro hallazgo crítico es la incapacidad de los chatbots para citar fuentes de manera fiable. La calidad de las referencias fue calificada como pobre, con una puntuación media de integridad de apenas el 40%. El fenómeno de las ‘alucinaciones’ hizo que ningún chatbot proporcionara una lista de referencias bibliográficas completamente real; algunos incluso llegaron a inventar títulos de estudios y autores.

Los investigadores concluyen que, a medida que el uso de estos chatbots se expande, es fundamental implementar una educación pública, formación profesional y una supervisión regulatoria estricta. Sin estas medidas, el uso de la IA generativa en el ámbito de la salud podría erosionar la confianza en la ciencia y amplificar la desinformación, en lugar de ayudar a combatirla.
Fuente: Agencia Sinc