Un nuevo estudio reveló que la inteligencia artificial ya supera a los médicos en diagnósticos complejos y de urgencia
Un trabajo científico reciente comparó el desempeño de sistemas de IA con profesionales de la salud en escenarios clínicos de alta complejidad. Los resultados muestran ventajas claras de los algoritmos en precisión y rapidez.
La inteligencia artificial (IA) en medicina dejó de ser una promesa futura y empezó a mostrar resultados en uno de los terrenos más sensibles del sistema de salud: el diagnóstico clínico. Un nuevo estudio científico revela que un modelo de lenguaje de gran tamaño (LLM, por sus siglas en inglés) logró identificar enfermedades complejas con mayor precisión que médicos humanos, incluso en situaciones críticas como la atención inicial en salas de urgencias.
La investigación, publicada en la revista Science, evaluó el desempeño del modelo o1 de OpenAI frente a cientos de profesionales de la salud con distintos niveles de experiencia. Los resultados muestran que la IA no solo igualó, sino que en muchos casos superó a los médicos en tareas de razonamiento clínico, diagnóstico diferencial y planificación del tratamiento.
Uno de los datos más relevantes es que, en las primeras instancias de atención de urgencias -cuando la información es incompleta y el margen de error es mínimo- el modelo de IA identificó el diagnóstico correcto o uno muy cercano en aproximadamente el 67% de los casos. En comparación, los médicos humanos alcanzaron tasas de acierto de entre el 50% y el 55%.
El FMI alerta que la Inteligencia Artificial pone en riesgo la estabilidad financiera global
La tendencia, además, no parece circunstancial. Según los autores del trabajo, el rendimiento de estos sistemas mejora de manera constante y plantea la necesidad urgente de repensar cómo se integran las herramientas de inteligencia artificial en los flujos reales de atención médica.
Un experimento a gran escala puso a la IA frente a médicos reales
El estudio fue diseñado para evaluar la capacidad diagnóstica de un modelo de lenguaje avanzado en múltiples escenarios clínicos. En total, los investigadores sometieron al sistema a cinco tipos de tareas diferentes, que incluyeron el análisis de perfiles médicos complejos, la sugerencia de diagnósticos diferenciales, la elección de los siguientes pasos clínicos y la estimación de probabilidades de evolución de la salud.
En todos esos ejercicios, el modelo o1 obtuvo resultados similares o directamente superiores a los de los médicos. “La diferencia entre el modelo y los humanos fue tan significativa en todas las tareas que temíamos que nadie creyera los resultados”, afirmó Adam Rodman, internista del Beth Israel Deaconess Medical Center y coautor del estudio.
El modelo de IA identificó el diagnóstico correcto o uno muy cercano en aproximadamente el 67% de los casos.
Uno de los puntos más llamativos fue una prueba de razonamiento clínico en la que se evaluó la claridad del proceso diagnóstico y la coherencia de los pasos propuestos. Allí, el modelo alcanzó una puntuación perfecta en el 98% de los casos analizados. Los médicos tratantes, en cambio, solo lograron ese nivel en el 35% de los casos.
Thomas Buckley, científico informático de la Harvard University y también coautor del trabajo, explicó que una de las pruebas clave consistió en simular el recorrido real de un paciente en una guardia: el ingreso por triaje, la evaluación médica inicial y la decisión de tratamiento. Cada una de esas etapas implica riesgos concretos de error diagnóstico.
“Las decisiones iniciales de triaje son especialmente complejas porque los profesionales sanitarios deben actuar con rapidez y los errores pueden tener consecuencias inmediatas”, detalló Buckley. Un error en ese punto puede significar, por ejemplo, confundir una infección grave con un cuadro leve y enviar al paciente a su casa sin tratamiento.
Resultados en urgencias y límites actuales de la inteligencia artificial médica
Para evaluar el rendimiento en condiciones reales, los investigadores utilizaron 76 casos clínicos reales de pacientes atendidos en urgencias. La información fue proporcionada al modelo de manera progresiva, imitando el flujo real de datos que recibe un médico durante la atención.
En el triaje inicial, cuando la información disponible es mínima, el modelo o1 identificó el diagnóstico exacto o muy cercano en el 67,1% de los casos. En la consulta médica, el porcentaje subió al 72,4%, y al momento de la admisión hospitalaria o a terapia intensiva alcanzó el 81,6%. En todas las etapas, superó a dos médicos internistas evaluados en paralelo.
Eric Strong, internista de la Stanford University que no participó del estudio, consideró que el hecho de que el modelo probado haya sido lanzado a fines de 2024 es irrelevante. “Es prácticamente historia antigua en el mundo del aprendizaje automático”, afirmó, y sostuvo que los modelos más recientes probablemente tengan un rendimiento igual o superior.
Otros expertos también valoraron el alcance del trabajo. Daniel McDuff, científico informático de Google, destacó que ver a un modelo de IA evaluado en un entorno real resulta “emocionante”. En la misma línea, Shreya Johri, del Instituto Oncológico Dana-Farber, remarcó que el estudio logró combinar profundidad y amplitud en la evaluación de tareas clínicas.
Corea del Sur sacude al mercado con idea de pago a los ciudadanos con ganancias de la IA
Sin embargo, los propios autores advierten sobre los límites actuales. El experimento solo analizó información textual y no incluyó datos clave como imágenes médicas, sonidos o evaluaciones físicas, fundamentales para muchos diagnósticos. Además, no contempló casos con historiales clínicos extensos, como pacientes internados durante varios días.
“No creo que el modelo actual funcione para un paciente hospitalizado con días y días de información”, advirtió Rodman, y añadió: “Creo que su rendimiento disminuiría”.
Pese a esas limitaciones, el consenso entre los especialistas radica en que la inteligencia artificial ya demostró que puede igualar y superar a los médicos en múltiples parámetros de razonamiento clínico. El próximo desafío será comprobar si estas herramientas pueden mejorar efectivamente la atención de los pacientes fuera de los ensayos controlados y sin comprometer la seguridad.
“Necesitamos comprender cómo estos modelos pueden influir en la evolución de la atención médica de una persona a lo largo del tiempo”, concluyó McDuff.
También te puede interesar
-
“Estamos tercerizando funciones del cerebro”, la advertencia sobre la inteligencia artificial que abrió debate en “QR!”
-
Sam Altman proyectó el futuro de ChatGPT: "Queremos que se convierta en algo que conozca toda tu vida"
-
Jensen Huang escaló posiciones en la lista de fortunas globales tras el crecimiento de la infraestructura para inteligencia artificial
-
La Unión Europea prohibió la Inteligencia Artificial que generen imágenes sexuales