MODO FONTEVECCHIA
MEDICINA

La Inteligencia Artificial calificó por encima de los médicos humanos en un examen

GPT 4 obtuvo un puntaje del 90% en las pruebas de conocimiento médico, capacidad para navegar en escenarios complejos y juicios profesionales. ¿Cómo calificaron los profesionales humanos.

La Inteligencia Artificial calificó por encima de los médicos humanos en un examen
La Inteligencia Artificial calificó por encima de los médicos humanos en un examen | Télam

Los resultados surgen de un reciente estudio que si bien no tenía por objetivo evaluar las nuevas tecnologías en comparación con los conocimientos humanos, terminó arrojando conclusiones asombrosas.

El trabajo tenía por finalidad evaluar la inteligencia artificial en funcionamiento mediante la herramienta del GPT-4 y analizar su desempeño respecto de las habilidades de comunicación, ética, empatía y profesionalidad. Para realizar este estudio se usaron las mismas preguntas del Examen de Licencia Médica de Estados Unidos.

Inteligencia artificial: los cuatro principios necesarios para que sea una revolución

Esto no les gusta a los autoritarios
El ejercicio del periodismo profesional y crítico es un pilar fundamental de la democracia. Por eso molesta a quienes creen ser los dueños de la verdad.
Hoy más que nunca Suscribite

Lo cierto es que la investigación, realizada por expertos científicos de la Escuela de Medicina Icahn, de Nueva York, y de la Universidad de Tel Aviv, Israel, mostró que GPT-4 calificó con un puntaje del 90% en pruebas de habilidades blandas.

Esta calificación obtenida por la herramienta de inteligencia artificial, superó ampliamente el puntaje promedio del 78%, que lograron los doctores humanos, en esa misma prueba. Por lo cual, el resultado de la investigación, se traduce en que el modelo de lenguaje usado por la herramienta generativa de OpenAI, alcanzó un rendimiento superior al de los humanos profesionales de la salud.

El estudio también evaluó el rendimiento de ChatGPT, que alcanzó el 62,5%, por lo que claramente el rendimiento de GPT-4 fue muy superior, con el puntaje logrado del 90%, no solo calificó mejor que los médicos humanos sino también fue mejor que el propio chat de inteligencia artificial.

Lanzan el primer buscador de talento con implementación de IA

GPT-4 y su antecesor

Cuando se habla de GPT-4, se hace referencia a la última generación del modelo de lenguaje generativo de OpenAI, que aplica el método de aprendizaje automático para generar texto en base al material con el que la función fue entrenada.

Cabe recordar, que su antecesor, era el GPT-3 en su versión gratuita, lanzada en 2020. La aparición en escena de esta herramienta revolucionó a los especialistas pero también encendió varias alarmas. Los expertos, pusieron los ojos sobre la IA y su posible contribución a la desinformación, la incitación al odio y el engaño, y hasta un eventual, desplazamiento y reemplazo de los humanos en sus puestos de trabajo.

Examen de medicina: doctores humanos vs. IA

Teniendo en mente poner a prueba a GPT-4, los científicos investigadores tomaron una selección de 80 preguntas del mismo examen que tuvieron que rendir los estudiantes y profesionales médicos de Estados Unidos sobre los ejes evaluados. Con este informe quedó en evidencia que el modelo de lenguaje generativo fue superior tanto en las pruebas de agudeza cognitiva, conocimiento médico, capacidad para navegar en escenarios complejos y juicios profesionales, éticos y legales.

Se realizó en Diputados una jornada sobre Inteligencia Artificial

Juicio y empatía humanos

Es acertado decir que las nuevas tecnologías en base a la inteligencia artificial se aplican a mas ámbitos de la vida cotidiana, lo que incluye la práctica médica. No obstante la competencia demostrada en diversas tareas y el alto puntaje del 90% obtenido por los nuevos modelos de lenguaje generativo en el examen médico, no puede asegurarse un rendimiento igual de exitoso en aquellos aspectos que requieren un necesario juicio y empatía humanos.

Por consiguiente, la investigación también hizo foco en evaluar el rendimiento en las denominadas habilidades blandas, es decir, las aptitudes no técnicas, vinculadas con el comportamiento de las personas. Se buscó medir la performance de la herramienta respecto a la forma de relacionarse con equipos de trabajo y pacientes.

JL