Inteligencia artificial en el diagnóstico clínico
La tecnología LLM no necesariamente mejora el razonamiento diagnóstico de los médicos en comparación con los recursos convencionales. Se necesita un mayor desarrollo para integrar eficazmente la IA en la práctica clínica.
Los errores de diagnóstico son frecuentes, pueden causar daños significativos a los pacientes y son el resultado de una combinación de factores cognitivos y sistémicos. Entre las intervenciones disponibles, las tecnologías de inteligencia artificial (IA) se han utilizado como herramientas prometedoras para ayudar a los médicos en el diagnóstico. Dentro de estas tecnologías se encuentran los modelos de lenguaje de gran tamaño (LLM), que han demostrado un rendimiento alentador en exámenes de razonamiento médico, tanto en formatos de opción múltiple como en respuestas abiertas. Sin embargo, todavía no se ha determinado si el uso de estas herramientas realmente mejora el razonamiento diagnóstico de los médicos.
Este estudio, liderado por el investigador Ethan Goh de la Universidad de Stanford en California, EE. UU., tuvo como objetivo evaluar el efecto de un LLM en el razonamiento diagnóstico de los médicos en comparación con los métodos convencionales.
Se llevó a cabo un ensayo clínico aleatorizado simple ciego en el que se reclutaron 50 médicos con especialización en medicina familiar, interna o de urgencias, con una mediana de tres años de experiencia profesional. La inclusión de los participantes se realizó a través de videoconferencias remotas y asistencia presencial en varias instituciones médicas académicas. Los profesionales fueron asignados aleatoriamente a dos grupos: uno con acceso a la tecnología LLM y a los recursos de diagnóstico convencionales, y otro que solo tuvo acceso a los recursos convencionales. Cada participante dispuso de 60 minutos para revisar hasta seis viñetas clínicas.
El resultado principal fue la evaluación del desempeño diagnóstico a través de una rúbrica estandarizada, que medía la precisión del diagnóstico diferencial, la relevancia de los factores de apoyo y oposición, y los próximos pasos en la evaluación. Los resultados secundarios incluyeron el tiempo, en segundos, que se tardó en analizar cada caso y la precisión del diagnóstico final.
La mediana de la puntuación en razonamiento diagnóstico por caso fue del 76% para el grupo con acceso al LLM y del 74% para el grupo que usó solo recursos convencionales (IC 95%; P=0,60). El tiempo promedio invertido por caso fue de 519 segundos para el grupo LLM, frente a 565 segundos para el grupo con recursos convencionales (IC 95%; P=0,20). El LLM, por sí solo, logró una puntuación que fue un 16% superior a la del grupo con recursos convencionales (IC 95%; P=0,03).
En este ensayo, proporcionar la tecnología LLM como ayuda diagnóstica no mejoró de manera significativa el razonamiento clínico de los médicos en comparación con el uso de recursos convencionales. Sin embargo, el LLM por sí solo mostró un rendimiento superior al de ambos grupos de médicos. Esto sugiere la necesidad de continuar desarrollando tanto la tecnología como la capacitación profesional para maximizar el potencial de colaboración entre médicos e inteligencia artificial en la práctica clínica.
Fuente bibliográfica
Large Language Model Influence on Diagnostic Reasoning: A Randomized Clinical Trial
Goh E, et al.
JAMA Netw Open. 2024;7(10):e2440969
