Ap Biotech
MANLAB
Precisión de ChatGPT en el diagnóstico de entidades clínicas en el ámbito de la medicina interna

Precisión de ChatGPT en el diagnóstico de entidades clínicas en el ámbito de la medicina interna

Carlos A. Andrade-Castellanos,1,2

Ma. Teresa Tapia-de la Paz2

Pedro E. Farfán-Flores3 

1 Programa de Maestría en Educación en Ciencias de la Salud, Centro Universitario en Ciencias de la Salud, Universidad de Guadalajara; 

2 Servicio de Medicina Interna. Hospital Civil de Guadalajara “Dr. Juan I. Menchaca”; 

3 Coordinador de Posgrado, Centro Universitario de Ciencias de la Salud, Universidad de Guadalajara. Jalisco, México 

ChatGPT es un modelo de inteligencia artificial (IA) diseñado para conversaciones. Su implementación en la resolución de dilemas clínicos abre nuevas posibilidades y permite a los médicos plantear casos clínicos y obtener respuestas en tiempo real.1,2 También es útil en el proceso del diagnóstico diferencial, aunque es importante tener en cuenta los sesgos, como las alucinaciones.3 

La IA debe utilizarse de manera responsable y ética en la educación médica. Los programas de formación deben ser diseñados y supervisados por educadores humanos, mientras que la IA debe ser utilizada como una herramienta complementaria, en lugar de ser considerada como un reemplazo de la interacción humana en el proceso educativo.4 

El objetivo de este estudio fue evaluar la capacidad de ChatGPT en el diagnóstico de entidades clínicas en el ámbito de la medicina interna, para lo cual se utilizaron descripciones de casos. Se emplearon los casos del Medical Knowledge Self-Assessment Program (MKSAP), tal como se presentan en el sitio web de ACP Internist Weekly, del American College of Physicians, dentro de la sección Test Yourself (https://acpinternist.org/).5 Estos casos están diseñados específicamente con fines educativos y han sido utilizados en el aprendizaje continuo desde 1968. Se copiaron los casos publicados desde el 19 de octubre de 2021 hasta el 11 de julio de 2023 directamente en ChatGPT versión 3.5 (https://chat.openai.com/), seguidos de dos preguntas: What is the most likely diagnosis? y What is the differential diagnosis? Excluimos aquellos que no implicaban dilemas diagnósticos, como los centrados en determinar el manejo más apropiado, y los que requerían imágenes para establecer un diagnóstico, según lo determinado por consenso. 

El desenlace primario consistió en la coincidencia del diagnóstico principal de ChatGPT con el diagnóstico final del caso. Los desenlaces secundarios incluyeron la presencia del diagnóstico final en la lista diferencial de ChatGPT y la puntuación de calidad del diferencial obtenida con un sistema de clasificación ordinal de cinco puntos (previamente publicado),6 el cual califica precisión y utilidad (se otorgan cinco puntos a una lista diferencial que incluye el diagnóstico exacto y cero puntos cuando no identifica diagnósticos cercanos). Todos los casos fueron evaluados de forma independiente por dos de los autores de este artículo y las discrepancias fueron resueltas por el tercero. Se realizó estadística descriptiva y se calculó el coeficiente kappa de Cohen para determinar la confiabilidad entre los evaluadores mediante el programa estadístico SPSS versión 21 (IBM). 

De 110 casos evaluados, se excluyeron 100 (81 no constituyeron dilemas diagnósticos y 19 requerían imágenes para establecer el diagnóstico). El valor de kappa de Cohen estimado para la confiabilidad entre los evaluadores fue de 0.70 (acuerdo sustancial). Los detalles de cada caso y las respuestas completas generadas por ChatGPT están disponibles en el material suplementario de este artículo. En la Figura 1 se muestra un ejemplo de un caso junto con la respuesta generada por ChatGPT. El diagnóstico principal del modelo de IA coincidió con el diagnóstico final en 70 % de los casos y el modelo incluyó el diagnóstico final en su lista diferencial en 80 % de los casos (Tabla 1). Cuando ChatGPT proporcionó el diagnóstico correcto en su lista diferencial, la posición media del diagnóstico fue de 1.5 ± 1.06 y la media de calidad del diagnóstico diferencial fue de 4.4 ± 1.07. 

El modelo generativo de IA ChatGPT demostró un alto porcentaje de aciertos en el diagnóstico. Además, logró incluir el diagnóstico final en su lista diferencial en un elevado número de casos. Estos resultados son comparables con estudios previos que evaluaron el desempeño de ChatGPT.7-9 Recientemente se evaluó su rendimiento utilizando casos clinicopatológicos del New England Journal of Medicine (NEJM). El modelo identificó el diagnóstico correcto en 39 % de los casos y el diagnóstico final en su lista diferencial en 64 %. La calidad media de los diagnósticos diferenciales obtenidos fue de 4.2, ligeramente inferior en comparación con la obtenida en nuestro estudio.10 Es importante resaltar que los casos del NEJM suelen ser detallados, exhaustivos y a menudo requieren apoyo radiológico. 

La tecnología de IA conversacional presenta limitaciones significativas. Una de ellas es su capacidad para generar respuestas que suenan plausibles, pero que son incorrectas desde el punto de vista factual. Además, estos modelos pueden ser sensibles a la formulación de la entrada o prompt utilizada para generar una respuesta; es probable que una descripción insatisfactoria, carente de precisión o redactada en un idioma distinto derive en resultados insatisfactorios.11 

Es factible emplear ChatGPT con fines clínicos. No obstante, en el actual estadio de desarrollo de la IA, estas asistencias son todavía concebidas como un copiloto en el proceso de diagnóstico. Por otro lado, su aplicación como herramienta de apoyo educativo es viable y podría ser considerada como una posible “zona de desarrollo próximo”, conforme la concepción de Vygostky. Al proporcionar información clínica razonada, ChatGPT puede ayudar a los estudiantes a desarrollar esquemas que faciliten la asimilación y la acomodación de aprendizajes significativos (enfoque basado en problemas). Esta tecnología posee relevancia para las generaciones actuales y las venideras, lo que conlleva la necesidad de redefinir los enfoques educativos con el propósito de abordar sus requerimientos y expectativas de manera adecuada. 

Financiamiento: Los autores declaran no haber recibido financiación para este estudio. 

Ap Biotech

Conflicto de intereses Los autores declaran no tener conflicto de intereses. 

Responsabilidades éticas: Protección de personas y animales. Los autores declaran que para esta investigación no se realizaron experimentos en seres humanos ni en animales. Confidencialidad de los datos. Los autores declaran que en este artículo no aparecen datos de pacientes. Derecho a la privacidad y consentimiento informado. Los autores declaran que en este artículo no aparecen datos de pacientes. Uso de inteligencia artificial para generar textos. Los autores declaran que no han utilizado ningún tipo de inteligencia artificial generativa en la redacción de este manuscrito ni para la creación de figuras, gráficos, tablas o sus correspondientes pies o leyendas. 

Material suplementario: El material suplementario se encuentra disponible en DOI: 10.24875/GMM.23000297. Este material es provisto por el autor de correspondencia y publicado online para el beneficio del lector. El contenido del material suplementario es responsabilidad única de los autores.

Referencias Bibliográficas

1. Lanzagorta-Ortega D, Carrillo-Pérez DL, Carrillo-Esper R. Inteligencia artificial en medicina: presente y futuro. Gac Med Mex. 2022;158(Supl.1):55-9. DOI: 10.24875/GMM.M22000688. 

2. Liu J, Wang C, Liu S. Utility of ChatGPT in clinical practice. J Med Internet Res. 2023;25:e48568. DOI: 10.2196/48568. 

https://www.wiener-lab.com/es-AR/

3. Vidal-Ledo M, Diego-Olite F, Armenteros-Vera I, Morales-Suárez I, Acosta-Domínguez A, Pérez-Pedro J. Chat en la educación médica. Educación Médica Superior [Internet]. 2023 [Citado 2023 Jul 14];37(2):e3879. Disponible en: https://ems.sld.cu/index.php/ems/article/view/3879 

4. Palencia-Díaz R, Palencia-Vizcarra RJ. El potencial de la inteligencia artificial para disminuir errores médicos y mejorar la educación médica continua. Med Int Mex. 2023;39(3):419-21. DOI: 10.24245/mim.v39i3.8934 

5. ACP Internist Weekly [Internet]. Estados Unidos: Test Yourself. American College of Physicians. Disponible en: https://acpinternist.org 

6. Bond WF, Schwartz LM, Weaver KR, Levick D, Giuliano M, Graber ML. Differential diagnosis generators: an evaluation of currently available computer programs. J Gen Intern Med. 2012;27(2):213-9. DOI: 10.1007/ s11606-011-1804-8 

7. Rao A, Pang M, Kim J, Kamineni M, Lie W, Prasad AK, et al. Assessing the utility of ChatGPT throughout the entire clinical workflow. medRxiv. 2023:2023.02.21.23285886. DOI: 10.1101/2023.02.21.23285886 

AP BIOTECH

8. Balas M, Ing EB. Conversational AI models for ophthalmic diagnosis: comparison of ChatGPT and the Isabel Pro Differential Diagnosis Generator. JFO Open Opthalmology. 2023;1:100005. DOI: 10.1016/j.jfop.2023.100005 

9. Hirosawa T, Harada Y, Yokose M, Sakamoto T, Kawamura R, Shimizu T. Diagnostic accuracy of differential-diagnosis lists generated by Generative Pretrained Transformer 3 Chatbot for clinical vignettes with common chief complaints: a pilot study. Int J Environ Res Public Health. 2023;20(4):3378. DOI: 10.3390/ijerph20043378 

10. Kanjee Z, Crowe B, Rodman A. Accuracy of a generative artificial intelligence model in a complex diagnostic challenge. JAMA. 2023; 330(1):78-80. DOI: 10.1001/jama.2023.8288 

11. Liu P, Yuan W, Fu J, Jiang Z, Hayashi H, Neubig G. Pre-train, prompt, and predict: a systematic survey of prompting methods in natural language processing. arXiv [Internet]. 2021 [Citado 2023 Jul 16];arXiv:2107.13586. Disponible en: http://arxiv.org/abs/2107.13586.

BIOARS
https://www.wiener-lab.com/es-AR/

Más notas de la edición 152

TUBLOOD
MERCK

Lee desde Issuu nuestra última edición publicada en Mayo 2024, Edición número 153

GEMATEC
BERNARDO LEW