6
views
0
recommends
+1 Recommend
0 collections
    0
    shares
      • Record: found
      • Abstract: found
      • Article: found
      Is Open Access

      Estudio comparativo de la capacidad de aprendizaje de ChatGPT en la resolución de preguntas de especialización médica Translated title: A comparative study on the learning capabilities of ChatGPT in medical specialization query resolution

      letter

      Read this article at

      ScienceOpenPublisherPMC
          There is no author summary for this article yet. Authors can add summaries to their articles on ScienceOpen to make them more accessible to a non-specialist audience.

          Abstract

          Estimado editor, El reciente estudio «Can an Artificial Intelligence Model Pass an Examination for Medical Specialists?» 1 publicado en la revista Archivos de Bronconeumología, refleja la capacidad de ChatGPT (OpenAI, San Francisco, EE. UU.), un modelo del Procesamiento del Lenguaje Natural (PLN) entrenado mediante algoritmos de aprendizaje automático, en la resolución de preguntas de medicina especializada mediante la superación de una fase opositiva de cirugía torácica. El objetivo de esta carta es realizar una reflexión sobre la capacidad actual de aprendizaje de dichos modelos de Inteligencia Artificial Generativa (IAG). Para ello, hemos evaluado su capacidad de mejora en la resolución de dichas preguntas de temática médica en un intervalo de 90 días. Se ha realizado un análisis descriptivo de la capacidad de resolución de ChatGPT-3.5 frente a ChatGPT-4 respecto al mismo examen de oposición de la especialidad de cirugía torácica en la convocatoria de 2022 del Servicio Andaluz de Salud. La resolución de preguntas por ChatGPT se realizó a través de su plataforma online en dos intervalos: 10/02/2023-15/02/2023 y 11/05/2023-13/05/2023, utilizando el siguiente prompt: «RESPONDE LA SIGUIENTE PREGUNTA TEST:». Se utilizaron sesiones independientes para cada pregunta del cuestionario teórico, utilizándose la misma sesión para las series de preguntas basadas en el mismo escenario, aumentando el rendimiento del modelo mediante la utilización del sesgo de retención de memoria del mismo. Se utilizó como patrón de respuesta la plantilla oficial definitiva publicada por la administración pública. El examen contó con 146 preguntas (cuestionario teórico: 98/cuestionario práctico: 48). ChatGPT-3.5 alcanzó una tasa de acierto global del 58,9% (86), desglosada en un 63,2% (62) en el cuestionario teórico y un 50% (24) en el práctico. Por otro lado, ChatGPT-4 obtuvo una tasa de acierto global del 65,7% (96), con un 71,43% (70) en el cuestionario teórico y un 54,16% (26) en el práctico. Aplicando los criterios de puntuación, ChatGPT-4, como ya consiguió ChatGPT-3.5, aprobaría este examen de oposición; sin embargo, el análisis inferencial no reveló diferencias estadísticamente significativas (p > 0.05) con respecto a la tasa de respuestas correctas entre ambas versiones. Nuestro estudio contrasta con otras publicaciones que han evaluado de forma reciente la capacidad de aprendizaje de dichos modelos de IAG respecto a la resolución de escenarios específicos dentro del ámbito de la medicina, entre ellos, por ejemplo, se ha evidenciado una mejoría en la capacidad de resolución de ChatGPT-3.5 frente a ChatGPT-4 en el ámbito de la oncología radioterápica 2 o de la oftalmología3, 4. Estos hallazgos nos deben hacer reflexionar sobre la magnitud del progreso de los modelos de IAG al enfrentarse a áreas de razonamiento crítico complejo. Es crucial puntualizar que la precisión y la validez de la información generada por estos modelos de IAG dependen no solo de los algoritmos aplicados y su capacidad computacional, sino también de forma directa de la veracidad de los datos de los que aprenden estos modelos5, 6. Como conclusión, la capacidad de aprendizaje en los modelos de IAG puede ser significativa y de valor para la práctica médica en contextos específicos. Los autores consideramos imperativo que la comunidad científica desempeñe un papel activo en garantizar la precisión y validez de la información generada y de los datos utilizados en el entrenamiento de este tipo de modelos de IAG, así como en la evaluación del progreso y en la aplicación de estos al ámbito de la medicina. Financiación Este trabajo no ha recibido ningún tipo de financiación. Contribuciones de los autores Todos los autores participaron en la concepción y diseño del trabajo. Todos los autores creen que el manuscrito representa un trabajo válido, lo han leído y lo han aprobado completamente. Los autores garantizan que el artículo es original y no ha sido enviado a otra revista para su publicación. Conflictos de interés Los autores declaran no tener ningún conflicto de intereses.

          Related collections

          Most cited references6

          • Record: found
          • Abstract: found
          • Article: found
          Is Open Access

          Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models

          We evaluated the performance of a large language model called ChatGPT on the United States Medical Licensing Exam (USMLE), which consists of three exams: Step 1, Step 2CK, and Step 3. ChatGPT performed at or near the passing threshold for all three exams without any specialized training or reinforcement. Additionally, ChatGPT demonstrated a high level of concordance and insight in its explanations. These results suggest that large language models may have the potential to assist with medical education, and potentially, clinical decision-making.
            • Record: found
            • Abstract: found
            • Article: found
            Is Open Access

            Benchmarking large language models’ performances for myopia care: a comparative analysis of ChatGPT-3.5, ChatGPT-4.0, and Google Bard

            Background Large language models (LLMs) are garnering wide interest due to their human-like and contextually relevant responses. However, LLMs’ accuracy across specific medical domains has yet been thoroughly evaluated. Myopia is a frequent topic which patients and parents commonly seek information online. Our study evaluated the performance of three LLMs namely ChatGPT-3.5, ChatGPT-4.0, and Google Bard, in delivering accurate responses to common myopia-related queries. Methods We curated thirty-one commonly asked myopia care-related questions, which were categorised into six domains—pathogenesis, risk factors, clinical presentation, diagnosis, treatment and prevention, and prognosis. Each question was posed to the LLMs, and their responses were independently graded by three consultant-level paediatric ophthalmologists on a three-point accuracy scale (poor, borderline, good). A majority consensus approach was used to determine the final rating for each response. ‘Good’ rated responses were further evaluated for comprehensiveness on a five-point scale. Conversely, ‘poor’ rated responses were further prompted for self-correction and then re-evaluated for accuracy. Findings ChatGPT-4.0 demonstrated superior accuracy, with 80.6% of responses rated as ‘good’, compared to 61.3% in ChatGPT-3.5 and 54.8% in Google Bard (Pearson's chi-squared test, all p ≤ 0.009). All three LLM-Chatbots showed high mean comprehensiveness scores (Google Bard: 4.35; ChatGPT-4.0: 4.23; ChatGPT-3.5: 4.11, out of a maximum score of 5). All LLM-Chatbots also demonstrated substantial self-correction capabilities: 66.7% (2 in 3) of ChatGPT-4.0's, 40% (2 in 5) of ChatGPT-3.5's, and 60% (3 in 5) of Google Bard's responses improved after self-correction. The LLM-Chatbots performed consistently across domains, except for ‘treatment and prevention’. However, ChatGPT-4.0 still performed superiorly in this domain, receiving 70% ‘good’ ratings, compared to 40% in ChatGPT-3.5 and 45% in Google Bard (Pearson's chi-squared test, all p ≤ 0.001). Interpretation Our findings underscore the potential of LLMs, particularly ChatGPT-4.0, for delivering accurate and comprehensive responses to myopia-related queries. Continuous strategies and evaluations to improve LLMs’ accuracy remain crucial. Funding Dr Yih-Chung Tham was supported by the doi 10.13039/501100001349, National Medical Research Council of Singapore; (NMRC/MOH/HCSAINV21nov-0001).
              • Record: found
              • Abstract: found
              • Article: found
              Is Open Access

              Benchmarking ChatGPT-4 on a radiation oncology in-training exam and Red Journal Gray Zone cases: potentials and challenges for ai-assisted medical education and decision making in radiation oncology

              Purpose The potential of large language models in medicine for education and decision-making purposes has been demonstrated as they have achieved decent scores on medical exams such as the United States Medical Licensing Exam (USMLE) and the MedQA exam. This work aims to evaluate the performance of ChatGPT-4 in the specialized field of radiation oncology. Methods The 38th American College of Radiology (ACR) radiation oncology in-training (TXIT) exam and the 2022 Red Journal Gray Zone cases are used to benchmark the performance of ChatGPT-4. The TXIT exam contains 300 questions covering various topics of radiation oncology. The 2022 Gray Zone collection contains 15 complex clinical cases. Results For the TXIT exam, ChatGPT-3.5 and ChatGPT-4 have achieved the scores of 62.05% and 78.77%, respectively, highlighting the advantage of the latest ChatGPT-4 model. Based on the TXIT exam, ChatGPT-4’s strong and weak areas in radiation oncology are identified to some extent. Specifically, ChatGPT-4 demonstrates better knowledge of statistics, CNS & eye, pediatrics, biology, and physics than knowledge of bone & soft tissue and gynecology, as per the ACR knowledge domain. Regarding clinical care paths, ChatGPT-4 performs better in diagnosis, prognosis, and toxicity than brachytherapy and dosimetry. It lacks proficiency in in-depth details of clinical trials. For the Gray Zone cases, ChatGPT-4 is able to suggest a personalized treatment approach to each case with high correctness and comprehensiveness. Importantly, it provides novel treatment aspects for many cases, which are not suggested by any human experts. Conclusion Both evaluations demonstrate the potential of ChatGPT-4 in medical education for the general public and cancer patients, as well as the potential to aid clinical decision-making, while acknowledging its limitations in certain domains. Owing to the risk of hallucinations, it is essential to verify the content generated by models such as ChatGPT for accuracy.

                Author and article information

                Contributors
                Twitter Icon
                Twitter Icon
                Twitter Icon
                Journal
                Open Respir Arch
                Open Respir Arch
                Open Respiratory Archives
                Elsevier
                2659-6636
                04 June 2024
                October 2024
                04 June 2024
                : 6
                : Suppl 2
                : 100340
                Affiliations
                [a ]Hospital Clínico Universitario de Valladolid, Universidad de Valladolid, Valladolid, España
                [b ]Hospital Clínico San Carlos, IdISSC, Universidad Complutense de Madrid, Madrid, España
                Author notes
                [* ]Autor para correspondencia. alvarofuentesmartin@ 123456gmail.com Twitter Icon
                Article
                S2659-6636(24)00043-2 100340
                10.1016/j.opresp.2024.100340
                11255106
                39027421
                e6dbbab0-ae54-46ed-a560-5f6f6624688d
                © 2024 Sociedad Española de Neumología y Cirugía Torácica (SEPAR). Published by Elsevier España, S.L.U.

                This is an open access article under the CC BY-NC-ND license (http://creativecommons.org/licenses/by-nc-nd/4.0/).

                History
                Categories
                Carta al Editor

                Comments

                Comment on this article

                Related Documents Log