Σε μια πρόσφατη μελέτη που δημοσιεύτηκε στην πλατφόρμα medRxiv, ερευνητές αξιολόγησαν τη διαγνωστική ακρίβεια του ChatGPT.
Πολλά άτομα αναζητούν μια πιθανή διάγνωση αναζητώντας βιβλιογραφία στο διαδίκτυο σχετικά με τα συμπτώματα που εμφανίζουν. Τα μοντέλα τεχνητής νοημοσύνης (ΑΙ) τύπου GPT (Generative Pre-trained Transformer) όπως το ChatGPT θα μπορούσαν να φέρουν επανάσταση στον τομέα της ιατρικής και να ξεκινήσουν μια νέα τάση αυτοδιάγνωσης, παρέχοντας δεδομένα, συμπεριλαμβανομένων συμπτωμάτων και διαφορικών διαγνώσεων ιατρικών καταστάσεων.
Σχετικά με την μελέτη
Οι ερευνητές διερεύνησαν εάν το ChatGPT θα μπορούσε να διαγνώσει με ακρίβεια διάφορες κλινικές περιπτώσεις.
Η ομάδα συμπεριέλαβε 50 βινιέτες (σύντομες περιλήψεις) κλινικών περιπτώσεων, συμπεριλαμβανομένων 40 περιπτώσεων που παρατηρούνται συχνά και 10 σπάνιων περιπτώσεων. Οι 10 περιπτώσεις που παρατηρήθηκαν σπάνια προέκυψαν από μια τυχαία επιλογή σπάνιων ασθενειών και ενός ορφανού φαρμάκου με θετικό σήμα από τον Ευρωπαϊκό Οργανισμό Φαρμάκων (EMA). Τα ονόματα των σπάνιων ασθενειών χρησιμοποιήθηκαν ως ερωτήματα στη βάση δεδομένων PunMed και στην ανάλυση χρησιμοποιήθηκε το πρώτο αντίστοιχο άρθρο που ταίριαζε στην αναζήτηση.
Η ομάδα εισήγαγε με την μορφή πλήρους κειμένου στον “διάλογο” με το ChatGPT τις 10 πιο πιθανές διαγνώσεις κλινικών περιστατικών ασθενών.
Όλες οι βινιέτες ασθενειών ζητήθηκαν τρεις φορές σε ανεξάρτητα κουτιά συνομιλίας. Χρησιμοποιήθηκαν δύο εκδόσεις του ChatGPT, δηλαδή η έκδοση 3.50 και η έκδοση 4.0, που απέδωσαν συνολικά 300 προτροπές και 3.000 προτεινόμενες ιατρικές διαγνώσεις. Ένας γιατρός συνέκρινε τις προτεινόμενες από το ChatGPT διαγνώσεις με τις σωστές διαγνώσεις για τις αντίστοιχες ασθένειες.
Οι περιπτώσεις θεωρήθηκαν σωστά διαγνωσμένες στην περίπτωση άμεσης αντιστοίχισης (π.χ. «οξεία μέση ωτίτιδα» που διαγνώστηκε από το chatbot ως «οξεία μέση ωτίτιδα») ή εάν το ChatGPT πρότεινε ιεραρχικές σχέσεις άμεσου τύπου με τη σωστή ιατρική διάγνωση (π.χ. «οξεία φαρυγγίτιδα” για “φαρυγγίτιδα” ή “ισχαιμικό εγκεφαλικό επεισόδιο” για “εγκεφαλικό επεισόδιο”).
Η ακρίβεια των υποδεικνυόμενων διαγνώσεων εκφράστηκε ως ακρίβεια topX, αντιπροσωπεύοντας το ποσοστό των περιπτώσεων που επιλύθηκαν χρησιμοποιώντας το μέγιστο X υποδεικνυόμενων διαγνώσεων. Για παράδειγμα, μια κορυφαία διαγνωστική ακρίβεια 100% υποδηλώνει όλες οι βινιέτες ασθενειών επιλύθηκαν με την αρχικά προτεινόμενη ιατρική διάγνωση. Εάν 7 από τις 10 περιπτώσεις επιλύονταν με την αρχικά υποδεικνυόμενη διάγνωση και 1 επιπλέον περίπτωση με την επακόλουθη υποδεικνυόμενη διάγνωση, τα ποσοστά για το top1 και το top2 θα ήταν 70% και 80%, αντίστοιχα. Επιπλέον, πραγματοποιήθηκε έλεγχος για να προσδιοριστεί το επίπεδο συμφωνίας μεταξύ της διάγνωσης που υποδεικνύεται από το ChatGPT και της σωστής διάγνωσης.
Αποτελέσματα
- Το ChatGPT 4.0 θα μπορούσε να παρέχει δύο διαγνώσεις και για τις 40 κοινώς παρατηρούμενες ασθένειες.
- Για σπάνιες ασθένειες, η έκδοση 4.0 του ChatGPT 4.0 χρειαζόταν ≥8.0 διαγνωστικές προτάσεις για την επίλυση του 90% των περιπτώσεων.
- Όσον αφορά τις συνηθισμένες ασθένειες, το ChatGPT 4.0 είχε σταθερά καλύτερη απόδοση από το ChatGPT 3.50. Η ακρίβεια top2 για το ChatGPT 3.50 ήταν μεγαλύτερη από 90% και η ακρίβεια top3 για την έκδοση 4.0 ήταν 100% για όλες τις περιπτώσεις.
- Τα ευρήματα έδειξαν ότι ανάμεσα σε δύο υποδεικνυόμενες διαγνώσεις, το ChatGPT 3.50 θα μπορούσε να λύσει >90% των περιπτώσεων και ανάμεσα σε τρεις υποδεικνυόμενες διαγνώσεις, το ChatGPT 4.0 θα μπορούσε να λύσει όλες τις περιπτώσεις.
- Τα αποτελέσματα για την έκδοση 4.0 ήταν σημαντικά καλύτερα από εκείνα για την έκδοση 3.50 και οι διαγνώσεις που υποδεικνύονταν από το ChatGPT ήταν σημαντικά ταυτόσημες με τις σωστές ιατρικές διαγνώσεις.
Όσον αφορά τις σπάνιες περιπτώσεις:
- Η έκδοση 3.50 ήταν 60% ακριβής, με τη σωστή διάγνωση εντός των 10 διαγνώσεων που υποδεικνύονται από το chatbot.
- Μόνο το 23% των σωστών διαγνώσεων αναφέρθηκαν ως αρχικό αποτέλεσμα.
- Η έκδοση 4.0 είχε καλύτερη απόδοση από την έκδοση 3.50. Ωστόσο, η διαγνωστική ακρίβεια ChatGPT 4.0 για σπάνιες ασθένειες απείχε πολύ από αυτή που παρατηρήθηκε για κοινές ασθένειες.
- Μεταξύ των σπάνιων ασθενειών, το 40% επιλύθηκε με την αρχική ενδεικνυόμενη διάγνωση. Ωστόσο, απαιτήθηκαν τουλάχιστον οκτώ διαγνωστικές προτάσεις για να επιτευχθεί διαγνωστική ακρίβεια 90%.
- Κανένα από τα μοντέλα δεν έφτασε στο 100% της ακρίβειας. Ωστόσο, ούτε μία περίπτωση δεν έμεινε άλυτη από το ChatGPT, δηλαδή η χρήση του ChatGPT 4.0 τρεις φορές απέδωσε 3×10 διαγνωστικές προτάσεις, οι οποίες περιλάμβαναν πάντα τη σωστή διάγνωση για κάθε περίπτωση.
Συμπέρασμα
- Με βάση τα ευρήματα της μελέτης, το ChatGPT θα μπορούσε να είναι ένα πολύτιμο εργαλείο για να βοηθήσει τις ανθρώπινες ιατρικές διαβουλεύσεις για τη διάγνωση περίπλοκων περιπτώσεων.
- Το ChatGPT 4.0 κατανοεί σημασιολογικά τις ιατρικές διαγνώσεις αντί απλώς να τις αντιγράφει και να τις επικολλά από ερευνητικές εργασίες, ιστοσελίδες ή βιβλία.
- Παρά την καλή ακρίβεια στη διάγνωση κοινών περιπτώσεων, το ChatGPT πρέπει να χρησιμοποιείται με προσοχή από μη επαγγελματίες του τομέα της υγείας και πρέπει να συμβουλευτείτε γιατρούς πριν βγάλετε συμπέρασμα οποιασδήποτε κλινικής πάθησης, όπως δηλώνει το ίδιο το chatbot.
Σημαντική σημείωση: Η πλατφόρμα medRxiv δημοσιεύει προκαταρκτικές επιστημονικές εκθέσεις που δεν έχουν αξιολογηθεί επισήμως και, ως εκ τούτου, πρέπει να μην εκλαμβάνονται ως οριστικές, ούτε να καθοδηγούν αποφάσεις για θέματα υγείας, ούτε να αντιμετωπίζονται ως καθιερωμένες πληροφορίες.
Πηγή: https://www.news-medical.net
ΔΙΑΒΑΣΤΕ ΕΠΙΣΗΣ
Τεχνητή Νοημοσύνη για έγκαιρη διάγνωση του καρκίνου
Η τεχνητή νοημοσύνη μπορεί να βελτιώσει τη διάγνωση του διαβήτη
Η τεχνητή νοημοσύνη κάνει πια διαγνώσεις των καταγμάτων το ίδιο καλά με τους ορθοπεδικούς
Τεχνητή νοημοσύνη προβλέπει με αρκετή ακρίβεια ποιος θα εμφανίσει άνοια σε δύο χρόνια
φωτό: iStock