AcasăSănătateChatGPT și Gemini greșesc diagnosticul medical în 80% din cazuri. Ce a...

ChatGPT și Gemini greșesc diagnosticul medical în 80% din cazuri. Ce a descoperit un studiu publicat în JAMA

Un studiu publicat pe 13 aprilie 2026 de cercetătorii de la Mass General Brigham din Boston aruncă în aer o practică tot mai frecventă: folosirea ChatGPT, Gemini sau a altor chatbot-uri AI ca „doctor de familie” online. Rezultatele, apărute în revista JAMA Network Open, sunt tranșante — când primesc doar simptomele inițiale, chatbot-urile greșesc diagnosticul în peste 80% din cazuri. Chiar și cu toate informațiile pe masă, rata de eroare rămâne de peste 40%.

Cum a fost făcut studiul

Echipa condusă de Arya Rao, doctorand la Harvard Medical School, a testat 21 dintre cele mai cunoscute modele lingvistice mari (LLM) disponibile public: versiuni recente de ChatGPT (OpenAI), Gemini (Google), Claude (Anthropic), Grok (xAI) și DeepSeek. Nu modele specializate pe medicină — exact versiunile pe care le folosește publicul larg.

Ca material de test, cercetătorii au folosit 29 de viniete clinice — descrieri de cazuri reale preluate din texte medicale de referință. Acoperă afecțiuni comune: insuficiență cardiacă, sarcini extrauterine, accidente vasculare cerebrale, probleme endocrine.

Fiecare caz a fost introdus în chatbot pas cu pas, imitând cum ar proceda un pacient real: mai întâi simptomele și vârsta, apoi detalii din anamneză, apoi rezultatele examinării fizice, iar la final analizele de laborator. La fiecare etapă, chatbot-ul era întrebat ce diagnostic bănuiește.

Rezultatul concret: 80% diagnostic greșit la început, 40% chiar și la final

Când chatbot-ul primea doar informațiile inițiale — adică exact ce descrie un om obișnuit când caută ajutor pe Google sau ChatGPT — peste 80% dintre diagnosticele propuse erau incorecte. Nu doar puțin greșite, ci uneori complet eronate — sugerând boli grave în locuri în care era o problemă banală, sau viceversa.

Partea cu adevărat interesantă e că performanța se îmbunătățea doar după ce chatbot-ul primea rezultatele examinării fizice și analizelor de laborator. Atunci, pentru o parte din modele, diagnosticul final corect ajungea la 90%.

„Aceste modele sunt bune la a numi un diagnostic final atunci când datele sunt complete, dar se descurcă slab la începutul deschis al unui caz, când informațiile sunt puține”, a declarat Arya Rao pentru Boston Globe.

Problema e că oamenii obișnuiți nu au acces la examinare fizică și analize înainte să scrie în ChatGPT. Exact în momentul în care au cel mai mult nevoie de orientare, chatbot-ul e cel mai puțin fiabil.

De ce se întâmplă asta — problema „halucinațiilor”

Fenomenul este bine cunoscut în știința calculatoarelor și are un nume tehnic: „halucinație”. Atunci când un model lingvistic primește o întrebare pentru care nu are destule date, nu spune „nu știu” — construiește o ipoteză care sună plauzibil. Pe texte obișnuite, asta nu e periculos. În medicină, poate ucide.

Algoritmii nu înțeleg cu adevărat ce e o boală. Ei corelează cuvinte cu alte cuvinte, pe baza unor uriașe colecții de texte. Când scrii „mă doare capul de 3 zile”, AI-ul caută corelații statistice cu ce ar fi urmat în alte texte similare — nu cu ce se întâmplă în corpul tău. Un medic real, în schimb, face triaj: pune întrebări ca să excludă cauze grave înainte de a sugera cauzele comune.

Riscurile concrete pentru pacienți

Dr. Adam Rodman, unul dintre coordonatorii studiului, a atras atenția în declarațiile pentru presă că folosirea incorectă a chatbot-urilor poate duce la două tipuri de erori:

Prima: fals pozitiv. Chatbot-ul sugerează o boală gravă (cancer, ex.) în urma unor simptome banale. Pacientul intră în panică, face investigații inutile și costisitoare, uneori invazive — biopsii, scanări, endoscopii. Costul psihologic și fizic este real.

A doua: fals negativ. Mai periculoasă. Chatbot-ul clasifică drept „benign” un simptom care e de fapt semnal de alarmă. O durere de cap banală care e, în realitate, accident vascular cerebral în desfășurare. Dureri de piept „de la stres” care sunt infarct. Pacientul nu merge la camera de gardă pentru că AI-ul l-a liniștit. Acesta e scenariul care a îngrijorat cel mai mult autorii studiului.

Ce fac chatbot-urile bine — și ce nu

Concluziile studiului nu sunt „AI-ul în medicină e inutil”. E o nuanțare importantă:

Bine:

  • Când au toate datele (simptome + examen fizic + analize), pot ajuta medicii să enumere diagnostice posibile pe care să le excludă
  • Sunt utile pentru educație medicală și explicarea termenilor în limbaj simplu
  • Pot ajuta la organizarea informațiilor înainte de o consultație
  • Funcționează rezonabil pentru întrebări generale („ce înseamnă această analiză”)

Nu bine:

  • Nu pot înlocui triajul inițial făcut de un medic sau asistent medical
  • Nu recunosc urgențele când simptomele sunt descrise incomplet
  • Nu pot evalua starea generală a pacientului (paloare, transpirație, confuzie — semne vizuale)
  • Nu iau în considerare istoricul medical complet, alergiile și medicația curentă

Contextul românesc: de ce problema e mai mare la noi

În România, fenomenul auto-diagnosticului online are rădăcini mai vechi decât apariția ChatGPT. Accesul dificil la medic de familie, timpii mari de așteptare la specialiști, costurile ridicate ale investigațiilor private — toate împing oamenii spre surse alternative de informație.

Înainte erau forumurile și „doctorul Google”. Acum sunt chatbot-urile. Diferența e că un chatbot pare să poarte o conversație personalizată — iluzia e mai puternică decât la o simplă căutare pe Google. Utilizatorul simte că „vorbește cu cineva care înțelege”.

Studiul nu este primul care ridică semnale de alarmă. O cercetare anterioară publicată de aceeași echipă în Journal of Medical Internet Research arătase că ChatGPT avea o precizie de 72% în decizii medicale generale — mai bună decât în studiul actual, dar testul era diferit, iar concluzia nu a schimbat recomandarea specialiștilor: AI-ul nu înlocuiește medicul.

Cum să folosești chatbot-urile pentru sănătate, dacă totuși o faci

Interdicția completă nu este realistă — oamenii vor continua să pună întrebări AI-ului. Mai util e să știi cum să o faci cu minime riscuri:

Folosește-l pentru înțelegere, nu pentru decizie. „Ce înseamnă valoarea asta din analize?” este o întrebare potrivită. „Am cancer?” nu este.

Nu ignora niciun simptom „de alarmă”. Durere toracică severă, dificultate de respirație bruscă, paralizie a unei părți a corpului, confuzie mentală subită, durere de cap „cea mai puternică din viață”, pierdere rapidă în greutate fără motiv — toate acestea cer consult medical imediat, indiferent ce zice AI-ul.

Verifică sursele. Dacă chatbot-ul îți dă o informație, întreabă-l pe ce studiu sau ghid medical se bazează. Dacă răspunsul e vag, consideră-l nesigur.

Nu împărtăși date medicale sensibile. Orice scrii într-un chatbot poate fi stocat și procesat. Evită nume proprii, numere personale, detalii care te identifică.

Folosește-l ca „al doilea avizat”, nu primul. După ce ai vorbit cu un medic, poți cere chatbot-ului să-ți explice în termeni simpli ce a zis medicul. Invers nu funcționează.

Întrebări frecvente

Care chatbot este cel mai bun pentru întrebări medicale?

Niciunul dintre cele testate în studiu — ChatGPT, Gemini, Claude, Grok sau DeepSeek — nu a atins performanța unui medic real. Toate au avut rate de eroare mari pe cazurile cu informații incomplete. Studiul nu a declarat un câștigător clar.

Pot folosi AI pentru a-mi interpreta analizele?

Pentru a înțelege ce înseamnă termenii și valorile de referință, da — e un uz rezonabil. Pentru a decide dacă o valoare anormală e gravă sau ce să faci în continuare, nu. Interpretarea analizelor se face împreună cu medicul, care cunoaște contextul tău clinic.

Sunt aplicațiile medicale specializate mai sigure decât ChatGPT?

Studiul nu a testat aplicații medicale specializate, ci doar chatbot-uri generale. Aplicațiile specializate, dezvoltate împreună cu spitale și validate clinic, au în general performanțe mai bune, dar nici ele nu sunt substitute pentru medicul uman.

Ce fac dacă un simptom mă îngrijorează și nu pot ajunge rapid la medic?

Pentru situații urgente, apelează 112. Pentru probleme non-urgente dar care te îngrijorează, poți suna la un telefon de consultanță medicală (multe cabinete private oferă acest serviciu) sau poți merge la o urgență. Chatbot-ul poate fi folosit pentru a înțelege terminologia, dar nu pentru a decide dacă un simptom este sau nu grav.

Cum îmi dau seama dacă un diagnostic de la chatbot este corect?

Nu ai cum să-ți dai seama fără verificare medicală. Exact asta e problema ridicată de studiu: răspunsurile sună convingător indiferent dacă sunt corecte sau nu. Singurul mod sigur de validare este consultul cu un specialist.

Concluzie

Studiul Mass General Brigham nu este o condamnare a inteligenței artificiale în medicină, ci o reamintire a rolurilor. AI-ul e un instrument bun pentru anumite sarcini — organizare de informații, educație, explicații. Nu este un doctor. Nu a trecut prin facultatea de medicină, rezidențiat și mii de ore de practică clinică. Nu poate vedea pacientul. Nu poate palpa, asculta, mirosi — simțurile medicului sunt parte esențială din diagnostic.

Cele 80% erori la prima abordare nu sunt o defecțiune a tehnologiei, ci o caracteristică a ei. Până când AI-ul va putea face anamneză completă, examen fizic și interpretare clinică contextuală — ceea ce încă nu poate — rămâne un instrument util dar nesigur în mâinile pacienților fără pregătire medicală.


Acest articol are scop informativ și nu înlocuiește consultul medical. Pentru orice simptom care vă îngrijorează, consultați un medic. În situații de urgență, sunați 112.

Surse consultate:
• Boston Globe — Interviu cu autorii studiului, 13 aprilie 2026
• Digi24 — Prezentarea studiului, 14 aprilie 2026
• Știrile ProTV — Concluziile specialiștilor
• Doctorul Zilei — Context medical
• Mass General Brigham — Instituția care a realizat studiul

RELATED ARTICLES

LĂSAȚI UN MESAJ

Vă rugăm să introduceți comentariul dvs.!
Introduceți aici numele dvs.

Cele mai populare