Aktualności

Nigdy nie zadawaj AI pytania, na które nie znasz odpowiedzi.

O sztucznej inteligencji w gabinecie lekarskim

Inteligentny stażysta z zerowym doświadczeniem życiowym

W mojej praktyce AI pełni rolę „inteligentnego stażysty” – posiada ogromną wiedzę encyklopedyczną, ale zerowe doświadczenie życiowe. Dla lekarza to cenne wsparcie w diagnostyce różnicowej, szczególnie przy rzadkich przypadkach. Działa jak błyskawiczna konsultacja z kolegą po fachu, który przeczytał wszystkie dostępne podręczniki.

Szczególną wartość widzę w tzw. systemach zamkniętych, jak „ESC Chat” Europejskiego Towarzystwa Kardiologicznego. To model AI trenowany wyłącznie na wybranych oficjalnych wytycznych klinicznych, co znacząco ogranicza ryzyko „halucynacji” (zmyślania faktów) i daje lekarzowi wiarygodne źródło wiedzy w kilka sekund. Badania wykazały też, że narzędzia AI wspierające segregację medyczną potrafią przewyższać młodszych stażem lekarzy w identyfikacji pilnych przypadków – to realna wartość w warunkach nocnych dyżurów, gdy zmęczenie obniża czujność.

Z kolei dla pacjenta korzyścią jest wstępna segregacja. Certyfikowane aplikacje medyczne (tzw. symptom checkery) potrafią skutecznie powiedzieć: „jedź na SOR, to może być poważne”. Pełnią rolę nowoczesnej „siatki bezpieczeństwa”, która może uratować życie, gdy pacjent waha się, czy szukać pomocy.

Obowiązuje tu jednak zasada, którą powtarzam kolegom: nigdy nie zadawaj AI pytania, na które sam nie znasz odpowiedzi. AI jest przydatna wtedy, gdy potrafisz krytycznie ocenić to, co dostajesz w odpowiedzi. Jeśli nie masz takiej kompetencji – AI staje się niebezpieczna.

Fałszywe uspokojenie, fałszywy autorytet i spirala lęku

Zagrożeń jest kilka i są poważne – zarówno po stronie pacjenta, jak i po stronie lekarza.

Po stronie pacjenta

Cyberchondria na sterydach. Kompulsywne googlowanie objawów jest zjawiskiem dobrze opisanym w literaturze. Chatboty AI przenoszą je na nowy poziom, bo w przeciwieństwie do listy wyników wyszukiwarki, symulują rozmowę, empatię i autorytet medyczny. Łatwo sobie wyobrazić pętlę – pacjent wyolbrzymia objawy, AI traktuje je dosłownie i generuje listę groźnych chorób, co nasila lęk. Pacjent wraca do chatbota po więcej – i spirala się nakręca. To mechanizm znany z klasycznej cyberchondrii, ale potencjalnie wzmocniony przez konwersacyjny charakter chatbotów – choć sam zakres tego wzmocnienia wymaga jeszcze badań empirycznych.

Fałszywy autorytet. Świeże badanie z Uniwersytetu Oksfordzkiego (Bean AM, Payne RE, Parsons G et al., „Reliability of LLMs as medical assistants for the general public: a randomized preregistered study”, Nature Medicine, 9 lutego 2026) pokazuje to dobitnie. W randomizowanym badaniu z udziałem blisko 1300 uczestników z Wielkiej Brytanii porównano trzy grupy korzystające z chatbotów AI (GPT-4o, Llama 3 i Command R+) z grupą kontrolną szukającą informacji w sposób tradycyjny (głównie wyszukiwarki i strony NHS).

Wynik: osoby korzystające z AI radziły sobie istotnie gorzej w rozpoznawaniu schorzeń – grupa kontrolna miała niemal dwukrotnie wyższe szanse na prawidłową identyfikację choroby niż użytkownicy chatbotów. Co ważne, w kwestii triażu (decyzji, czy zostać w domu, iść do lekarza, udać się na SOR czy wezwać pogotowie) wyniki były porównywalne we wszystkich grupach – na równie niskim poziomie.

Błędy leżały po obu stronach: ludzie nie umieli zadawać AI właściwych pytań i nie przekazywali pełnej informacji o objawach (w ponad połowie analizowanych transkryptów pierwsze wiadomości pacjentów zawierały niepełne dane), ale same modele też dawały niespójne rady. W jednym z opisanych przypadków dwóch użytkowników opisało niemal identyczne objawy krwotoku podpajęczynówkowego, a model jednemu zalecił odpoczynek w ciemnym pokoju, a drugiemu – natychmiastową pomoc ratunkową. Modele podawały też numery telefonów alarmowych z niewłaściwych krajów i mieszały trafne sugestie z błędnymi w sposób trudny do rozróżnienia dla laika. A mimo to chatbot budził większe zaufanie, bo „brzmiał jak lekarz”.

Podatność AI na dezinformację. Tu dotykamy problemu, który potwierdziło badanie naukowców z sieci szpitali Mount Sinai (Omar M, Sorin V, Wieler LH et al., „Mapping the susceptibility of large language models to medical misinformation across clinical notes and social media: a cross-sectional benchmarking analysis”, The Lancet Digital Health, 9 lutego 2026). Przeprowadzili ponad 3,4 miliona testów na dwudziestu modelach językowych. Wykazali, że modele AI akceptują fałszywe twierdzenia medyczne, jeśli są one ubrane w profesjonalny, kliniczny język – np. osadzone w notatce wypisowej ze szpitala. Podatność na fałsz była najwyższa właśnie dla notatek klinicznych pisanych formalnym, lekarskim stylem (niemal połowa sfałszowanych zaleceń została zaakceptowana), podczas gdy te same fałszywe treści podane w nieformalnym stylu forów internetowych były akceptowane znacznie rzadziej (poniżej 10%).

W jednym z testów sfałszowana notatka lekarska zalecała pacjentom z krwawieniem w przebiegu zapalenia przełyku picie zimnego mleka – i ponad połowa testowanych modeli zaakceptowała to bezkrytycznie jako standardowe postępowanie. Dla laika brzmi to logicznie: „zimne obkurcza naczynia, mleko łagodzi”. W rzeczywistości takie postępowanie jest groźne – zwiększa ryzyko zachłyśnięcia, a mleko w żołądku utrudnia ratującą życie endoskopię. AI tego nie „rozumie”, bo nie posiada modelu fizjologii – ona jedynie dopasowuje słowa.

W tym samym badaniu co najmniej trzy różne modele zaakceptowały twierdzenia, że „mammografia powoduje raka, bo miażdży tkankę piersi”, „pomidory rozrzedzają krew tak skutecznie jak leki przeciwzakrzepowe”, czy nawet że „metformina powoduje odpadnięcie penisa”. Brzmi absurdalnie? Dla lekarza – tak. Dla pacjenta, który o trzeciej w nocy pyta chatbota, czy brać przepisany lek – niekoniecznie. To oznacza, że AI nie tyle weryfikuje fakty, ile rozpoznaje styl. Profesjonalnie brzmiące kłamstwo ma znacznie większą szansę przejść przez algorytm.

Fałszywe uspokojenie. O tym mówi się za mało. AI szuka statystycznie najczęstszej odpowiedzi. Jeśli pacjent opisze objawy nieprecyzyjnie, algorytm może go uspokoić tam, gdzie lekarz zapalałby czerwoną lampkę. AI nie „czuje” powagi sytuacji. Fałszywe uspokojenie jest potencjalnie groźniejsze niż fałszywy alarm – bo pacjent zostaje w domu.

Efekt „Garbage In, Garbage Out”. Jakość „diagnozy” AI zależy całkowicie od jakości tego, co wprowadzi pacjent. A pacjenci z natury opisują objawy nieprecyzyjnie, w stresie, własnymi słowami – co prowadzi do błędów.

Po stronie lekarza

Deskilling – utrata kompetencji. Badanie opublikowane w „The Lancet Gastroenterology & Hepatology” (Budzyń K, Romańczyk M, Kitala D et al., „Endoscopist deskilling risk after exposure to artificial intelligence in colonoscopy: a multicentre, observational study”, Lancet Gastroenterol Hepatol 2025;10(10):896–903) wykazało, że lekarze po kilku miesiącach pracy ze wsparciem AI wykazywali istotny spadek samodzielnej skuteczności diagnostycznej – wskaźnik wykrywania gruczolaków spadł o kilka punktów procentowych po odstawieniu wsparcia AI. Badanie to, przeprowadzone m.in. w polskich ośrodkach, pokazuje naszą rzeczywistość. Komentatorzy trafnie posłużyli się metaforą „efektu Google Maps” – tak jak tracimy orientację w terenie, polegając na nawigacji, tak lekarze mogą tracić zmysł kliniczny, polegając na algorytmach.

Przeciążenie systemu. Symptom checkery generują wielokrotnie więcej skierowań do szpitala niż lekarze. To celowa cecha projektowa – systemy są kalibrowane tak, by nie przegapić zagrożenia życia, nawet za cenę fałszywych alarmów. Efektem systemowym jest jednak realny paraliż oddziałów ratunkowych.

Asymetria wysiłku. AI generuje błędne treści w kilka sekund, ale obalenie ich wymaga od lekarza wielokrotnie więcej czasu i energii.

Pacjent z „diagnozą” w telefonie, czyli prawo Brandoliniego w gabinecie

Zjawisko pacjentów przychodzących z gotową diagnozą z AI staje się codziennością. Jeszcze kilka lat temu pacjent przychodził z wydrukiem z Google, dziś przychodzi z gotową, spójnie brzmiącą „diagnozą” wygenerowaną przez ChatGPT.

Zmienia to dynamikę wizyty. Lekarz musi poświęcić cenny czas nie na zbieranie wywiadu, lecz na analizę założeń i oczekiwań pacjenta, a niestety często także na dekonstrukcję błędnych przekonań. Materiały z AI bywają trudne do dekonstrukcji, ponieważ są skomplikowane. Współczesna AI potrafi mylić się niezauważalnie, ale za to bardzo spektakularnie.

Pozwolę sobie tu zaproponować rozszerzenie koncepcji znanej jako prawo Brandoliniego (zasada asymetrii bzdury) na kontekst halucynacji AI w medycynie – obalenie błędnej informacji wymaga wielokrotnie więcej energii niż jej wygenerowanie. Pacjent z „diagnozą z AI” wymaga większych nakładów pracy niż pacjent diagnozowany od zera.

To wymaga nowych kompetencji komunikacyjnych. Dlatego moim zdaniem czas rutynowo zadawać pytanie: „Czy sprawdzał Pan/Pani swoje objawy w internecie lub z pomocą AI?”. To pozwala od razu zidentyfikować, z jakim „bagażem informacyjnym” przychodzi pacjent.

Czy pacjent jest w stanie zweryfikować diagnozę chatbota?

Krótka odpowiedź: nie. I to jest sedno problemu.

AI potrafi mylić się w sposób niezauważalny dla laika, ale groźny dla zdrowia. Zjawisko „halucynacji” polega na tym, że model z absolutną pewnością podaje informacje bez pokrycia w faktach. Odpowiedź „wygląda” jak porada lekarska – ale nią nie jest.

Tu wraca motto: nigdy nie zadawaj AI pytania, na które sam nie znasz odpowiedzi. Wspomniane badanie z „Nature Medicine” pokazuje to w liczbach: AI sama z siebie poprawnie rozpoznawała schorzenia w ponad 90% przypadków – ale gdy korzystali z niej zwykli ludzie, trafność spadała do około jednej trzeciej.

Problem nie leży w wiedzy AI, lecz w interakcji. Ludzie nie wiedzą, jak pytać, nie przekazują pełnych danych i nie potrafią odróżnić trafnej sugestii od halucynacji. Lekarz zada pytanie algorytmowi i od razu oceni, czy odpowiedź ma sens. Pacjent nie ma takich narzędzi – nie wie, czy AI właśnie mu pomogła, czy zaszkodziła.

Co może zrobić pacjent? Nigdy nie traktować odpowiedzi AI jako diagnozy, lecz co najwyżej jako punkt wyjścia do rozmowy. Jeśli już korzysta z AI, powinien sięgać po dedykowane narzędzia medyczne, a nie ogólne chatboty. Ostatecznie jedyną bezpieczną weryfikacją pozostaje konfrontacja z lekarzem i badanie fizykalne.

AI jest więźniem tekstu. A pacjenci nie mówią językiem podręcznikowym

To fundamentalna słabość AI w medycynie. AI jest więźniem tekstu, a pacjenci rzadko mówią językiem podręcznikowym.

Słowa mają ogromne znaczenie – i jednocześnie potrafią zmylić algorytm. Klasyczny przykład: pacjent mówi „kłuje mnie w piersiach”, mając na myśli silny ucisk. Dla AI „kłucie” to statystycznie nerwoból, a „ucisk” to zawał. Algorytm trzyma się słowa dosłownie. I statystycznie ma rację – ból kłujący zmniejsza prawdopodobieństwo zawału. Ale „zmniejsza” nie znaczy „wyklucza”. Ja, jako lekarz, widzę, że pacjent jest blady, spocony i odruchowo kładzie pięść na mostku. Moje oczy i uszy korygują nieścisłości w jego mowie.

Drugi przykład: zawał ściany dolnej serca, objawiający się bólem brzucha i nudnościami. Gdy pacjent mówi AI „boli mnie brzuch, chyba coś zjadłem”, algorytm podąża za narracją i sugeruje problem żołądkowy. Lekarz zestawia ból brzucha z czynnikami ryzyka i robi EKG.

Zdolność do przełamania „zasłony dymnej” słów jest absolutną przewagą człowieka. AI nie widzi sinicy, nie czuje zapachu pacjenta i nie potrafi ocenić twardości powłok brzusznych. Bez badania fizykalnego diagnoza AI zawsze będzie tylko statystyczną zgadywanką.

Gdzie AI wygrywa, a gdzie nie ma szans

AI jest lepsza w dostępie do ogromnych baz wiedzy i braku zmęczenia. Nie ma gorszych dni, nigdy nie zapomni o rzadkiej interakcji leków, a w analizie obrazów medycznych osiąga świetne wyniki.

Lekarz jest jednak bezkonkurencyjny we wnioskowaniu w sytuacjach niejednoznacznych. Potrafimy połączyć pozornie niepowiązane objawy w spójną hipotezę, podczas gdy AI „ból pleców” niemal zawsze zinterpretuje jako problem z kręgosłupem. Do tego dochodzi badanie fizykalne – ostatni bastion ludzkiej diagnostyki – oraz znajomość historii pacjenta i jego środowiska.

Podsumowując: AI to potężne narzędzie, ale tylko narzędzie. Nie wyrocznia. Nigdy nie zadawaj AI pytania, na które nie znasz odpowiedzi – bo jeśli nie potrafisz ocenić, czy odpowiedź jest prawidłowa, to nie wiesz, czy właśnie Ci pomogła, czy Ci zaszkodziła.

Luka regulacyjna i co dalej

Europejski AI Act klasyfikuje systemy wspomagania decyzji klinicznych jako systemy wysokiego ryzyka. W Polsce od 1 stycznia 2025 roku obowiązuje znowelizowany Art. 12 Kodeksu Etyki Lekarskiej, który zobowiązuje lekarza korzystającego z AI do poinformowania o tym pacjenta i zapewnienia, że ostateczna decyzja należy do człowieka.

Warto tu jasno powiedzieć: wrzucanie danych pacjenta do publicznego ChatGPT w celu uzyskania diagnozy nie jest stosowaniem „narzędzia AI w medycynie” – to korzystanie z niecertyfikowanego produktu, co stwarza ryzyko kliniczne i prawne (RODO, brak certyfikatu CE). Brakuje wciąż standardów postępowania z pacjentem „zdiagnozowanym przez AI”. To luka, którą trzeba pilnie wypełnić.

Technologia powinna nas odciążać od papierologii i rutyny, byśmy mieli więcej czasu na to, czego żadna maszyna nigdy nie zastąpi – na uważne patrzenie pacjentowi w oczy i badanie go własnymi dłońmi.


PS: Na marginesie: ten artykuł powstawał we współpracy z AI – do zbierania danych, strukturyzowania tekstu, weryfikacji źródeł. W jednym z etapów pracy poprosiłem model AI o kliniczną analizę przykładu sfałszowanej rekomendacji „zimnego mleka” z badania Mount Sinai. Oryginalne badanie dotyczyło krwawienia w przebiegu zapalenia przełyku (esophagitis-related bleeding). Model wygenerował rozbudowaną, profesjonalnie brzmiącą analizę patofizjologiczną – tyle że pomylił rozpoznanie i zbudował ją wokół krwawienia z żylaków przełyku (variceal bleeding), opisując nadciśnienie wrotne, terlipresyny i opaskowanie żylaków. Klinicznie spójny tekst – ale oparty na zupełnie innym rozpoznaniu niż to, o które pytałem. Złapałem to, bo jestem lekarzem i znam odpowiedź na pytanie, które zadałem. Gdybym nie znał – błąd trafiłby do publikacji. Lepszej ilustracji mojego motto chyba nie mógłbym sobie wymarzyć.