AI JEST TAK SAMO DOBRA W DIAGNOZOWANIU CHORóB JAK LUDZIE

W pierwszym tego rodzaju systematycznym przeglądzie i metaanalizie stwierdzono, że sztuczna inteligencja (AI) jest równie dobra w diagnozowaniu choroby na podstawie obrazu medycznego, jak pracownicy służby zdrowia. Konieczne są jednak bardziej wysokiej jakości badania.

Nowe badania sugerują, że sztuczna inteligencja i pracownicy służby zdrowia są równie skuteczni w diagnozowaniu chorób na podstawie obrazowania medycznego.

W nowym artykule przeanalizowano istniejące dowody, próbując ustalić, czy sztuczna inteligencja może diagnozować choroby równie skutecznie, jak pracownicy służby zdrowia.

Według wiedzy autorów - to jest rozległy zespół naukowców pod kierownictwem profesora Alastaira Dennistona z University Hospitals Birmingham NHS Foundation Trust w Wielkiej Brytanii - jest to pierwszy systematyczny przegląd porównujący działanie sztucznej inteligencji z lekarzami w zakresie wszystkich chorób.

Prof. Denniston wraz z zespołem przeszukali kilka medycznych baz danych pod kątem wszystkich badań opublikowanych między 1 stycznia 2012 r. A 6 czerwca 2019 r. Wyniki analizy zespół opublikował w czasopiśmie. Lancet Digital Health.

AI na równi z pracownikami służby zdrowia

Naukowcy poszukiwali badań porównujących skuteczność diagnostyczną algorytmów głębokiego uczenia się ze skutecznością pracowników służby zdrowia, gdy postawili diagnozę na podstawie obrazowania medycznego.

Zbadali jakość raportów we wspomnianych badaniach, ich wartość kliniczną i projekt badań.

Ponadto, jeśli chodzi o ocenę wyników diagnostycznych sztucznej inteligencji w porównaniu z wynikami pracowników służby zdrowia, naukowcy przyjrzeli się dwóm wynikom: swoistości i czułości.

„Wrażliwość” określa prawdopodobieństwo, że narzędzie diagnostyczne uzyska pozytywny wynik u osób chorych na tę chorobę. Swoistość odnosi się do dokładności testu diagnostycznego, który uzupełnia miarę czułości.

W wyniku selekcji uzyskano tylko 14 badań, których jakość była na tyle wysoka, że można je było włączyć do analizy. Prof. Denniston wyjaśnia: „Przeanalizowaliśmy ponad 20 500 artykułów, ale mniej niż 1% z nich było wystarczająco solidnych pod względem projektu i podało, że niezależni recenzenci mieli duże zaufanie do ich twierdzeń”.

„Co więcej, tylko 25 badań potwierdziło zewnętrznie modele sztucznej inteligencji (przy użyciu obrazów medycznych z innej populacji), a tylko w 14 badaniach porównano wydajność sztucznej inteligencji i pracowników służby zdrowia przy użyciu tej samej próbki testowej”.

„W ramach tych kilku wysokiej jakości badań odkryliśmy, że głębokie uczenie się może rzeczywiście wykrywać choroby, od nowotworów po choroby oczu, z taką samą dokładnością, jak pracownicy służby zdrowia. Ale ważne jest, aby pamiętać, że sztuczna inteligencja nie przewyższała znacznie ludzkiej diagnozy ”.
Prof. Alastair Denniston

Dokładniej mówiąc, analiza wykazała, że sztuczna inteligencja może prawidłowo zdiagnozować chorobę w 87% przypadków, podczas gdy wykrywanie przez pracowników służby zdrowia zapewniło 86% wskaźnik dokładności. Specyficzność algorytmów głębokiego uczenia wyniosła 93%, w porównaniu z 91% u ludzi.

Uprzedzenia mogą wyolbrzymiać wydajność AI

Prof. Denniston i współpracownicy zwracają również uwagę na kilka ograniczeń, które znaleźli w badaniach oceniających wydajność diagnostyczną sztucznej inteligencji.

Po pierwsze, większość badań dotyczy dokładności diagnostycznej sztucznej inteligencji i pracowników służby zdrowia w odosobnionym otoczeniu, które nie naśladuje zwykłej praktyki klinicznej - na przykład pozbawiając lekarzy dodatkowych informacji klinicznych, których zwykle potrzebowaliby do postawienia diagnozy.

Po drugie, twierdzą naukowcy, w większości badań porównywano tylko zbiory danych, podczas gdy wysokiej jakości badania wydajności diagnostycznej wymagałyby dokonywania takich porównań na ludziach.

Ponadto, zdaniem autorów, wszystkie badania były słabo raportowane, a analiza nie uwzględniała informacji, których brakowało we wspomnianych zbiorach danych. „W większości [badań] nie podano, czy brakuje jakichkolwiek danych, jaką część to reprezentuje i jak uwzględniono brakujące dane w analizie” - piszą autorzy.

Dodatkowe ograniczenia obejmują niespójną terminologię, brak jasnego określenia progu dla analizy czułości i swoistości oraz brak walidacji poza próbą.

„Istnieje nieodłączne napięcie między chęcią zastosowania nowej, potencjalnie ratującej życie diagnostyki a koniecznością opracowania wysokiej jakości dowodów w sposób, który może przynieść korzyści pacjentom i systemom opieki zdrowotnej w praktyce klinicznej” - zauważa pierwszy autor, dr Xiaoxuan Liu z Uniwersytet w Birmingham.

„Kluczową lekcją z naszej pracy jest to, że w przypadku sztucznej inteligencji - podobnie jak w każdej innej dziedzinie opieki zdrowotnej - dobry projekt badań ma znaczenie. Bez tego możesz łatwo wprowadzić błąd, który wypacza Twoje wyniki. Te uprzedzenia mogą prowadzić do przesadnych twierdzeń o dobrej wydajności narzędzi sztucznej inteligencji, które nie mają przełożenia na rzeczywisty świat ”.
Dr Xiaoxuan Liu

„Dowody na to, jak algorytmy sztucznej inteligencji zmienią wyniki pacjentów, muszą pochodzić z porównań z alternatywnymi testami diagnostycznymi w randomizowanych badaniach kontrolowanych” - dodaje współautorka dr Livia Faes z Moorfields Eye Hospital w Londynie w Wielkiej Brytanii.

„Jak dotąd nie ma prawie żadnych takich badań, w których decyzje diagnostyczne podejmowane przez algorytm sztucznej inteligencji są podejmowane w celu sprawdzenia, co dzieje się z wynikami, które naprawdę mają znaczenie dla pacjentów, takich jak terminowe leczenie, czas do wypisu ze szpitala, a nawet współczynniki przeżycia”.

none: atopowe zapalenie skóry - wyprysk świńska grypa chłoniak