Hasta, Boston’daki Beth Israel Deaconess Tıp Merkezi’nin acil servisine başvuran 39 yaşında bir kadındı. Sol dizi birkaç gündür ağrıyordu. Bir gün önce 102 derece ateşi vardı. Şimdi gitmişti ama hala üşüyordu. Ve dizi kırmızıydı ve şişmişti.
Teşhis neydi?
Geçenlerde buharlı bir Cuma günü, bir tıp asistanı olan Dr. Megan Landon, bu gerçek vakayı tıp öğrencileri ve asistanlarla dolu bir odaya gösterdi. Öğretmesi çok zor olabilecek bir beceriyi, yani bir doktor gibi düşünmeyi öğrenmek için toplandılar.
Beth Israel Deaconess’te bir dahiliyeci, tıp tarihçisi ve etkinliğin organizatörlerinden biri olan Dr. Adam Rodman, “Doktorlar diğer doktorlara nasıl düşündüğümüzü öğretmekte berbatlar,” dedi.
Ancak bu kez, bir teşhise ulaşmada yardım için bir uzmana başvurabilirler – OpenAI şirketi tarafından yayınlanan bir sohbet robotunun en son sürümü olan GPT-4.
Yapay zeka, tıp pratiğinin birçok yönünü dönüştürüyor ve bazı tıp uzmanları bu araçları tanı koymalarına yardımcı olmak için kullanıyor. Harvard Tıp Fakültesi’ne bağlı bir eğitim hastanesi olan Beth Israel Deaconess’teki doktorlar, geleceğin doktorlarının eğitiminde sohbet robotlarının nasıl kullanılabileceğini ve kötüye kullanılabileceğini keşfetmeye karar verdi.
Rodman gibi eğitmenler, tıp öğrencilerinin, doktorların kaldırım kenarı konsültasyonu dediği şeye benzer bir şey için GPT-4’e ve diğer sohbet robotlarına başvurabileceklerini umuyor – bir meslektaşını kenara çekip zor bir vaka hakkında fikir istediğinde. Fikir, doktorların öneriler ve içgörüler için birbirlerine başvurdukları şekilde bir chatbot kullanmaktır.
Yüzyılı aşkın bir süredir doktorlar, ipuçları toplayan ve bunları suçluyu bulmak için kullanan dedektifler gibi tasvir edildi. Ancak deneyimli doktorlar aslında neyin yanlış olduğunu anlamak için farklı bir yöntem – örüntü tanıma – kullanırlar. Tıpta buna hastalık senaryosu denir: doktorların bildikleri veya kendilerinin gördükleri benzer vakalara dayalı tutarlı bir hikaye anlatmak için bir araya getirdikleri işaretler, semptomlar ve test sonuçları.
Rodman, hastalık senaryosu yardımcı olmazsa, doktorların uygun olabilecek çeşitli teşhislere olasılık atamak gibi başka stratejilere yöneldiğini söyledi.
Araştırmacılar yarım yüzyıldan fazla bir süredir tıbbi teşhisler koyacak bilgisayar programları tasarlamaya çalıştılar, ancak hiçbir şey gerçekten başarılı olamadı.
Doktorlar GPT-4’ün farklı olduğunu söylüyor. Rodman, “Bir hastalık senaryosuna oldukça benzer bir şey yaratacak,” dedi. Bu şekilde, “temelde bir arama motorundan farklı” diye ekledi.
Dr. Rodman ve Beth Israel Deaconess’teki diğer doktorlar, zor vakalarda olası teşhisler için GPT-4’ü istediler. Geçen ay tıp dergisi JAMA’da yayınlanan bir çalışmada, New England Journal of Medicine’de yayınlanan haftalık teşhis zorluklarında çoğu doktordan daha iyi sonuç verdiğini buldular.
Ancak, programı kullanmanın bir arka planı olduğunu ve tuzaklar olduğunu öğrendiler.
Tıp merkezindeki dahiliye ihtisas programının yöneticisi Dr. Christopher Smith, tıp öğrencilerinin ve asistanların “kesinlikle bunu kullandığını” söyledi. Ancak, “bir şey öğrenip öğrenmedikleri açık bir soru” diye ekledi.
Endişe şu ki, bir matematik sorunu yapmak için telefonlarındaki bir hesap makinesine güvenecekleri gibi, tanı koymak için de yapay zekaya güvenebilecekler. Bu, dedi Dr. Smith, tehlikeli.
Öğrenmek, dedi, bir şeyleri çözmeye çalışmaktır: “Bir şeyleri bu şekilde aklımızda tutuyoruz. Öğrenmenin bir kısmı mücadeledir. Öğrenmeyi GPT’ye yaptırırsanız, bu mücadele sona erer.”
Toplantıda öğrenciler ve mahalle sakinleri gruplara ayrılarak diz şişliği olan hastanın sorununun ne olduğunu anlamaya çalıştı. Daha sonra GPT-4’e döndüler.
Gruplar farklı yaklaşımlar denedi.
Biri, Google’ı kullanma biçimine benzer şekilde, bir internet araması yapmak için GPT-4’ü kullandı. Chatbot, travma da dahil olmak üzere olası teşhislerin bir listesini çıkardı. Ancak grup üyeleri ondan mantığını açıklamasını istediğinde, bot hayal kırıklığı yarattı ve seçimini “Travma, diz yaralanmalarının yaygın bir nedenidir” diyerek açıkladı.
Başka bir grup olası hipotezleri düşündü ve GPT-4’ten bunları kontrol etmesini istedi. Chatbot’un listesi grubunkiyle aynıydı: Lyme hastalığı dahil enfeksiyonlar; eklemlerdeki kristalleri içeren bir artrit türü olan gut dahil olmak üzere artrit; ve travma.
GPT-4, grubun listesinde üst sıralarda yer almamasına rağmen romatoid artriti en iyi olasılıklara ekledi. Eğitmenler daha sonra gruba, genç ve kadın olduğu için gut hastalığının bu hasta için olası olmadığını söylediler. Ve romatoid artrit muhtemelen sadece bir eklem iltihaplandığı için ve sadece birkaç gün boyunca göz ardı edilebilirdi.
Kaldırım kenarındaki bir danışma olarak, GPT-4 testi geçmiş veya en azından öğrenciler ve asistanlarla aynı fikirdeymiş gibi görünüyordu. Ancak bu alıştırmada hiçbir içgörü ve hastalık senaryosu sunmuyordu.
Bunun bir nedeni, öğrencilerin ve sakinlerin botu kaldırım kenarındaki bir danışmadan çok bir arama motoru gibi kullanması olabilir.
Eğitmenler, botu doğru bir şekilde kullanmak için GPT-4’e “39 yaşında diz ağrısı çeken bir kadınla görüşen bir doktorsunuz” gibi bir şey söyleyerek başlamaları gerektiğini söylediler. Ardından, bir tıp meslektaşına yapacakları gibi, teşhis istemeden ve robotun mantığıyla ilgili sorular sormadan önce onun semptomlarını listelemeleri gerekecekti.
Eğitmenler bunun GPT-4’ün gücünden yararlanmanın bir yolu olduğunu söylediler. Ancak, sohbet robotlarının hata yapabildiğini ve “halüsinasyon” görebildiğini ve aslında hiçbir temeli olmayan cevaplar sağlayabildiğini kabul etmek de çok önemlidir. Bunu kullanmak, ne zaman yanlış olduğunu bilmeyi gerektirir.
Hastanede dahiliye doktoru olan Dr. Byron Crowe, “Bu araçları kullanmak yanlış değil” dedi. “Sadece onları doğru şekilde kullanmalısın.”
Gruba bir benzetme yaptı.
Crowe, “Pilotlar GPS kullanır,” dedi. Ancak, havayollarının “güvenilirlik açısından çok yüksek bir standarda sahip olduğunu” da sözlerine ekledi. Tıpta, sohbet robotlarını kullanmanın “çok cazip” olduğunu, ancak aynı yüksek standartların da geçerli olması gerektiğini söyledi.
“Harika bir düşünce ortağı ama derin zihinsel uzmanlığın yerini alamaz” dedi.
Seans sona erdiğinde, eğitmenler hastanın dizindeki şişkinliğin gerçek nedenini ortaya çıkardı.
Her grubun düşündüğü ve GPT-4’ün önerdiği bir olasılık olduğu ortaya çıktı.
Lyme hastalığı vardı.
Olivia Allison raporlamaya katkıda bulundu.