6 Şubat 2016 Cumartesi

Tanı Testlerine Yönelik Araştırmaların Değerlendirilmesi

Tanısal testlerin amacı hastalarda belli bir hastalığın olup olmadığını belirlemektir. Bu spesifik bir bozukluk (Sjögren sendromu, Behçet hastalığı, sarkoidoz...) ya da spesifik bir durum (remisyon, cevap...) olabilir. Tanısal test klinik bir semptom, laboratuvar testi, morfolojik inceleme (radyografi, MRG...) veya daha invazif bir girişim (biyopsi, cerrahi...) olabilir. Tanı testinin sonucu dikotomdur, eğer sürekli bir sonuçsa, ölçek üzerinde normal ve anormali ayıran bir sınır değer belirlenmelidir.
Bir tanı testinin ne kadar iyi çalıştığını, yani tanısal performansını belirlemek için, tedavi etkinliğini değerlendiren çalışmalardan farklı bir çalışma tasarımına ihtiyaç olur. Bunun için kesitsel veya vaka-kontrol çalışmaları kullanılır. Araştırmacılar ilgi duyulan durumun görüldüğünden şüphelendikleri hastaları toplamakla işe başlar. Bu hastalara hem yeni tanısal test (indeks testi) hem de "altın" standart test ya da referans standardı uygulanır. Altın standart test, belli bir hastalık ya da durum için tanı standardı olarak kabul edilen bir testtir. Araştırmacılar indeks testin sınıflamasını (hastalık olan ve olmayan şeklinde sınıfladığı hastaları) altın standardınki ile karşılaştırırlar.
Yeni bir testin tanı performansının değerlendirilmesi, onun sağlık üzerine etkisini değerlendirmek için teorik olarak gereken 5 basamaktan biridir, fakat tüm yayınlar neredeyse sadece ilk iki basamak üzerinde yoğunlaşır: teknik ve tanısal performans. Burada tanı performansını bildiren makalelerin değerlendirilmesi üzerinde duracağız.

Tedaviyi değerlendiren çalışmalar için olduğu gibi tanı testini değerlendiren çalışmalar için de bir soru seti, eleştirel değerlendirmeye yardımcı olabilir.
Çalışma sonuçlarının yorumlanması
Altın standardın yeterliliği
Altın standart, araştırılan durumun olup olmadığını belirlemede kullanılan metottur. İndeks testin tanısal doğruluğunu değerlendirmek için sonuçları altın standart ile karşılaştırılır, ardından tanısal doğruluk belirteçleri hesaplanabilir. Yani altın standart, bir testin tanısal doğruluğunu belirlemede önemlidir. Test performansı ile ilgili tahminler, onun %100 sensitif ve spesifik olan altın standartla kıyaslandığı varsayımına dayanır. Altın standart ile indeks test sonuçları arasında herhangi bir uyumsuzluk olduğunda, indeks testin yanlış olduğu kabul edilir. Bu nedenle teorik bakış açısından uygun altın standart seçimi çok önemlidir.
Altın standardın doğruluğu üzerinden bir yargıya varmak her zaman kolay olmayabilir. Kişinin bir testin (ya da test kombinasyonlarının) uygun bir altın standart olup olmadığını bilmesi için, ilgili konuda tecrübe sahibi olması gerekebilir.
Testin zamanlaması
İdeal olarak indeks test ve altın standardın sonuçları aynı hastalardan aynı anda toplanmalıdır. Eğer bu mümkün değilse ve gecikme varsa, spontan iyileşme ya da hastalığın daha ileri bir evresine ilerleme nedeniyle yanlış sınıflandırma olabilir. Bu durum hastalık süreci yanlılığı olarak bilinir. Çeşitli durumlarda bu yanlılığa yol açacak süre farklıdır. Örneğin kronik durumlarda birkaç günlük bir gecikme genellikle probleme yol açmaz, fakat pek çok enfeksiyon hastalığında önemlidir. Bu yanlılık, altın standardın kronik hastalıkların birkaç yıl klinik takibini gerektirdiği durumlarda sonuçları etkilemeden var olabilir.
Tüm vakaların doğrulanması
Kısmi doğrulama yanlılığı (inceleme yanlılığı ya da seçme yanlılığı olarak da bilinir), eğer çalışma grubunun tamamı altın standart tarafından doğrulama alamazsa görülür. Eğer indeks testin sonucu altın standart uygulanmasını etkiliyorsa, test performansının tahmininde yanlılık ortaya çıkabilir. Eğer altın standart alacak hastalar rastgele seçilmişse, testin toplam performansı teorik olarak yansız belirlenebilir. Ancak çoğu vakada bu seçim rastgele değildir ve yanlılığa yol açar. Yanlılığın olup olmadığını anlamanın en kolay yolu hastaların çalışma süresince ilerlemesini gösteren akış şemasını incelemektir.
Tanısal doğruluk çalışması için akış şeması örneği
Altın testin tutarlılığı
Farklı doğrulama yanlılığı, bazı indeks test sonuçları farklı bir altın standart ile doğrulanırsa ortaya çıkar. Özellikle hedef durum, altın standart tarafından farklı şekilde tanımlanmışsa bu problem önemlidir. Örneğin appandisitin tanımında appendiksin histopatolojisi ve doğal seyri gibi. Eğer indeks testi pozitif olan hastalara doğruluğu daha yüksek ve sıklıkla invazif bir altın standart uygulanıyorsa bu yanlılık oluşur. Belli bir test sonucu (genellikle negatif sonuç) ile onun kesinliği daha az olan bir altın standart ile doğrulanması, kısmi doğrulama ile aynı şekilde sonuçları etkiler fakat daha az ciddidir.
Altın standart ile indeks testin bağımsızlığı
İndeks testin sonucu son tanıyı koymada kullanılıyorsa birleştirme yanlılığı oluşabilir. İndeks testin altın standart test gibi değerlendirildiği anlamını taşır bu durum. Bu birleştirme bir döngüye yol açar ve muhtemelen indeks ve altın standart testlerin sonuçları arasındaki uyumu arttırır. Böylece tanısal doğruluğa yönelik tahminler olması gerekenden daha iyi çıkar. İndeks test sonucunu bilmek, bu sonuçların otomatik olarak altın standartla birleştirildiği anlamına gelmez. Örneğin multiple skleroz tanısı için MRG'nin değerini araştıran bir çalışmada altın standart olarak klinik takip, beyin omurilik sıvısı analizi ve MRG kullanılıyorsa indeks test altın standardın içinde yer alıyor demektir. Aynı çalışmada altın standart olarak klinik takip kullanılsaydı, MRG sonuçları kesin tanı sırasında bilinmesine rağmen tanı koymada referans kabul edilmediği için altın standardın içinde yer almayacaktı.
Bağımsızlık, indeks test ile altın standart testin sonuçlarının yorumlanması ile alakalıdır. Bu durum müdahale çalışmalarındaki "körleştirme" ile benzer bir durumdur. İndeks testin sonuçlarının yorumlanması altın standart test sonuçlarının bilinmesinden etkilenebilir ya da tam tersi olabilir. Bu yanlılık değerlendirme yanlılığı olarak bilinir. Tanısal kesinliğin olduğundan iyi çıkmasına yol açabilir. Makaleyi değerlendiren kişi konuya hakim olmalı ve indeks test ile altın standart testlerin sonuçlarının bilinmesinin yorumlamayı etkileyebileceğini göz önüne almalıdır.
Raporlamanın bütünlüğü
Tedavi etkinliğini değerlendiren RCT'lerde olduğu gibi, tanı testlerine yönelik çalışmalarda da örneklem büyüklüğü hesaplanması ve bunun raporlanması çok önemlidir. Pratik bir yaklaşım olarak beklenen sensitivite kullanılabilir: Sensitivite için kabul edilebilecek mimimum alt güven aralığı sınırı ve hastalığın prevalansı.
Sonuçlar nedir?
Sensitivite ve spesifite
Sensitivite ve spesifite tanısal bir testi tanımlarken en sık kullanılan istatistiklerdir.
Sensitivite (Se) = Gerçek pozitiflerin hastalık olan kişilere oranı
Spesifite (Sp) = Gerçek negatiflerin hastalık olmayan kişilere oranı
Sensitivite ve spesifitenin hesaplanması tabloda özetlenmiştir. Tanısal testin sonucu ile altın standart teste göre belirlenen gerçek hastalık olup olmamasına göre bu hesap yapılır.
GP: gerçek pozitifler, GN: gerçek negatifler, YP: yalancı pozitifler, YN: yalancı negatifler
Tanısal bir testin sensitivite ve spesifitesi aynı zamanda anormal test sonucunun tanımına bağlıdır. Aşağıdaki şekilde tanı testinin değerine göre hastalığı olan ve olmayan hastaların sayısı gösterilmiştir. Dağılım üst üste gelmektedir: Test (çoğu durumda olduğu gibi) hastalığı normalden %100 doğrulukla ayırt edememektedir. Üst üste gelen alan, testin normal ve hastalığı ayırt edemediği yeri göstermektedir. Pratikte bir sınır değeri (dikey siyah çizgi ile gösterilmiştir) seçilerek o değerin üstü anormal, altı normal kabul edilir. Sınır değerin yeri gerçek pozitif, gerçek negatif, yanlış pozitif ve yanlış negatif sonuçların sayılarını belirler. Farklı klinik durumlarda farklı sınır değerler kullanılarak test sonuçlarındaki belli tipteki hatalar minimize edilebilir.
İyi sensitivitesi olan bir test, yanlış negatif sonuç yanlış pozitife göre hasta için daha zararlı ise (tedavi edilebilir hastalık, erken tanının daha iyi prognozla ilişkili olduğu durumlar) ya da hastalık nadir görülüyorsa daha avantajlıdır.
İyi spesitivitesi olan bir test, yanlış pozitif sonuç yanlış negatife göre hasta için daha zararlı ise (agresif tedavi, tedavi edilemeyen hastalık, vs) daha avantajlıdır.
Alıcı işletim karakteristik eğrisi
Her tanısal test için normal ile anormali ayıran sınır değerin seçimi, sensitivite ve spesitifitenin ikisinden de belli oranda ödün vererek yapılan bir anlaşmadır. Alıcı işletim karakteristik eğrisi (receiver operating characteristic [ROC] curve), aynı tanı testinde çeşitli sınır değerler için sensitiviteye karşı 1 eksi spesifite oranlarını gösterir (gerçek pozitif sonuçlara karşı yalancı pozitif sonuçlar).
Hem yanlış pozitif hem de yanlış negatif sonuçları minimize eden sınır değeri, eğrinin üst sol köşesine en yakın noktadır. Eğri sol kenar ve ROC alanının üst kenarına yaklaştıkça testin doğruluğu artmaktadır. Bir başka deyişle eğrinin altındaki alan testin doğruluğunu ölçer. 1 büyüklüğündeki alan mükemmel bir teste karşılık gelirken 0,5 büyüklüğündeki alan işe yaramaz bir testi göstermektedir. Aşağıdaki şekilde çok iyi, iyi ve işe yaramaz testlerin eğrileri aynı grafikte gösterilmiştir.
Pozitif ve negatif kestirim değerleri
Klinik pratikte tek bilinen şey test sonucudur. Testin hastalığı kestirmede ne derece iyi olduğunun bilinmesi gerekmektedir, yani anormal test sonucu olanlarda gerçekten hasta olanların oranı. Kestirim değerleri (prediktif değerler) bu sorunun cevaplanmasına yardım eder.
Pozitif kestirim değeri (PPV) = Pozitif test sonucu olanlarda hastaların oranı
Negatif kestirim değeri (NPV) = Negatif test sonucu olanlarda hasta olmayanların oranı
Tabloda pozitif ve negatif kestirim değerlerinin hesaplanması gösterilmiştir.
GP: gerçek pozitifler, GN: gerçek negatifler, YP: yalancı pozitifler, YN: yalancı negatifler
Pozitif ve negatif kestirim değerlerinin kullanımı çekici gelse de faydaları sınırlıdır çünkü test edilen kişilerde hastalığın prevalansından büyük oranda etkilenmektedirler. Hastalık nadirleştikçe, negatif bir sonucun hastalık olmamasını gösterme oranı artar ve pozitif bir sonucun hastalığı gösterme oranı azalır. Bu nedenle bir çalışmada gözlenen kestirim değerleri, hastalık görülme riski (prevalansı) farklı olan topluluklarda geçerli değildir.
Prevalans, kişinin test yapılmadan önceki hasta olma olasılığı olarak yorumlanabilir, buna hastalığın önceki (prior) olasılığı denir. Pozitif ve negatif kestirim değerleri, pozitif ve negatif test sonucu olan hastaların sonraki (posterior) olasılıklarıdır. Önceki ve sonraki olasılıklar arasındaki değişim, testin yararlılığını değerlendirmenin diğer bir yoludur, buna olabilirlik oranı (likelihood ratio) denir.
Olabilirlik oranı
Tanısal bir test istenirken önemli olan, hastalığı göstermede ya da dışlamada hangi testin en çok yardımcı olacağıdır. Klinik epidemiyoloji dilinde, tanı testleri hastalığın başlangıçtaki olabilirliğini (pre-test olasılık) alarak, şüphemizi bir yöne ya da diğerine çeker ve son bir hastalık olabilirliği (post-test olasılık) verir.
Olabilirlik oranları (LR), belli bir test sonucu için şüphemizi ne yönde ne kadar değiştirmemiz gerektiğini söyler. Test sonuçları negatif ya da pozitif olabileceği için, her test için en az iki LR vardır. Pozitif LR (LR+), test pozitifse hastalık olasılığının ne kadar arttığını gösterirken negatif LR (LR-), test sonucu negatifse olasılığın ne kadar azaldığını gösterir. LR şu şekilde hesaplanır:
LR, bir tanı testinin ne kadar iyi olduğunu değerlendirmede, uygun bir veya bir dizi testin seçiminde kullanılır. Sensitivite ve spesifiteye göre avantajlıdır. Çünkü birkaç düzey semptom/bulgu ya da test için hesaplanabilir, çok sayıda tanı testinin sonuçlarının kombine edebilir ve hedef bozukluğun post-test olasılığının hesaplanmasını sağlar.
Örnek:
50 yaşında bir kadın yakın zamanda ortaya çıkan el bileğinde artrit, sabah tutukluğu ve diğer semptomlarla başvuruyor. Artrosentez yapılmadan önce inflamatuar artrit için pre-test olasılığı %60 kabul edilirken pre-test olasılık oranı (odds ratio = OR) 6:4'dür. Reaktif test şeritleri artrosentezde inflamatuar sinoviyal sıvıyı taramada yardımcı olabilir. Pozitif reaktif test şeridi için LR: 5,88 verilirse ve pre-test OR 6:4 ise, test sonucu pozitif olan kişide inflamatuar artrit olma olasılığını hesaplayabiliriz (aşağıdaki formülde odds = olasılık, probability = ihtimal olarak çevirilmiştir):
Post-test olasılık = pre-test olasılık x LR = 6/4 x 5,88 = 8,82
Post-test ihtimal = post-test olasılık / (post-test olasılık + 1)
                           =8,82 / (8,82 + 1) = %90
Hızlı reaksiyon testi yapıldıktan sonra sonuç pozitifse, hastanın inflamatuar artrit için post-test olasılığı %90'a yükselmektedir ki bu da reaksiyon testinin değerli bir tanı testi olduğunu gösterir.
Olasılık ve LR'ler arasında dönüşüm nomogram kullanılarak basit şekilde yapılabilir.
Olabilirlik oranı nomogramı
1'den büyük LR, post-test olasılığın, pre-test olasılıktan fazla olduğu anlamına gelir. 1'den küçük LR, post-test olasılığın pre-test olasılıktan az olduğunu anlatır. Pre-test olasılık %30 ile %70 arasında ise, yüksek LR'li (örneğin 10 üzeri) bir test hastalığa tanı koyar. Karşıt olarak çok düşük LR (0,1'in altı) ise hastalığı dışlar.
Birden fazla test
Hiçbir tanı testi mükemmel (%100 sensitif ve spesifik) olmadığı için, hastalara değerlendirme süresince birden fazla tanı testi yapılır. 5 tanı testinin sonuçlarına göre bir hastalığın olasılığını belirlemek sıkıcı görünebilir fakat LR değerleri ile daha kolay yapılır.
Öncelikle değişik test sonuçlarının LR'leri çarpılarak tek bir global LR değeri elde edilir. Daha sonra bu global LR kullanılarak pre-test olasılıktan post-test olasılık elde edilir.
Örnek:
Kene ısırığı öyküsü olmayan bir hasta, hekim tarafından görülmemiş cilt lezyonları ve bir dizinde tekrarlayan şişlik atakları öyküsü ile geliyor. Hastanın Lyme hastalığı için pre-test olasılığı %40 olarak kabul ediliyor. Pozitif ELISA sonucunun LR'si 19,5 ve pozitif western blot testinin LR'si 11,4. Eğer hastanın hem ELISA hem de western blot test sonuçları pozitifse global LR 19,5 x 11,14 = 217,23 bulunur. Buna göre,
Post-test olasılık (odds) = 4/6 x 217,23 = 144,82
Post-test ihtimal (probability) = 144,82 / (144,82 + 1) = %99,3
Bu hastada Lyme hastalığı için post-test ihtimal %99,3'dür.
Güven aralığı
Tedavi etkisinin tahmininde olduğu gibi, tanısal doğruluk ölçümleri, bir örneklemin gözlenmesi üzerinden testin gerçek ölçümüne dair yapılan tahminden ibarettir. Sensitivite, spesifite, kestirim değerleri, LR gibi tüm tanısal doğruluk ölçümlerinde, güvenilir gerçek değer aralığının belirlenmesi için %95 CI tanımlanmalıdır.
Sonuçları hastaya yaklaşımda kullanmak
Çalışma hastalarının temsil değeri
Topluluklar arasındaki farklı demografik ve klinik özellikler, tanısal doğruluk değerlerinde büyük farklılıklar oluşturabilir. Buna spektrum yanlılığı denir ve bir sonucun genellenebilirliğini kısıtlar.
Pozitif ve negatif kestirim değerlerinin hastalığın prevalansından büyük oranda etkilendiğini gördük. Bu durum daha az oranda olsa da sensitivite, spesifite ve LR için de geçerlidir.
Spektrum etkisini için aydınlatıcı bir örnek olarak idrar yolu enfeksiyonu (İYE) tanısında hızlı dipstick testi kullanımı verilebilir. İYE için yüksek (%50'de fazla) ön olasılığı olan 107 hastada (İYE için çok sayıda karakteristik özelliği olan hastalar), testin sesitivitesi mükemmeldir (0,92; %95 CI, 0,82 ile 0,98 arasında). Oysa ön olasılığı düşük (%50 veya daha az) olan 259 hastada testin sensitivitesi düşüktür (0,56; %95 CI, 0,03 ile 0,79 arasında).
Çok hasta görünen (çok sayıda belirgin bulgusu olan) kişilerle yapılan bir çalışmada test olduğundan iyi çıkabilir. Örneğin talyumla yapılan stres testinin, ciddi koroner arter hastalığı olanlarda, hafif hastalığı olanlara göre anormal sonuç verme olasılığı fazladır.
Bir testi sadece hastalığı olanlara ve sağlıklı kontrollere uygulamak da testi olduğundan iyi gösterebilir, çünkü sağlıklı kontrollerde anormal test sonucu bulunması ihtimali çok azdır.
Hastaların spektrumu, altta yatan hedef durumun ciddiyeti yanında demografik özellikleri ve ayırıcı tanıda yer alan durumların varlığı ile komorbiditeleri de içerir.
Bu nedenlerle, tanı testi araştırmalarının hastalığı olan ve olmayan kişilerde, normalde testin kullanılmasını gerektirecek şikayetlerle doktora başvuranlar ve hastalığı hafiften ileri evreye kadar olan çeşitlilikte hastalarda yapılması gerekmektedir.
Ayrıca hastalar indeks ve/veya altın standart test sonucu bilinemeden çalışmayı terk edebilir. Eğer çalışmayı terk eden hastalar, çalışmaya devam edenlerden sistematik olarak farklılık gösteriyorsa, test performansı tahminlerinde yanlılık söz konusudur.
Test şartlarının yeniden üretilebilirliği
İndeks ve altın standart testlerin uygulanmasının yeterli bir tanımının yapılması iki nedenle önemlidir. İlki tanısal doğruluktaki değişkenlikler testin uygulanmasındaki farklılıklara bağlı olabilir. İkincisi açık ve ayrıntılı bir tanımlama, testin başka bir ortamda uygulanabilmesi için gereklidir. Farklı şekilde uygulanan testlerin farklı test performansları olması beklenir. Örneğin kanın alındığı zaman ve şartlar glisemi sonuçlarını etkiler. Bu durumun etkilediği sonuçlar, araştırılan testin özelliklerine bağlıdır.
Herhangi bir testin değeri, stabil hastalarda tekrar uygulandığında aynı sonuçları verebilmesine bağlıdır. Tekrarlanabilirliğin kötü olması testin kendisinden (ör: hormon düzeylerini belirlemede kullanılan radyoimmünoesay kitlerindeki ajanların varyasyonu nedeniyle) ya da uygulanmasından (ör: elektrokardiyogramda ST segment yükselmesinin büyüklüğü) kaynaklanabilir. Bu durum özellikle testin uygulanması ya da yorumlanmasında uzmanlık gerekiyorsa önemlidir. İdeal olarak tanısal bir testi değerlendiren raporda tekrarlanabilirliği uygun bir ölçümle bildirilmelidir.
Dikotom bir sonuç için kappa katsayısına bakmak tekrarlanabilirlik hakkında fikir verir. Testler arası şans eseri anlaşma oranı düzeltilmiş olur. 1 değeri mükemmel uyum anlamına gelir. Diğer değerler şöyle yorumlanabilir:
- Kötü uyum = 0,20'den az
- Makul uyum = 0,20-0,40 arası
- Orta derece uyum = 0,40-0,60 arası
- İyi uyum = 0,60-0,80 arası
- Çok iyi uyum = 0,80-1,00 arası
Sürekli sonuçlar için en iyi iki yaklaşımdan biri Bland ve Altman grafik yöntemidir. İki ölçümün farklılıklarını, iki ölçümün ortalamalarına karşı gösterir. Diğeri ise sınıflar arası korelasyon katsayısıdır, ölçümlerde ölçüm yapanlar arası anlaşma düzeyini değerlendirir (1 mükemmel uyum, 0 uyum yok). Basit korelasyon katsayısı yanıltıcıdır çünkü korelasyonu ölçer, konkordansı değil.
Yorumlamanın klinik pratikle tutarlılığı
İndeks test sonuçları tam otomatik değilse ve yorumlama gerektiriyorsa, yorumlama esnasında elde olan klinik bilgiler test sonuçlarını ve performansını etkileyebilir. Bu anlamda klinik bilgi çok geniş kapsamlıdır, hastanın direkt gözleminden elde edilebilecek veriler, yaş, cinsiyet, semptomlar gibi özellikler bu tanıma girer. Bunlara benzer faktörlerin bilinmesi, test yorumlama gerektiriyorsa sonuçları etkileyebilir. Eğer klinik bilgi test uygulanırken biliniyorsa, test yorumlanırken de bilinmesinde sakınca yoktur. Ancak eğer indeks testin diğer klinik testlerin yerini alması amaçlanıyorsa, klinik bilgi mevcut olmamalıdır veya tüm indeks testler için mevcut olmalıdır. Test sonuçları yorumlanırken hangi klinik bilgilerin elde olduğunun bilinmesi, çalışmaları değerlendirirken önemlidir.

Hiç yorum yok:

Yorum Gönder