4 Şubat 2016 Perşembe

Randomize Kontrollü Çalışmaların Değerlendirilmesi

Bilimsel makalenin eleştirel bir gözle değerlendirilmesi, verilerin uygun şekilde yorumlanabilmesi ve sonuçların pratiğe yansıtılabilmesi için elzemdir. Bu yazıda klinik pratikte en sık karşılaşılan çalışma tiplerinden randomize kontrollü çalışmaların (RCT) eleştirel değerlendirmesi için bilinmesi gereken kavramlar üzerinde duracağız. RCT'lerin meta analizleri, kanıta dayalı tıpta sık kullanılan diğer bir kaynaktır. Meta analizleri başka bir yazıda ele alacağız. Tanısal testlerin değerlendirmesi de kendine özgü bir çalışma tasarımı gerektirir ve ileride onlara da değineceğiz.
Kanıta dayalı tıpta, kanıtlar değerlerine göre derecelendirilmektedir. Tedavi önerisinde bulunurken kullanılabilecek kanıtlar şu şekilde sıralanmıştır:
1a: Randomize kontrollü çalışmaların meta analizi (sonuçlarda homojenitesi olan)
1b: Randomize kontrollü bir çalışma (güven aralığı dar olan)
2a: Kohort çalışmaların meta analizi (homojenitesi olan)
2b: Bir kohort çalışması (ya da düşük kaliteli randomize kontrollü çalışma)
3a: Vaka kontrol çalışmalarının meta analizi (homojenitesi olan)
3b: Bir vaka kontrol çalışması
4: Vaka serileri (ve kötü kalitede kohort ya da vaka kontrol çalışması)
5: Uzman görüşü
Buna göre gerçeğe en yakın güvenilir ve değerli bilgiyi randomize kontrollü çalışmaların meta analizi sağlamaktadır. Listede aşağılara indikçe kanıtın güvenilirliği azalmaktadır.
Tıbbi literatürü okumak edilgen bir uğraş değildir. Eleştiren bir gözle makaleyi her cümlede test etmeli ve aklımızdaki bazı sorulara cevaplar aramalıyız.

"Bu çalışmanın amacı ne?"
Genellikle bu sorunun cevabını girişin sonunda buluruz. Açık seçik bir amaçta popülasyon, müdahale, karşılaştırma yapılan şey (kontrol) ve sonuç ölçümünden bahsedilmelidir. Popülasyon derken uygun hastalar kast edilmektedir. Müdahale, ilgi duyulan alandaki yaklaşım stratejisidir; bu bir ilaç ya da hasta eğitimi gibi ilaç dışı bir yaklaşım olabilir. Kontrol, müdahalenin etkisini karşılaştırabilmek / ölçebilmek için gereklidir. Sonuç ölçümü, müdahalenin etkisinin nasıl ölçüleceğinin bir ifadesidir.
"Sonuçlar ne?" ve "Sonuçlar geçerli mi?"
Bir çalışmanın ana sonuçlarını gördükten sonra bunların inanırlık ve güvenilirliğinin araştırılması gerekir. Makalede gözlenen tedavi etkisi ya da tanısal doğruluk gerçekten de tarafsız ve doğru bir şekilde etkinin yönünü ve büyüklüğünü yansıtmakta mıdır? Sonuçlar tarafsız ve geçerli ise sonraki değerlendirme aşamalarına geçilir.
Çalışmanın mali açıdan aldığı destek, geçerliliği bozabilecek gizli tehditler açısından önem taşımaktadır. Örneğin ilaç endüstrisinin sponsorluğunda gerçekleştirilen bir ilaç çalışması, üniversite sponsorluğunda gerçekleştirilen bir çalışmaya göre daha az objektif olabilir. NSAİİ'lerin etki ve yan etkileriyle ilgili çalışmalarda, üreticinin sponsorluğunda yapılmış tüm çalışmalarda ilaç, kontrol ilacına göre üstün ya da eşit durumda bulunmaktadır.
"Sonuçları klinik pratikte nasıl uygularım?"
Bu soru iki parçalıdır. Öncelikle, sonuçları hastanıza genelleyebilir misiniz? Örneğin çalışmaya katılan hastalar sizin hastanızdan çok farklı özelliklere sahipse bu tereddütü yaşayabilirsiniz. İkinci olarak, eğer sonuçlar hastanıza genellenebiliyorsa, tedavinin net etkisi nedir? Araştırmacılar hasta için önemli bütün sonuç parametrelerini ölçmüş müdür? Etki hem yararlı hem de zararlı (yan etki ya da toksik etkiler) anlamda olabilir ve müdahalenin durdurulmasının sonuçları da hesaba katılmalıdır. Takip eden başlıklarda müdahale çalışmalarının (RCT) değerlendirmesi üzerinde duracağız.
Tedavi Yöntemlerini Değerlendiren Primer Çalışmalar: Randomize Kontrollü Çalışmalar
Bir tedavinin etkinliğini değerlendirmek için en iyi yöntem diğer pek çok deneyde olduğu gibi iki (ya da daha fazla) grubu karşılaştırmaktır. Gruplardan biri tedaviyi alırken diğeri (kontrol grubu) almaz.
Ancak değerlendirme altında tedavi dışındaki faktörler de hasta iyileşmesinde sorumlu olabilir. Hastalığın doğal seyri, hasta özellikleri, çalışma nedeniyle hastaya gösterilen özel ilgi (Hawthorne etkisi), ortalamaya regresyon, plasebo etkisi, eşlik eden tedaviler, ölçme hataları sonuçları karıştırabilir.
Tedavinin gerçek etkisini değiştirebilecek faktörlerin kontrolü için en iyi yol şudur:
1- Her gruptaki hastalar çalışmanın başlangıcında (bazalde) benzer özellikte olmalıdır. Araştırma altında hastalığın doğal seyrinde aynı yerde olmalı, klinik ve demografik özellikleri aynı olmalıdır.
2- Hasta grupları arasındaki benzerlik çalışma boyunca korunmalıdır. Tüm hastalara aynı dikkat gösterilmelidir. Eşlik eden tedavilere ulaşmada ya da kullanmada fark olmamalıdır.
3- İki grubun sonuç ölçümlerinde aynı yöntem kullanılmalıdır. Böylece ölçüm hatası bakımından gruplar arasında fark olmaması sağlanır.
Sistematik yanlılık (bias), yanlışlıkla sonuçları etkileyen ve karşılaştırmaları bozan herhangi bir şey olarak tanımlanır. Klinik çalışmalardaki yanlılık kaynakları ve bunların üstesinden gelmek için kullanılan yöntemler şekilde gösterilmiştir.
Seçmede yanlılık, kaynak popülasyonu doğru temsil etmeyen bir örneklem seçildiğinde oluşur. Örneklem rastgele seçilmezse bu olabilir. Dağıtmada yanlılık, karşılaştırma yapılan gruplar arasında bazalde sistematik farklılıklar varsa ortaya çıkar, genelde rastgele olmayan dağıtımın bir sonucudur. Performansta yanlılık, eğer gruplara tedavi haricinde sağlanan bakımda ya da gösterilen dikkatte (yapılan açıklamalar, tedavi verenlerle iletişimde farklılıklar, plasebo etkisi) farklılık varsa söz konusudur. Aşınma yanlılığı, çalışmadan çekilen ya da çalışma prosedürüne uyum sağlayamayan hastalar arasında sistematik farklar varsa ve bunlar analize katılmazsa ortaya çıkar. Tedavi amacına yönelik analiz, rastgele dağıtımın avantajlarının korunmasını sağlar. Son olarak eğer iki grup arasında sonuç ölçümünde sistematik farklılıklar varsa ölçme yanlılığından bahsedilir.
Bunlar dışında literatürde tanımlanıp araştırılmış farklı yanlılık türleri de vardır.
Çalışma bulgularının geçerliliğini yorumlamak
Randomizasyon
Çalışmalarda bundan sıklıkla rastgele (randomize) dağıtım olarak bahsedilir. Tedavi ve kontrol grupları arasında randomizasyon, bazalde benzer özellikte iki hasta grubu elde edilmesini sağlar. Sadece rastgele dağıtım ile gruplar arasındaki bilinen ve bilinmeyen sistematik farklılıkların oluşmasının önüne geçilerek dağıtmada yanlılık elimine edilebilir. Uygun randomizasyonda hastalar tahmin edilemeyacak bir şekilde -şans ile- bir gruba ya da ötekine dağıtılır. Bunun için dizi üretimi ve dizinin uygulanması olarak iki aşama gerekir.
Dizi üretimi için rastgele sayı tablosu ya da rastgele sayı üretme yazılımı kullanılır. Belirlenimci dağıtma yöntemleri (örneğin sırayla dağıtım, doğum tarihine göre dağıtım, ismin ilk harfine göre dağıtım, vs) iki nedenle uygun bulunmaz: bunların öngörülebilirliği hastaların sıraya sokulmasına izin verebilir, ayrıca kullanılan araçla (doğum tarihi, ismin ilk harfi...) sonuç arasında korelasyon olabilir. Bu nedenle seçmede yanlılıkla karşılaşılabilir.
Randomizasyon için dizinin uygulanması sırasında hasta bir gruba atanmadan önce dağıtımın gizliliği sağlanmazsa, randomizasyonun bütün faydaları kaybolur. Gizlenmemiş randomizasyon, klinisyenlerin hastaları sıraya dizerek belli özellikte hastaların belirli bir dağıtıma maruz kalmasını sağlamasına, yani dağıtımda yanlılığa yol açabilir. Yapılan bir araştırmada romatoloji alanında 1997 ve 1998'de yayınlanmış çalışmaların sadece %19'unda dağıtımda gizliliğin belirtildiği görülmüştür. Başka bir araştırmaya göre yetersiz gizlilikle yapılan çalışmalarda tedavi etkisi %35-40 daha fazla bulunmaktadır.
Birbirinden ayırt edilemeyecek nitelikteki tedavi ve plasebo grupları (aynı görünüm, aynı uygulama takvimi, aynı tat, vs) arasında tedaviyi veren ve hastanın körlüğü ile dağıtımın gizliliği birbirine apaçık bağlı durumlardır. Önceden numaralanmış ilaçlar tedaviyi veren tarafında seri olarak uygulanır. Diğer durumlarda yeterli gizlilik sağlanması için kullanılan bazı yaklaşımlar şunlardır:
- Merkezi (örneğin hasta onamı alındıktan sonra araştırmacı telefonla hasta dağıtım grubunu edinir) ya da eczane kontrollü randomizasyon
- Katılımcılara önceden numaralandırılmış ya da kodlanmış kapalı zarflarla uygulama
- Katılımcının özellikleri girildikten sonra gruplara dağıtımı yapan şifreli bir yazılım
Kapalı zarflar randomizasyon için uzun süredir kullanılmaktadır. Ancak bu yöntem istismara açıktır çünkü klinisyen zarfları önceden açıp hastaları istediği tedavi koluna atayabilir. Hatta zarfın güçlü bir ışığa tutulmasıyla dağıtım şeklinin ayırt edilebileceği bildirilmiştir.
Randomizasyon ile klinisyenin belli bir nedenle bir tedaviyi bir hastaya vermesi engellenerek sonuçların karışması önlenir. Ayrıca hem hasta hem de araştırmacı için beklenti yanlılığı (pasebo etkisi) oluşması önlenir.
Her çalışma grubu için önemli demografik ve klinik özellikler belirtilmeli, bazalde grupların önemli prognostik faktörler açısından benzer olduğu ortaya konmalıdır. Farklılıkları istatistiki olarak test etmenin genelde bir yararı olmaz çünkü randomizasyon nedeniyle gözlenen herhangi bir farklılık şans eseri olmalıdır. Genelde farklılıkların büyüklüğü ve yönü randomizasyondan sapmalar olup olmadığını saptayabilir. Eğer birkaç büyük farklılık varsa ve hepsi bir grup lehine ise çalışma hakkında şüphe artacaktır.
Körleştirme
Tedavi ve kontrol grupları arasında, spesifik tedavi durumu dışında var olan benzerlik, çalışma boyunca sürdürülmelidir. Körleştirme bu benzerliği korumanın en iyi yoludur. Performans ve ölçme yanlılığı bu şekilde önlenebilir. Körleştirme demek, çalışmaya katılan kişilerin, örneğin hastaların, sağlık çalışanlarının (tedaviyi verenlerin), sonuç ölçümü yapanların, verilen tedavi hakkında bilgi sahibi olmamasıdır.
Her ne kadar "çift kör" terimi ne sağlık çalışanının ne de hastanın hangi tedavinin verildiğini bilmemesini anlatsa da, diğer kişilerin (örneğin sonuç ölçümü yapanların) "kör" olup olmadığı belirsiz kalmaktadır. Yazarlar kimlerin kör olduğunu açıkça belirtmelidir (hastalar, tedaviyi verenler, sonuç ölçümü yapanlar, gözlemciler, veri analizi yapanlar).
Hastaların ve tedaviyi verenlerin körleştirilmesi performans yanlılığını önler. Bu yanlılık eğer karşılaştırılan gruplardan birine ek bir terapötik müdahale verilirse ortaya çıkabilir. Hem hastaların hem de tedaviyi verenlerin kör olması gruplar arasında takip, dikkat ve plasebo etkisi açısından fark olmamasını sağlar.
Sonuç ölçümü yapanların körleştirilmesi ölçme yanlılığı riskini en aza indirir. Kör olmayan bir değerlendirici açık bir tedavi etkisi gördüğünü sanırken kör bir değerlendirici etki görmeyebilir. Özellikle subjektif ölçme araçları (örneğin ağrı ya da tutukluk skorları) kullanılırken değerlendiricilerin körlüğü daha önemlidir. Objektif sonuç ölçümleri yanlılığa fazla izin vermez. Ölüm gibi aşikar bir sonuç üzerinde hangi müdahalenin uygulandığını bilmek yanlılık oluşturmaz. Ancak ölüm nedeni gibi daha az objektif bir değerlendirme üzerinde etkili olabilir. Cerrahi gibi bazı müdahalelerde hastaları ve uygulayıcıları körleştirmek mümkün olmasa da genelde sonuç ölçümü yapanların körlüğü sağlanabilir.
Veri analistlerinin körleştirilmesi de yanlılığı azaltır çünkü müdahale hakkında bilgi sahibi olmak tercih edilecek analitik stratejileri ve yöntemleri değiştirebilir.
Çalışmada kullanılan iki tedavi ayırt edilemez nitelikte ise (aynı özellikler, aynı uygulama takvimi, aynı dozaj, vs) hastaların, tedaviyi verenlerin ve değerlendiricilerin körleştirilmesi nispeten kolaydır. Eğer tedaviler birbirinden farklıysa "double-dummy" prosedürü yararlı olabilir ancak her zaman uygulanamaz. Bu prosedürde A grubundaki hastalar A ilacı ve B ilacının plasebosunu alırken B grubundaki hastalar B ilacı ve A ilacının plasebosunu alırlar. Tipik örnek i.v. ilaçla oral bir ilacın karşılaştırılmasıdır.
Hastaların ve tedavi verenlerin körlüğü sağlanamadığında (ör: cerrahi, diyet, rehabilitasyon, fizyoterapi) performansta yanlılık oluşabilir. Bazen körleştirme yapılabilir ama etkili olmaz. Yan etkilerin spesifikliği (örneğin beta blokerlerin bradikardi yapması) gibi ipuçlarıyla hastalar ve tedavi verenlerin körlüğü ortadan kalkar. Bu tür durumlarda sonuç ölçümü yapanları körlüğü ölçmede yanlılıktan kaçınmak için faydalıdır. Bu yöntemler büyük oranda sonuçların merkezi değerlendirmesine dayanmaktadır. Laboratuvar testleri ve radyografi gibi araştırmalarda merkezi değerlendirme nispeten kolay olsa da hekim tarafından elde edilen verilerde daha yaratıcı çözümler gerektirir (klinik muayenenin video kaydı, fotoğraflanması, vs). Hastaların bildirim yaptığı sonuç ölçümlerinde merkezi değerlendirme daha problemlidir.
Analiz teknikleri
Titiz bir çalışma yürütülüp tüm yanlılıklardan kaçınılsa dahi, yanlış analitik yaklaşım yanlılığa neden olabilir. Randomize edilmiş bir üstünlük çalışmasında aşınma (ayrılma / dışlama) yanlılığını önlemede en güçlü analitik yöntem tedavi amacına yönelik (intention-to-treat) (ITT) analizdir. ITT analizinde bütün hastalar başlangıçta randomize edildikleri grupta analiz edilirler. Çalışma boyunca diğer müdahale grubuna geçiş yapmaları, tedavi almayı bırakmış olmaları ya da takipte kaybolmuş olmaları bu durumu değiştirmez.
Protokol başı (per-protocol) ya da tedaviye yönelik (on-treatment) analizde, uygunluk, müdahaleye katılım ve sonuç değerlendirmesini tamamlama koşullarını yerine getiren katılımcılarla sınırlı bir analiz yapılır.
Alınan tedavi (treatment-received) analizinde, hastalar gerçekte aldıkları tedaviye göre analiz edilir. Başlangıçta almaları planlanan müdahale ile ilgili dağıtıma bakılmaz.
ITT analizinin avantajı, orijinal rastgele dağıtımın sağladığı prognostik faktörlerdeki dengeyi korumasıdır. Tedavi etkisinin, tedaviye uyumsuzluğun ve protokolden sapmaların yansız şekilde değerlendirilmesini sağlar ki bu da gerçek klinik durumu yansıtır. Bir müdahale grubundan diğerine geçiş yapan hasta dahi başlangıçta randomize edildiği grupta kabul edilerek değerlendirilir. ITT analizi şu soruya cevap verir: "Hangi tedavi seçimi hasta için en iyidir?" ITT analizi, "Alınan hangi tedavi hasta için en iyidir?" sorusuyla ilgilenmez. İlk soru, yansız bir şekilde yanıtlanabilecek tek sorudur ve tedavinin seçimi için en pragmatik olandır.
Çoğu yazar ITT analizi yaptıklarını iddia etse de gerçekte yapmamaktadır. Gerçek ITT analizinin yapılmadığı durumlara bazı örnekler: Tedavi almayan hastalar analizden dışlanmışsa, uygun olmayan hastalar randomize edilmişse, takipte kaybedilen hastalar dışlanmışsa, sonuç ölçümü yapılamayan hastalar dışlanmışsa. ITT varsayımını, çalışmanın aşamaları boyunca hastaların işlenmesini gösteren akış şemalarına bakarak ve randomize edilen hastaların sayısı ile analiz edilen hastaların sayısını karşılaştırarak kontrol edebilirsiniz. Hiçbir zaman herhangi bir tedavi almamış hastaların dışlanması genelde modifiye ya da yarı ITT analizi olarak adlandırılır.
Randomize kontrollü bir çalışma için akış şeması
Analizden tek kabul edilebilir dışlama, sıkı bir şekilde çift kör yapılan bir çalışmada herhangi bir müdahale almayan hastalar için geçerli olabilir. Hastalar alacakları tedaviyi bilmedikleri için dışlanmaları dağıtımda bozulmaya yol açmaz. Aşınma (çalışmayı tamamlamama) oranları düşük ve çalışma kolları arasında eşit dağılmışsa analizin fazla yanlı olma ihtimali pek yoktur. Aşınma ile ilgili genel kural olarak %5'den azsa yanlılık oluşturması beklenmez, %20'den fazlaysa (üstelik gruplar arasında eşit değilse) ciddi yanlılık riski vardır. %5-20 arasında ise dikkatli olmak ve verinin sensitivite analizine bakmak gerekir.
Atanan tedaviye uyumsuzluk, ITT analizinin tedavinin gerçek etkisini olduğundan az gösterebileceği anlamına gelir. ITT konservatif bir analizdir. Böyle bir durumda per-protokol ya da alınan tedavi analizleri ek olarak yapılabilir ancak sonuçları yeni araştırma hipotezlerinin üretilmesinde kullanılmalı, tedavi kararlarını etkilememelidir. Aslında ITT analizleri etkileri olduğundan az gösterebileceği için yan etkilerin değerlendirilmesi ve denklik çalışmalarında uygun değildir. Alternatif bir analitik yaklaşım, teoride randomizasyonu bozmayan derleyici ortalama nedensel etki (complier average causal effect - CACE) analizidir. Belli varsayımlar sağlandığında bu analiz, uyumsuzluğu da hesaba katarak tahmini tedavi etkisini verir.
Eğer hastalar yüksek oranlarda farklı tedavi kollarına geçiş yaparsa ya da tedavide kaybedilirse çalışma sonuçlarının yorumlanması zorlaşır, bu durumda ne ITT ne de per-protokol analizi güvenli bilgi sağlamaz. Uç bir örnek olarak SPORT çalışması verilebilir. Burada lomber intervertebral disk herniasyonu olan hastalarda standart açık diskektomi ve non-operatif tedavi karşılaştırılmıştır. Cerrahiye atanan hastaların sadece %60'ına cerrahi uygulanmıştır, non-operatif tedaviye atananlarda bu oran %45 olmuştur. Hangi analiz uygulanırsa uygulansın, sonuçlar aydınlatıcı olmayacaktır.
Klinik araştırmaların doğası gereği genellikle ITT kriterleri tam olarak karşılanamaz, özellikle sonuç verilerinde eksiklik varsa. Bu yüzden ITT analizi yapmak çoğu zaman kayıp verileri telafi edecek bir yöntem seçmeyi de gerektirir. Kayıp veri, çeşitli nedenlerle olabilir, tedaviyle ilişkili yan etkiler de bu nedenler arasındadır. Bu nedenle eksik verileri telafi yöntemi muhafazakar olmalıdır yani tedavi grubunun lehine olmamalıdır.
Veri telafi yöntemlerinden biri hasta ile ilgili elde olan son gözlemi kullanmaktır (son gözlemin ileriye taşınması - LOCF). Bu yöntem hastalığın doğal seyri zaman içinde kötüleşme gösteriyorsa uygun olmaz. Diğer yöntem, kayıp veri yerine ortalama değerin ya da regresyon modelinin verdiği en kötü sonuçları kullanmaktır. Esas analizi doğrulamak için sensitivite analizi yapılmalıdır (kayıp veriyi telafi eden yöntemin sonuçlara etkisinin analizi).
Örnek:
Kontiokari ve meslektaşları kızılcık suyunun kadınlarda tekrarlayan idrar yolu enfeksiyonlarını önleyip önlemediğini araştırmak amacıyla bir RCT yapmışlardır. Tedavinin önemli faydasını bulmuşlardır fakat tedavi grubunda %8, kontrol grubunda %10 oranında takipte kayıp olmuştur. Yazarlar kızılcık suyu grubunda takibi bırakanların hepsinin enfeksiyon kaptığını, kontrol grubundan takibi bırakanların ise hepsinin sağlıklı olduğunu varsayarak verilerini kontrol etmişler ve bu halde dahi kızılcık suyunun faydalı olduğunu bulmuşlardır.
Çalışma sonuçlarının geçerliliğini yorumlamak
Çalışmaları değerlendirirken önemli olan konulardan biri asıl ölçümün işe yarayıp yaramadığıdır. Tedavinin etkinliğini değerlendiren sonuç klinik bir olay (ölüm, kırık), terapötik bir karar (yatış süresi, transfüzyon, cerrahi), hasta tarafından bildirilen bir sonuç (ağrı), ya da tamamlayıcı bir test sonucu (biyolojik ya da morfolojik) olabilir.
Çoğu sonuç dikotom değişken (var/yok), sürekli değişken (kan basıncı, glisemi, WOMAC skoru) ya da bir olayın oluşmasına dek geçen süre (hayatta kalma süresi) olarak ölçülebilir.
Doğası ne olursa olsun, iyi bir sonuç ölçümü:
- klinik olarak uygun
- özgün
- diğer çalışmalarla da bilinen, kabul edilen
- güvenilirlik ve tekrarlanabilirliği yüksek
- aşınma yanlılığından kaçınmak için tüm hastalara uygulanabilen nitelikte olmalıdır.
Klinik alaka ve temsili sonuçlar
Çalışma sonuçlarını pratiğe uygulamak için tedavinin hasta için önemli olan sonuçları iyileştirdiğine dair kanıt olmalıdır. Kan basıncında hafif bir yükselmenin hastaya fazla bir etkisi olmayabilir, diğer taraftan inme geçirmek önemli bir sonuçtur.
İyi bir sonuç ölçümü hasta için klinik olarak alakalı olmalıdır, buna verilebilecek örnekler ölüm, hastanede yatış süresi, miyokard enfarktüsü, kırıklar, yaşam kalitesidir. Takip süresi hastalığın evrimi ile uyumlu olmalıdır. Kronik bir hastalıkta bir aylık izlem faydasızdır. Kyriakidi ve ark. sistemik sklerozla ilişkili RCT'lerin sadece %11'inin 1 yıldan uzun süreli takipte bulunduklarını göstermiştir.
Ancak genellikle bu sonuçlar yerine "temsili" sonuçlar kullanılır. Temsili sonuçlar, ölçmesi daha kolay olan ve klinik olarak alakalı sonucun indirekt ölçümü olarak kabul edilen biyolojik veya görüntüleme belirteçleridir. Örneğin osteoporotik kırıkların önlenmesi için kullanılan tedavilerin etkinliğini ölçmede sıklıkla kemik mineral yoğunluğundaki değişim kullanılır. Klinik olarak alakalı olup olmamaları üzerindeki şüphe bir yana, temsili sonuçlar sıklıkla yanlış yönlendirme yaparlar. Sodyum florid kullanımının etkinliği yanlış yönlendiren sonuçlara bir örnektir: tedavi kemik mineral yoğunluğunu aslında arttırır fakat kırık oluşumunu önlemez.
Temsili sonuçların yaygın kullanılmasının bir nedeni, temsili sonuçta bir farklılık, klinik sonuca göre çok daha küçük örneklem ve kısa takip süreleriyle saptanabilir. Kemik mineral yoğunluğundaki farklılığı saptamak için birkaç yüz katılımcı yeterliyken kırığa etkiyi görmek için binlerce katılımcı gerekir. Temsili sonuçlar bir araştırmanın erken safhalarında araştırmayı yönlendirmek için faydalı veriler sağlayabilir.
Pek çok hastalıkta değişik ölçek ve araçlarla ölçülebilecek farklı muhtemel sonuçlar bulunur. Örneğin NSAİİ'lerin romatoid artritteki etkisine dair 196 RCT'de 70 sonucun (outcome) kullanıldığı bildirilmiştir. Böyle olunca farklı çalışmaların yorumlanması ve karşılaştırılması karmaşıklaşmaktadır. Mümkün olduğunca daha önce geliştirilmiş ve geçerliliği gösterilmiş ölçekler ya da rehberler kullanılmalıdır. Böylece hem ölçümün kalitesi artar hem de benzer çalışmalarla karşılaştırmak kolaylaşır.
Primer sonuç
Tek bir primer sonuç tanımlanmalıdır. Çalışma, tedavinin bu primer sonuca bir etkisi olup olmadığını gösterecek şekilde tasarlanmalı ve örneklem büyüklüğü buna göre hesaplanmalıdır. Bu prosedür, çok sayıda istatistiksel test kullanımını ve buna bağlı oluşacak yanlış hükümleri önlemek için gereklidir. Aynı verinin çok sayıda analizi yanlış pozitif bulgu riskini ciddi ölçüde arttırır.
Alfa düzeyi, araştırmacılar tarafından tip 1 hata yapma şansıdır. Tip 1 hatada gözlenen olaylar sadece şansa bağlı olmasına rağmen gerçek bir farklılık, etki ya da ilişki bildirilir. Genelde alfa düzeyi 0,05'tir, yani 20 istatistik testinden ancak biri gerçekte etki yokken etki olduğunu gösterir. Eğer birden fazla istatistik testi kullanılırsa sadece şansa bağlı olan bir bulgunun gerçek bir farklılık olarak bildirilme riski artacaktır. 5 test kullanılırsa risk 0,22'dir, ya da 5'te 1. 10 test kullanılırsa risk 0,40'dır, neredeyse 2'de 1.
İlgi duyulan diğer sonuçlar sekonder sonuçlardır. Müdahalenin istenmeyen etkileri de dahil olmak üzere genelde birden fazla sekonder sonuç bulunur. Sekonder sonuçlar da sadece istatistiksel anlamlılık gösterenlerin bildirilmesi yerine, önceden belirlenmelidir. Önemli sonuçlar dikkate alınmalıdır ancak tek bir çalışmada çok fazla sonuç parametresi olmamalıdır.
Bir tedavinin etkinliğini değerlendirmek için ilişkili sonuçlar değerlendirildiği gibi potansiyel zararları da göz önüne alınır. İlaç toksisitesi ve yan etkilerin dökümantasyonundaki eksiklik çoğu RCT'deki en büyük sorundur. Kanser terapisi yaşam süresini uzatabilir fakat yaşam kalitesinde düşüşe yol açabilir. Cerrahilere yönelik çalışmalarda sıklıkla operasyonun tamamlanabildiği hastalarda yaşam süresinin uzadığı raporlanır fakat cerrahi sırasında ve hemen ardından artan ölüm riski atlanmamalıdır.
Çoğu çalışmada katılımcılar uzun bir süre boyunca çalışmaya alınırlar.  Eğer bir müdahale belirgin olarak iyi ya da kötüyse, çalışma etik gerekçelerle erken sonlandırılabilir. Ara analizler yapılabilir. Ancak daha önce de değindiğimiz gibi uygun düzeltmeler yapmadan çok sayıda istatistik araştırma yapılması hatalı sonuç ve yorumlara yol açabilir. Eğer ara analizler önceden planlanmışsa, çalışmanın devam edip etmeyeceğine bağımsız bir kurul karar vermişse genel sonuçlarda yanlılık olmaz.
Bileşik (kompozit) sonuç
Çalışmada aşikar bir primer sonuç yoksa araştırmacılar birkaç sonucun bileşkesini kullanabilirler. Bileşik sonuca örnek olarak yeni bir stentin etkinliğini değerlendirmede ölüm, reinfarkt, inme ya da hedef damar revaskülarizasyonunun tekrarlama sıklığı kullanılabilir.
Bu seçeneğin avantajı tek bir primer sonuç belirleme zorunluluğunu kaldırmasıdır. Böylece aynı sayıda hasta ile yapılan bir çalışmanın gücü artar (olay sıklığı arttığı ve ilgi duyulan sonuçları daha doğru yansıttığı için). Bu çözüm çok sayıda test kullanılma sorununu da halleder. Ancak bulguların yorumlanmasında önemli bir dezavantaj mevcuttur. Bileşik sonuçlar bazen çok farklı ciddiyetteki olayları kombine eder ve tedavi etkisi genelde en sık gözüken en önemsiz sonuç üzerinden değerlendirilme durumunda kalınabilir. Sonuçları yorumlarken tanımlanan etkinin her bir bileşenle değil, tüm kompozit sonuçla ilişkili olduğuna dikkat edilmelidir.
Freemantle ve ark bileşik sonuçların uygun kullanımı için 5 öneride bulunmuştur:
- Araştırmalar CONSORT (Moher ve ark 2001) rehberlerini izlemelidir. Primer ve sekonder sonuçlar önceden spesifik olarak tanımlanmalıdır. Araştırmayı anlatan yayında bulgular açıkça bildirilmelidir.
- Araştırmalar kompozit değişkenleri primer sonuç olarak bildiriyorsa, kompozitin bileşenleri ayrı ayrı değil, beraber yorumlanmalıdır.
- Kompozit sonuçların bileşenleri her zaman sekonder sonuç olarak tanımlanmalı ve primer analizin sonuçları ile birlikte, tercihen bir tablo şeklinde bildirilmelidir.
- Yazar ve dergi editörleri bileşik sonuçları açıkça bildirmeli, bileşenler üzerinden etkinlik bildirmekten kaçınmalıdır.
- Sistematik gözden geçirmeler ve kantitatif meta analizler, tek çalışmalarda kompozit sonuçların parçası olarak ele alınabilen nadir fakat önemli sonuç noktalarını incelemelidir.
Güvenilirlik ve tekrarlanabilirlik
Bazı sonuçların ölçümü diğerlerinden daha kolaydır. Ölüm (herhangi bir nedenle ölüm) kolaylıkla değerlendirilebilir, eklem aralığında daralma ya da yaşam kalitesini ölçmek daha zordur. Ölçümlerin kalitesini arttırmak için bazı stratejiler kullanılabilir. Örneğin eklem aralığında daralma ölçümü, eğer radyografi tekniği standardize edilirse ve 2 bağımsız eğitimli kişi tarafından değerlendirilirse daha güvenilirdir. Tekrarlanabilirliğin bir ölçütü olarak, şans eseri anlaşma için yapılan düzeltme, örneğin kappa katsayısı, ölçümün kalitesini değerlendirmeye yardım eder.
Alt grup analizi
Aynı verinin birden fazla analizi yanlış pozitif bulgu riskini önemli oranda arttırır. Daha önce de bahsedildiği gibi bu risk, sonuçlar ve değerlendirmelerin sayısını kısıtlar. Aynı risk nedeniyle farklı hasta alt gruplarında aynı sonucun çok sayıda analizinden kaçınılmalıdır.
Suni bulgu bulmadaki yüksek risk nedeniyle, alt grup analizlerinin güvenilirliği azdır. Alt grup analizlerini değerlendirirken şunlara dikkat edilmelidir:
- Alt grup analizleri çalışmaya başlanmadan önce tanımlanmalıdır. Klinik olarak önemli az sayıdaki soruyla sınırlanmalıdır.
- Eğer alt gruplarda önemli tedavi etkileri belirlenirse, bunları güvenilir olarak tespit edebilecek güçte çalışmalar tasarlanmalıdır.
- Tek tek alt gruplardaki tedavi etkisinin anlamlılığı bildirilmemelidir. Yanlış negatif ve yanlış pozitif sonuç oranları oldukça yüksektir. Tek güvenilir istatistiksel yaklaşım alt grup tedavi etkisi etkileşimi için yapılan testtir, ancak az sayıda çalışma bunu belirleyecek güçte tasarlanmıştır.
- Yapılan tüm alt grup analizleri bildirilmelidir.
- Bulguları başka çalışmalarla doğrulanıncaya dek alt grup analizleri hipotez üretici olarak kabul edilmelidir, hipotez test edici olarak değil.
Bağımsızlık
Standart analiz yöntemleri verinin "bağımsız" olduğunu varsayar. RCT'ler için bunun anlamı her karşılaştırma testinde bir katılımcı için sadece bir gözlem olmasıdır. Bir katılımcı için yapılan birden fazla gözleme bağımsız veriymiş gibi davranmak ciddi bir hatadır. Bu tür veriler, romatolojide olduğu gibi sonuçlar ardışık kereler ölçüldüğünde ya da vücudun farklı kısımlarından ölçüldüğünde ortaya çıkar. Örneğin osteoporozla ilgili bir çalışmada, aynı hastaya ait iki vertebra kırığını iki bağımsız gözlem olarak almak hatalıdır. Doğru yaklaşım, en az bir vertebra kırığı olan hastaları saymaktır. Veri analizi, her katılımcıyı bir kez sayacak şekilde yapılmalıdır veya eşleşen verileri hesaba katan spesifik istatistiksel prosedürleri içermelidir. Romatoid artritle ilgili 196 çalışma analiz edildiğinde %63'ünün çok sayıda gözlem kullandığı görülmüştür. Bir başka örnek kırıkların önlenmesinde hormon replasman tedavisinin etkinliğine yönelik yapılan bir RCT'dir; bunda kırığı olan kadınlar değil vertebral kırıkların sayısı kullanılmıştır.
Sonuçlar nedir?
Eğer sonuçlar geçerli ise ve çalışma, tedavi etkisinin yansız değerlendirmesini sağlıyorsa, sonuçlar daha ileri incelemeye değer demektir.
İlk olarak her bir grup için her sonucun ölçümü raporlanmalıdır (ör: olay görülen katılımcıların oranı, ölçümlerin ortalaması ve standart sapması [SD]).
Daha sonra tedavi etkisini anlayabilmek için iki ek veri daha bildirilmelidir:
- İki grup arasındaki fark, tedavi etkisi ölçümü olarak da bilinir, ve
- Bu ölçümün kesinliği hakkında bir tahmin, tedavi etkisinin istatistiksel anlamlılığı (güvenlik aralığı [CI] ve/veya P değeri)
Etki büyüklüğünün ölçümü
Dikotom sonuç için, tedavi etkisinin ölçümü risk oranı (göreceli risk) ya da risk farkı (mutlak risk azalması) olabilir. Yaşam süresi verisi için ölçüm tehlike oranı (hazard ratio) veya ortalama yaşam süreleri arasındaki fark olabilir. Sürekli veriler için bu genelde ortalamalar arasındaki farktır.
Dikotom sonuç
Dikotom bir sonuç için, tedavi etkisi mutlak risk azalması, göreceli risk veya göreceli risk azalması olarak ifade edilebilir.
Örneğin bir çalışmada kontrol grubunun %20'si ölürken, yeni tedaviyi alanların sadece %15'i ölüyorsa bu sonuçlar nasıl ifade edilebilir?
Bunu ifade etmenin bir yolu mutlak farktır (mutlak risk azalması [ARR] ya da risk farkı olarak bilinir). Kontrol grubundaki (x) ölüm oranı ile tedavi grubundaki (y) ölüm oranı arasındaki fark.
ARR = x-y = 0,20-0,15 = 0,05 = %5
Tedavi etkisini belirtmenin diğer bir yolu göreceli risktir (RR): Yeni tedaviyi alan hastalarda olay görülme riskinin kontrol grubundaki hastalarda olay görülme riskine oranı:
RR = y/x = 0,15/0,20 = 0,75 = %75
Dikotom tedavi etkileri için en sık olarak kullanılan ölçüm ise bu göreceli riskin tamamlayıcısı olan göreceli risk azalmasıdır (RRR). Yüzde olarak ifade edilir:
RRR = (1-RR) x 100 = (1-0,75) x 100 = %25
ya da
RRR = ARR / x = (0,20 - 0,15) / 0,20 = %25
%25 RRR'nin anlamı yeni tedavinin, tedavi edilen grupta ölüm riskini, kontrol grubuna göre %25 azalttığıdır. RRR arttıkça tedavi etkinliği artar. Araştırmacılar hayatta kalma analizinde olduğu gibi, RR'yi bir zaman aralığı boyunca hesaplayarak buna tehlike oranı adını verebilir. Yazarlar göreceli ya da mutlak risk azalmasının hangisinden bahsettiklerini özel olarak belirtmiyorlarsa, örneğin "X ilacı ölüm riskini azaltmada %30 etkili" veya "Aşının etkinliği %92" gibi ifadelerde hemen her zaman RRR'yi kast ederler.
Bazı tedaviler ve durumlar için, RR ya da RRR olarak ölçülen spesifik tedavi faydası, çeşitli bazal risklere sahip topluluklarda hemen hemen aynı olabilir. Geniş bir hasta grubu için tek bir tahmini tedavi etkisi sağladığı için RR ve RRR değerleri çekici gelebilir. Ancak, genelde bir tedaviyi önermeden önce, klinik olarak bazal (kontrol) riski göz önüne almak gerekir. Çünkü RRR için tedaviden beklenen mutlak fayda, bazal risk değişikliklerinden etkilenir. Örneğin, belli bir tedavi için %50 RRR, orta ve yüksek riskli hastalar için önemli olabilir. Ancak düşük riskli hastalarda riskteki azalma, toksik etkileri ve tedavi maliyetini haklı çıkaracak ölçüde olmayabilir.
RRR veya RR mutlak anlamda büyük ve küçük etkileri ayırt etmede yetersiz olduğundan, ARR tedavi etkisini ölçmede daha iyi bir araç olarak kabul edilmektedir. Ancak ARR genelde ondalık bir sayı olarak (ör: 0,06, 0,14...) belirtilir; bunun klinik pratikte yorumlanması zor olabilir. Bunun yerine ARR'nin karşıtı olan, tedavi edilmesi gereken hasta sayısı (number needed to treat = NNT) önerilmektedir:
NNT = 1/ARR
NNT, yeni tedavi ile standart tedaviye göre fazladan bir hastanın fayda görebilmesi için tedavi edilmesi gereken hasta sayısıdır. Dikotom sonuç bildiren herhangi bir çalışmadan elde edilebilecek bir değerdir.
Yukarıdaki örnekte kontrol ve tedavi gruplarında ölüm için ARR 0,05'di, buna göre NNT, 1/0,05 = 20'dir. Yani fazladan bir ölümü engellemek için 20 hastanın tedavi edilmesi gereklidir.
Mutlak anlamda büyük bir tedavi etkisinde, tedavi edilmesi gereken hasta sayısı düşüktür. Tedavi edilen her 10 hastada bir hayatı kurtaran bir tedavi, 50 hastadan birini kurtaran tedaviye göre açık bir şekilde daha üstündür.
İdeal NNT 1'dir, yani kontrol grubunda kimsede düzelme olmazken tedavi grubundaki herkesin iyileştiği durumdur bu. NNT arttıkça tedavi daha az etkili demektir. Ancak NNT değeri sadece numerik değildir. Örneğin 2-5 arası NNT, akut ağrıdaki analjezik terapilerin etkinliği iken, 1'e yaklaşan NNT duyarlı bakteriyel enfeksiyonlarda kullanılan antibiyotikler için söz konusudur. 40'ın üzerindeki NT için kalp krizi sonrası aspirin kullanımı örnek verilebilir.
NNT'nin doğru bir şekilde anlaşılması için karşılaştırma yapılan şey, terapötik sonuç, sonucu elde etmek için gereken tedavi süresi, %95 güven aralığı ve tedavi olmadığında görülen bazal risk hakkında bilgi verilmelidir.
NNT, tedavinin faydasını tahmin ederken, zarar vermek için gereken hasta sayısı (number needed to harm = NNH), tedavinin potansiyel riskini tahmin eder. Hesaplanması NNT'ye benzer:
NNH = 1/(tedavi grubunda yan etki görülenlerin oranı - kontrol grubunda yan etki görülenlerin oranı)
NNT ve NNH'nin kıyaslanması ile fayda ve riskler tartılır, tedavinin fayda-zarar oranı değerlendirilir.
NNT şunu vurgular: Tedavinin hastaya etkisi sadece RRR'ye bağlı değildir, bazal riskten de etkilenir. Verilen bir tedavide RRR tüm hastalar için aynıdır, fakat NNT her bir hastanın bazal riskine göre değişir. Tedavi almadığında kötü bir sonuçla karşılaşma riski yüksek bir hastanın tedaviden fayda görme şansı fazladır ve istenmeyen bir sonucun önlenmesi için daha az hastanın tedavi edilmesi gerekir.
Örnek:
Klinik çalışmaların sonucuna göre hormon replasman tedavisi, yaşam boyu omurga kırığı görülmesinde yaklaşık %30 RR sağlarken inme riskini %50 olarak arttırmakta. Omurga kırığı ve inme için farklı bazal riskleri olan iki kadını düşünelim: A hastasının kemik mineral yoğunluğu düşüktür ve kardiyovasküleri risk faktörü yoktur. B hastasının ise kemik mineral yoğunluğu normaldir ve pek çok kardiyovasküler risk faktörü vardır. Tabloda her iki kadının NNT ve NNH değerleri gösterilerek her vakada risk ve faydaların nasıl dengelenebileceğine dair bir özet mevcuttur.
A hastası gibi yaklaşık 200 hastayı 2 yıl boyunca tedavi etmek 12 omurga kırığını önler (200x1//17) fakat 1 inmeye neden olur. İnme riskindeki küçük artışa karşılık önlenen omurga kırıklarının sayısı, pek çok klinisyeni böyle hastalarda hormon replasman tedavisinin faydasına ikna edebilir.
Ancak B hastası gibi 200 kişi 2 yıl boyunca tedavi edilirse sadece 6 omurga kırığı önlenecek (200x1//33), buna karşın 3 inme tetiklenecektir (200x1/67). Böyle hastalarda hormon replasman tedavisi daha az endikedir.
Sürekli sonuç
Sürekli sonuçlar için tedavi etkisi, tedavi ve kontrol grupları arasındaki ortalamalar arasındaki farktır. SD, değerlerin ortalama etrafındaki dağınıklığını yansıtır.
Sürekli sonuçların değerlendirilmesi klinik pratikte zordur. Klinik önemlerinin belirlenmesinde, değişik terapötik seçeneklerin risk ve faydalarının karşılaştırılmasında güçlükler bulunur.
Çalışmalar arasında tedavi etkisinin kıyaslanmasında etki büyüklüğü (d): iki ortalama arasındaki farklılık (tedavi eksi kontrol grubu), iki grubun birleştirilmiş SD'si ile bölünür -- 2 ortalama arasındaki SD'lerin sayısına eşittir:
t: tedavi grubu, c: kontrol grubu, n: olgu sayısı
Örnek:
Tedavi sonrası EVA skoru:
SD ile bölme çalışmalar arası etki büyüklüğünün karşılaştırılmasını sağlar.
Etki büyüklüğünün nasıl yorumlanması gerektiğine dair görüşler çeşitlidir. En çok kabul göreni Cohen (1992) tarafından öne sürülendir. Buna göre 0,2 küçük etki kabul edilirken 0,5 orta derece etki, 0,8 büyük etkidir.
Sürekli bir sonucu (ör: HAQ, EVA), "terapötik başarı (var/yok)" gibi bir dikotom ölçüme dönüştürmek genelde klinik olarak daha anlamlı bilgiler verir. Dikotomizasyon çalışma sonuçlarının yorumlama ve değerlendirilmesinde yardımcıdır. Genelde ortalamalar arası farktan daha anlamlı bir bilgi olan NNT'nin hesaplanmasına imkan verir. 1 hastada EVA skorunu yarı yarıya düşürmek için 5 hastanın tedavi edilmesi gerekir demek "tedavi ve plasebo grupları arasında EVA skorları arasındaki fark 9,7 mm'dir (SD=3,7)." demekten daha anlaşılırdır.
Ancak sürekli bir değişkenin dikotomizasyonu bilgi ve istatistiksel güç kaybına yol açabilir.
Her sonuç tipi için spesifik sınır değerler belirlenir. Minimal klinik önemli iyileşme (MCII) gibi hasta tarafından bildirilen bir sonuçta, semptomlarda önemli bir iyileşmeye karşılık gelen en küçük değişim kullanılır. Hasta için makul semptom ölçeğinde (PASS), hastanın kendisini iyi hissettiği maksimum değer, dikotomizasyon için sınır değeri tespit etmede kullanılabilir.
Tedavi etkinliğinin kesinliğini ölçmek
Güvenlik aralığı (CI)
Dürüst olmak gerekirse, tedavi etkisinin gerçek değeri asla bilinemez. Elimizdeki en iyi şey, titiz yapılan randomize kontrollü çalışmaların sağladığı tahminlerdir. Gerçek tedavi etkisi için en iyi tahmin, çalışmada gözlenendir. Bu tahmine "nokta tahmini" denir, toplumsal bir değeri veya parametreyi tahmin için, seçilen örneklem üzerindeki gözlemden yapılan bir hesaplamayla bulunan tek bir değeri ifade eder. Nokta tahmini bize şunu hatırlatır: Gerçek etki değeri o civarda olmasına rağmen, bu değer kesin olmaktan uzaktır. Genellikle (zorunlu değildir) %95 CI, gerçek etki değerinin bulunduğu alanı tahmin etmede kullanılır. %95 CI şu anlama gelir: %95 olasılıkla gerçek değer, belirtilen aralık içindedir.
Eğer bir oranın CI'si 1 ise (ya da bir farklılık için sıfırsa), sonuç hiç etki olmadığı anlamına gelir ve farklar istatistiki olarak anlamlı değildir.
Örnekler:
Eğer bir çalışmada tedavi ve kontrol gruplarının her birine 100 hasta randomize edilmişse ve kontrol grubunda 20, tedavi grubunda 15 ölüm görülmüşse, yazarlar RRR için nokta tahmini olarak %25'i hesaplayabilir. Ancak açıktır ki gerçek RRR %25'den çok daha küçük ya da büyük olabilir, çünkü farkı belirleyen sadece 5 ölüm olmuştur. Aslında tedavinin hiçbir faydasının olmadığı (%0 RRR), hatta zarar verdiği (negatif RRR) bile ileri sürülebilir. Çünkü bu RRR'nin %95 CI'si %-38'den %59'a kadar bir aralıktadır. Yani tedaviyi alan hastaların ölüm oranı kontrole göre %38 daha fazla olabilir, %59 daha az olabilir; bu iki olasılık arasında olma ihtimali %95'dir. Yani bu çalışma yeni tedavinin önerilip önerilmemesi gerektiğine dair bilgi sağlamamaktadır.
Eğer çalışma her grup için 1000 hasta içerseydi ve ölüm oranları az önce bahsedilen şekilde olsaydı, yani kontrol grubunda 200, tedavi grubunda 150 ölüm olsaydı, RRR'nin nokta tahmini yine %25 olurdu. Ancak bu daha geniş katılımlı çalışmada gerçek risk azalması %25'e çok daha yakın olacaktır. RRR'nin %95 CI'si tamamen pozitif tarafta kalır, %9 ile %41 arasındadır.
Bu örneklerin gösterdiği şey, bir çalışmanın örneklem büyüklüğü arttıkça, gerçek RRR'nin (ya da etkinliğin diğer göstergelerinin) gözlenene yakın olma ihtimali artar. Yukarıdaki ikinci örnekte RRR için olası en düşük değer %9 iken olası en yüksek değer %41'dir. Nokta tahmininin (%25) gerçeği yansıtma şansı fazladır. %95 CI'nin alt ve üst limitlerin dışında bir değer olması son derece ihtimal dışıdır.
%95 CI, sürekli sonuçlar için de önemlidir.
Örnek:
Kronik tıkayıcı akciğer hastalığı olan hastalarda solunum kası egzersizlerinin etkisinin incelendiği bir çalışmada primer sonuç, hastaların kapalı bir mekanda 6 dakika içinde yürüyebildikleri mesafe olarak belirlenmiştir. Deney grubuna solunum kası egzersizleri yaptırılmış, 6 dakika yürüme mesafesi artarak, ortalama 406'dan 416 metreye çıkmıştır (10 metre artış). Kontrol grubunda ise 409 metreden 429 metreye çıkmıştır (20 metre artış). Yani 6 dakika yürüme için nokta tahmini negatiftir, -10 metredir (kontrol grubu lehine 10 metrelik bir fark vardır). %95CI'nin alt sınırı -26 (sonuçlar kontrol grubu lehine 26 metre daha iyi), üst sınırı ise +5 metredir.
En iyi durumda bile başlangıçta belirlenen 400 metrelik yürüme mesafesine 5 metre eklemek hasta için önemli bir kazanım olmayacaktır. Sonuçlar, bu çalışmada uygulandığı şekliyle solunum kası egzersizlerinin önemli bir faydası olmadığını göstermiştir.
P değeri
Pek çok dergi CI'nin kullanımını zorunlu kılmakta ya da özendirmektedir. P değerleri CI'lere ek olarak verilse de, sonuçlar sadece P değeri ile bildirilmemelidir. Fakat CI'ler her zaman belirtilmediği için, primer sonucun P değeri de değerlendirilmelidir.
Kullanılan teste bağlı olarak P değerini hesaplamak için pek çok yol bulunsa da, P değerinin anlamı hepsinde aynıdır. P değeri iki grup arasında tespit edilen farklılığın ne olasılıkla şans eseri gerçekleşebileceğini söyler.
P değeri farklılığın istatistiksel anlamlılığını yansıtsa da büyüklüğü hakkında bir şey söylemez. Büyük bir örneklemde tespit edilen küçük bir fark, aynı farkın daha küçük bir grupta bulunmasına göre istatistiki olarak daha anlamlıdır. Bu nedenle bir farklılık istatistiksel olarak anlamlı olsa da klinik olarak önemsiz olabilir. P değeri sadece, gözlenen farklılığın gerçek mi (P<0,05) yoksa şansa bağlı mı (P>0,05) olduğunu ayırt eder. 0,05'den küçük P değerinde sonuçların şansa bağlı olması 20'de 1'den daha az ihtimaldir.
P değeri tam olarak 0,05 ise, RRR için %95 CI'nin alt sınırı tam olarak sıfıra denktir (RR=1). Bu durumda tedavinin hiçbir etkisi olmama ihtimali dışlanamaz. P değeri 0,05'in altına düştükçe RRR için %95 CI'nin alt sınırı sıfırdan yukarı doğru hareket eder.
Klinik alaka vs istatistiksel alaka
Bir çalışmanın sonuçlarına bakarken iki önemli kavram göz önüne alınmalıdır: klinik anlam ve istatistiksel anlam. İlki tedavi etkisinin büyüklüğü ile ilgiliyken ikincisi güvenilirlikle ilgilidir.
Literatürde çok sayıda istatistiksel olarak anlamlı fakat klinik olarak anlamsız sonuç bildirilmektedir. Klinik olarak anlamlı sonuç, hasta için klinik olarak yararlı olandır. Örneğin bir çalışmada belli bir ilacın kan basıncında istatistiksel olarak anlamlı (P<0,05) 2 mmHg düşüş yaptığı bildirilirse, bunun kan basıncında klinik olarak anlamlı bir düşüş olmadığı açıktır. Eğer çalışmada kan basıncında 20 mmHg düşüş bildirilseydi klinik olarak daha anlamlı olurdu.
İstatistiksel anlamlılık, gruplar arasındaki farkın büyüklüğüne ve hasta sayısına bağlıdır. Tek başına P değeri etkinin büyüklüğüne dair hiçbir bilgi sağlamaz. Eğer örneklem yeterince büyükse klinik olarak önemsiz farklılıklar bile istatistiksel olarak anlamlı bulunabilir. Buna karşıt olarak örneklem çok küçükse klinik olarak anlamlı sonuçlar bile istatistiksel olarak anlamlı bulunmayabilir; bu durumda çalışma yeterince güçlü olacak şekilde tasarlanmamış demektir.
Eğer çalışma sonucu pozitifse (tedavi grubu anlamlı olarak daha iyiyse), %95 CI'nin alt sınırına bakılmalı ve bu minimum tedavi etkisinin klinik olarak anlamlı olup olmadığı değerlendirilmelidir. Eğer anlamlı ise çalışma sonuçları belirleyici olarak kabul edilebilir. Ancak eğer minimum tedavi etkisi klinik olarak anlamlı bulunmuyorsa, sonuçlar istatistiksel olarak anlamlı olsa bile çalışma kesin belirleyici olarak kabul edilmemelidir. CI'nin sınırlarına yakın farklılıkların "gerçek" farklılık olması ihtimalinin düşük olduğu da akılda tutulmalıdır.
Eğer çalışmanın sonucu negatifse (tedavi ve kontrol grubu eşitse), 2 olası açıklama vardır: Birincisi tedavi ve kontrol grupları arasında gerçekten de fark olmayabilir. İkinci açıklama ise çalışmanın bir fark bulmaya yeterli gücü yoktur (hasta sayısı azdır). Bu beta-hata ya da tip II hata olarak tanımlanır. Bu sonuçları yorumlamak için CI'nin üst sınırına bakılır ve bu etkinin klinik olarak anlamlı olup olmadığı değerlendirilir. Eğer anlamlıysa çalışma potansiyel olarak önemli bir tedavi etkisini ayırt etmede yetersiz kalmış demektir. Yani araştırmacılar deneysel tedavinin plasebodan daha iyi olduğunu göstermekte başarısız oldukları gibi, daha iyi olmadığını göstermekte de başarısız olmuşlardır; önemli pozitif bir tedavi etkisini dışlayamamışlardır.
Eğer çalışma sonucu CI değeri vermiyorsa bir diğer yaklaşım örneklem büyüklüğü hesaplanması için kullanılan hipotezin daha yakından incelenmesidir. Çok küçük bir örneklem ile, klinik olarak anlamlı bir fark bile hiçbir zaman istatistiksel olarak anlamlı bulunamayabilir.
Dikotom sonuçlar için örneklem büyüklüğü hesaplamasının dört bileşeni vardır: tip I hata (alfa), güç, kontrol grubundaki olay sıklığı ve ilgi duyulan minimum tedavi etkisi (ya da tedavi grubundaki olay sıklığı). Sürekli sonuçlar için yapılan hesaplamada kontrol ve tedavi gruplarındaki olay sıklığı yerine ortalamalar arasındaki fark ve SD ile ilgili varsayımlar kullanılır.
Hesaplama ile ilgili şu durumlarda örneklem fazla küçük bulunabilir:
- Klinik olarak alakalı minimum tedavi etkisi fazla büyük kabul edilmişse (daha küçük ama hala klinik olarak anlamlı bir fark seçilmeliydi)
- Kontrol grubundaki olay sıklığı gerçekten fazla tahmin edilmişse
- Sürekli sonuçlar için SD gerçeğinden az tahmin edilmişse
Yapılan bir araştırmada, 2001-2002 yıllarında romatoloji alanındaki RCT'ler arasında negatif ya da belirsiz sonuçlar bildirenlerin %50'sinin yeterli güçte tasarlanmadığı bulunmuştur.
Tedavi etkisinin büyüklüğü ve kesinliği belirlendikten sonra son soru üzerinde yoğunlaşabiliriz: Makalede bulunan sonuçları klinik pratikte nasıl uygulamalıyız?
Bu sonuçları hasta bakımına nasıl uygularım?
Çalışma bulgularının genellenebilirliği
"Sonuçlar geçerli mi?" sorusunu cevaplarken biz aslında içsel (internal) geçerliliği araştırmaktayız. Yani çalışmadaki hastalarda gözlenen etkiyi açıklayabilecek herhangi bir yanlılığı dışlamaya çalışmaktayız. Bundan sonra ise çalışmanın dışsal (eksternal) geçerliliği üzerinde durulmalıdır, yani sonuçların genellenebilirliği üzerinde. Elbette bir çalışmanın içsel geçerliliği zayıfsa daha fazla ilerlemenin anlamı yoktur. Eğer çalışma, çalışılan hastalar için dahi geçerli değilse, başka hastalara uygulanması ile alakalı sorular anlamsızdır. Ancak sonuçların geçerli olduğuna karar vermişsek, yani nedensel bir ilişki en olası açıklama ise, sonuçların dışsal geçerliliği araştırılmalıdır.
Herkes için uygulanabilecek bir dışsal geçerlilik yoktur. Çalışma sonuçları tüm hastalar için tüm koşullarda alakalı olamaz. Fakat çalışmalar, klinisyenlerin sonuçları hakkında yorum yapabilecekleri şekilde düzenlenmelidir.
Çalışma sonuçları hastalara uygulanmadan önce aşağıdaki kriterlere bakılmalıdır:
- Çalışmanın yeri ve ortamı: Ülke, sağlık sistemi, primer, sekonder ya da tersiyer sağlık kuruluşundan hasta seçimi, katılan merkezlerin ve klinisyenlerin seçimi
- Hastaların seçimi: Dahil etme ve dışlama kriterleri, çalışmaya alma ya da çalışmadan çıkarma süresi, zenginleştirme stratejileri, randomize hastaların uygun nonrandomize hastalara oranı
- Randomize edilen hastaların özellikleri: Hastalığın doğal seyrine göre evreleri ve ciddiyetleri, komorbiditeler, ırk, diğer bazal klinik özellikler
- Çalışma protokolü ve rutin pratik arasındaki farklar: Kontrol olarak kullanılan müdahalenin uygunluğu, eşlik eden tedavi ve müdahaleler, çalışma dışı bazı tedavilerin engellenmesi, çalışmanın yapıldığı zamandan bu yana olan tanısal ve terapötik ilerlemeler
- Sonuç ölçümü ve takip: Sonuçların klinik olarak uygunluğu (temsili sonuçlar, kompleks ölçekler, bileşik sonuçlar, vs), takip sıklığı, takip süresinin yeterliliği
- Tedavinin yan etkileri: Yan etkilerin tam olarak bildirilmesi, tedaviyi bırakma sıklığı, seçilen merkezlerin ve(ya) klinisyenlerin beceri ve tecrübesi, komplikasyon riski olan hastaların dışlanması, hasta alımı döneminde yan etki görülen hastaların dışlanması, çalışma güvenlik prosedürlerinin yoğunluğu
Klinik ortam hiçbir zaman çalışma ortamının aynısı olmayacaktır. Hastanız çalışmaya katılan hastalardan farklı özellikler taşıyacaktır. Bu farklılıklar tedaviden daha az fayda görmesine neden olabilir. Bu farklılıkların gerçekten tedavi etkisini azaltıp azaltmadığı, yan etki riskinde büyük bir artışa yol açıp açmadığı araştırılmalıdır. Yani sorulması gereken soru şudur: "Benim hastam, sonuçları uygulamamı engelleyecek derecede çalışmaya alınan hastalardan farklı özellikte midir?"
Yan etkilerin göz önüne alınması
Herhangi bir çalışmanın sonuçları hastaya uygulanmadan önce hastaya verilebilecek zarar göz önüne alınmalıdır. RCT'lerde yan etkiler, etki bildirimlerinden daha az dikkat çekmektedir ve çoğunlukla bunlar hakkında yeterli bilgi verilmemektedir.
Her gruptaki yan etki sıklığına (ya da NNH'ye) bakmak tedavinin risklerini değerlendirmeye yardımcı olur. Ancak çalışmalar gruplar arası yan etki farklılığını tespit edecek güçte tasarlanmamaktadır. Beklenmeyen yan etkilerin oluş sıklığındaki farklılıkları belirlemek için hasta sayıları genelde yetersiz kalmaktadır. Bu yüzden bazı yazarlar klinik etkinlik çalışmalarında primer güvenlik sonucu olarak kullanılabilecek bir bileşik sonuç sepeti oluşturulmasını önermektedir.

Hiç yorum yok:

Yorum Gönder