Bilimsel yayınlarda tekrarlanabilirlik ve P-değeri krizleri: Etik boyut

Fotoğraf: NeONBRAND, Unsplash

Tekrarlanabilirlik krizi 

Bilime güvenin önde gelen ölçütü, bilimsel bir araştırmanın bulgularına, araştırma sahiplerinin ya da başka araştırmacıların aynı veya benzer bir çalışma sonucunda varabilmeleridir. Buna bilimsel bulguların tekrarlanabilirliği diyoruz. Günümüzde belli alanlarda ve değişen ölçeklerde bir tekrarlanabilirlik krizi var[1]Munafò, M. R., Nosek, B. A., Bishop, D. V. M., Button, K. S., Chambers, C. D., Percie du Sert, N., Simonsohn, U., Wagenmakers, E.-J., Ware, J. J., & Ioannidis, J. P. A. (2017). A manifesto for … Devamı ve bu kriz bilime güveni aşındırıyor. Krizi birbiriyle ilintili iki açıdan ele almak mümkün: bilimin teşvik-ödül yapısının günümüzde aldığı şekil açısından ve istatistik metodolojisi, daha spesifik olarak da P-değeri krizi açısından.

Bilindiği gibi, saygınlık, tanınma ve akademik yükselme bilimin başta gelen ödüllerindendir. Bunun yolu da yeni gözlemler, buluşlar, açıklamalar, yorumlar yapmak, ve sonunda, bunları yayın yoluyla bir an evvel duyurmaktır. Bu bilim insanları arasında tatlı-sert bir rekabete neden olur. Ne var ki aynı rekabet son birkaç on yılda görülmemiş ve oldukça da tatsız boyutlara ulaştı, akademik yükselmeler için gereken yayın sayıları bir kaç katına çıktı, nitelikten çok nicelik aranır oldu. Yayın ve atıf sayıları, yayının yer aldığı derginin etki faktörü, yayının kalitesinin önüne geçmeye, “sayıların tiranlığı” hüküm sürmeye başladı,[2]Müller, J. (2018) The tyranny of metrics. Princeton: Princeton University Press.[3]Yurtsever, E. (2020) Sayıların Diktatörlüğüne darbe  https://sarkac.org/2020/03/cinden-sayilarin-diktatorlugune-darbe/[4]Tonta, Y. (2018) Araştırma değerlendirme üzerine, https://sarkac.org/2018/12/arastirma-degerlendirme-uzerine/ yayın baskısı bilim insanlarını bulguları abartmaya, bilimsel metodolojiyi eğip bükmeye, verileri değerlendiren istatistik yöntemleri kötüye kullanmak gibi etik dışı yollara itti.

Bu hiç istenmeyen durum; bilimsel dergilerin okuyucu çekmek için salt istatistik açıdan anlamlı çalışmaları yayımlama iştahları, çarpıcı yenilik fetişizminden dolayı daha önce yapılan bir araştırmayı doğrulayan ya da belli bir hipotezi sınayıp olumsuz sonuç elde eden çalışmayı yayımlamama politikaları ile birleşerek, tekrarlanabilirlik krizinin bir bakıma altyapısını oluşturuyor. Böylece mevcut sistem kötü bilim pratiklerinin adeta nesilden nesile aktarılmasına neden olmakta.[5]Smaldino, P. E., & McElreath, R. (2016). The natural selection of bad science. In Royal Society Open Science (Vol. 3, Issue 9, p. 160384). The Royal Society. https://doi.org/10.1098/rsos.160384  İlaç şirketlerinin desteklediği farmakolojik araştırmalarda bilim insanlarının sık sık yaşadığı çıkar çatışmaları krize katkıda bulunan bir diğer önemli etken. Krizin verdiği zarar açısından geçtiğimiz aylarda ibret verici bir çalışma yayımlandı. Çalışmaya göre, tekrarlanamayan araştırmalar daha çok atıf alıyor.[6]Serra-Garcia, M., & Gneezy, U. (2021). Nonreplicable publications are cited more than replicable ones. In Science Advances (Vol. 7, Issue 21). American Association for the Advancement of Science … Devamı Öyle ki bilimsel nitelik yoksunluğu, bir yerde ve maalesef, daha fazla beğeni nedeni haline gelmiş durumda.

P-değeri krizi

Yukarıda sözünü ettiğimiz tekrarlanabilirlik krizi, açıklamaya çalışacağımız gibi, kaçınılmaz olarak, günümüzde bilim dünyamızı etkileyen bir diğer krizle, bir P-değeri kriziyle koşut gidiyor. P-değeri tartışmalarının harareti son yıllarda çok arttı, ortaya adeta bir P-değeri krizi çıktı diyebiliriz. Öyle ki, iki yıl evvel dünyanın çeşitli yörelerinden önde gelen  800 bilim insanı, P-değerinin en saygın bilim dergilerinde dahi yaygın olarak kullanıldığı şekliyle, belirli bir yüzdeye eşit (genellikle 0,05) veya ondan küçük olduğu zaman araştırma sonuçlarının istatistiksel olarak anlamlı ve dolayısıyla bilimsel olarak geçerli, büyük olduğu zaman ise anlamsız ve bilimsel olarak önemsiz olduğu sonucuna varmaya artık son verilmesini istediler.[7]Amrhein, V., Greenland S, Mcshane B. (2019) Scientists rise up against statistical significance. Nature; 567: 305-7. https://www.nature.com/articles/d41586-019-00857-9

Kanıta dayalı tıp araştırmaları, epidemiyoloji ve klinik çalışma yöntemleri üzerine araştırmalarıyla bilinen Amerikalı bilim insanı J.P. Ioannidis 2005’te “Bilimsel Araştırma Yayınlarının Çoğu Neden Yanlış” başlığıyla yıllar içinde çok ün kazanan bir makale yayımladı.[8]Ioannidis, J. P. A. (2005). Why Most Published Research Findings Are False. In PLoS Medicine (Vol. 2, Issue 8, p. e124). Public Library of Science (PLoS). https://doi.org/10.1371/journal.pmed.0020124 Yazara göre tıp dahil birçok bilim dalının en ünlü dergilerinde yapılmış yayınların sonuçları, bilimsellik adına adeta utanılacak yüzdede güvenilmezdir ve bu güvenilmezliğin temel nedeni de yayımlanan araştırma sonuçlarının, kasıtlı veya kasıtsız, yanlış istatistik yorumudur. İşte bu yanlış istatistik kullanımı tekrarlanabilirlik krizinin önde gelen nedenini oluşturuyor. Bilim dalları arasında tekrarlanabilirlik açısından sorunlu olduğu en çok belgelenerek öne çıkan disiplin psikoloji.[9]Stanley, T. D., Carter, E. C., & Doucouliagos, H. (2018). What meta-analyses reveal about the replicability of psychological research. In Psychological Bulletin (Vol. 144, Issue 12, pp. … Devamı[10]Şencan RS, Sarıbay A. Açık Bilim hareketi. https://sarkac.org/2020/12/acik-bilim-hareketi/  Tıp dalları arasında şampiyonluk ise nörolojik bilimlere ait.[11]Button, K. S., Ioannidis, J. P. A., Mokrysz, C., Nosek, B. A., Flint, J., Robinson, E. S. J., & Munafò, M. R. (2013). Power failure: why small sample size undermines the reliability of … Devamı Psikoloji dalındaki araştırmalarda tekrarlanabilirlik yoksunluğunun en sık görülen nedeni, topluma ilginç gelen bazı varsayımlara dayanan gözlemlerden P-yontması (P-hacking) yöntemiyle dergiye ve okuyucuya ilk bakışta çarpıcı gelecek sonuçlar çıkartmaktır.[12]Head, M. L., Holman, L., Lanfear, R., Kahn, A. T., & Jennions, M. D. (2015). The Extent and Consequences of P-Hacking in Science. In PLOS Biology (Vol. 13, Issue 3, p. e1002106). Public Library … Devamı Nöroloji çalışmalarında ise, özellikle hayvanlarla yapılan deneylerde, denek sayısı genellikle oldukça düşüktür ve böyle düşük denek sayılarına dayanan çalışmaların istatistik anlamlılıklarını belirtmekte kullanılan P-değerleri oldukça oynaktır (fickle P).[13]Halsey, L. G., Curran-Everett, D., Vowler, S. L., & Drummond, G. B. (2015). The fickle P value generates irreproducible results. In Nature Methods (Vol. 12, Issue 3, pp. 179–185). Springer … Devamı Bu iki faktör (P-yontması ve P-oynaklığı) psikoloji ve nöroloji bilim dallarında görülen tekrarlanabilirlik krizinin metodolojik açıdan en önemli nedenlerindendir. Sonuç olarak da bu iki bilim dalıyla ilgili gözlemler tekrarlanabilirlik kriziyle P-değeri krizinin en azından koşut gittiklerinin önemli göstergeleridir.

P-değeri nedir, ne söyler?

İstatistik metodolojisine aşina olmayan okurlar için bir örnek üzerinden anlatalım. Diyelim A hastalığı geleneksel tedaviyle  %50 olasılıkla iyileşiyor. Buna karşın yeni bulunan B ilacının hastalıktan iyileşme oranını %80’e yükselttiği iddia ediliyor. Bunu sınamak amacıyla söz konusu hastalığa yakalanmış, yine diyelim, 200 gönüllü hasta bulunur, bu 200 hasta rassal olarak 100 kişilik iki gruba ayırır,  I. gruba etkinliği sınanacak B ilacını, II. grup hastaya da geleneksel tedaviyi uygularız. Diyelim ki çalışma sonucunda I. grup hastanın 70/100’ünün, II. grup hastanın ise 55/100’ünün iyileştiğini gördük. İki grup arasındaki farkın istatistiksel anlamlılığı açısından P-değerini hesapladığımızda sonuç P=0,03 çıkar. Bu değer geleneksel istatistik anlamlılık eşiği olan 0,05’ten küçük olduğundan, deneyde iki grup arasında gözlenen farkın istatistik açıdan anlamlı olduğu, yani yeni ilacın eskisine göre daha etkili olduğu, sonucuna varılır. Ancak bu sonuç, B ilacının A hastalığında etkili olma olasılığı %97, etkili olmama olasılığı da ancak %3’tür demek değildir. Dediği ise, aynen şöyledir:

B ilacının A hastalığının tedavisinde hiç etkili olmadığını varsaydığımız durumda, aynı sayıda ve tümüyle aynı nitelikte hastada ben bu çalışmayı çok kez tekrarlarsam bu deneylerin en çok %3’ünde ve onlarda da I. ve II. grup arasında da en az ilk çalışmamda gözlediğim fark kadar bir fark gözlerim. Kısaca, %3 olasılık ilacımızın etkili olmama olasılığı değildir, etkili olmadığını varsaydığımız durumda deney sonucunda iki grup arasında ortaya çıkan farkı, sadece şansın etkili olduğu durumda – yani iki grup arasında gerçekte hiç fark olmadığını varsaydığımız (null varsayımı) zaman  –  en yüksek hangi  yüzdede gözleyebileceğimizin olasılığıdır.[14]Greenland, S., Senn, S. J., Rothman, K. J., Carlin, J. B., Poole, C., Goodman, S. N., & Altman, D. G. (2016). Statistical tests, P values, confidence intervals, and power: a guide to … Devamı

Hemen ekleyelim. Çalışmamız  sonucuna dayanarak B ilacının A hastalığına etki edip etmeme olasılığını kestirmenin tek yolu, A hastalığının çalışma öncesi geleneksel tedaviyle iyileşme olasılığını (test öncesi olasılık) göz önüne almaktır. Örneğimizde bu olasılığın %50 olduğunu belirtmiştik. Burada ayrıntısına giremeyeceğimiz ancak oldukça basit bir hesap sonucu – veya bir nomograma bakarak[15]Held, L. (2010). A nomogram for Pvalues. In BMC Medical Research Methodology (Vol. 10, Issue 1). Springer Science and Business Media LLC. https://doi.org/10.1186/1471-2288-10-21 – araştırma sonucunda B ilacının A hastalığını iyileştirmeme olasılığını en az %20, iyileştirme olasılığının ise en fazla %80 olduğunu anlarız.

Teslim etmeli ki P-değeri kulağı oldukça ters gösterir. Esas bilmek istediğimiz şey, P-değerinin verdiği olasılık olmayıp, doğrudan, gerçekleştirilmiş deney sonucunun şansa bağlı olup olmadığıdır. Bu nedenle, çok da haklı olarak, P-değerine yanlış soruya verilen doğru yanıt da denir.[16]Colquhuon, D. The Problem with p-values. https://aeon.co/essays/it-s-time-for-science-to-abandon-the-term-statistically-significant P-değerinin ne anlama geldiği sorusu, herhalde esas olarak bu nedenle olsa gerek, kabaca 100 yıldır belirli aralıklarla alevlenen ve giderek bir yangına dönüşen bir tartışma konusu oldu!

P-değeri ve denek sayısı arasındaki yakın ilişki 

P-değeri yüzyıllar öncesine dayanan büyük sayılar yasasına dayanır. İstatistiğin temeli olan bu yasa “bir toplumdan alınan rassal bir örneğin ortalaması, örnek büyüklüğü arttıkça örneğin alındığı toplumun ortalamasına yaklaşır” der. Bunun ışığında, sezgisel olarak da anlaşılabileceği gibi, P-değeri, herhangi bir çalışmada yer alan denek sayısıyla doğrudan ilişkilidir.  Çok sayıda, örneğin yüzlerce denekle çalışıldığında herhangi bir deneyin iki kolu arasında görülen çok az bir fark istatistik açıdan anlamlı bir P-değeri verebilecek, ancak bulunan bu değerin birçok durumda bilimsel bir önemi olmayacaktır. Öte yandan az sayıda denekle, örneğin bir veya birkaç düzine denekle yapılan çalışmalarda ise anlamsız olarak bulunan P-değeri bilimsel açıdan önemli bir gerçeği yakalayamayabilir; yine denek sayısının yetersiz olduğu durumlarda  anlamlı olarak bulunan bir P-değeri, bir sonraki çalışmada anlamsız çıkabilir (oynak – fickle – P-değeri). Bu da daha evvel söz ettiğimiz tekrarlanabilirlik krizinin metodolojik açıdan başta gelen nedenlerindendir.

P-değerinin kötü kullanımı ve çözüm

P-değeri krizinden çıkışın yolu olarak bugüne dek hep daha etkili bir istatistik eğitimi düşünüldü. Bu yaklaşımda önemli bir eksiklik görüyoruz. Söz konusu krizin bilim etiği boyutuna ya hiç değinilmedi ya da çok az değinildi. Ortalama bir okur veya araştırmacı olmaya yeni soyunmuş bir bilim insanı P-değeriyle ifade edilen istatistik anlamlılığın ne olduğunu tam olarak bilmeyebilir; ancak akademik araştırmacıların, istatistik uzmanlarının ve hele etki faktörleri yüksek dergi yöneticilerinin işin doğrusunu bilmedikleri düşünülemez. Kanımız odur ki söz konusu krizin altında, istatistik eğitim eksikliğine ek olarak, kapsamı ondan da geniş olmak üzere P-değerinin bilinçli kötü kullanımı, dolayısıyla etik bir sorun yatıyor. Fakat bu sadece bireysel bir sorun olarak da görülemez. Zira meselenin, yazımızın başında belirttiğimiz gibi, bilimin teşvik/ödül yapısı ve dergi politikalarıyla ilgili yapısal bir temeli var ve bu bilimin etik normlarını aşındırıyor.

Sistemi sorgulamak ve ödün vermemek önemli

Tüm bunlardan bilimden umudu kestiğimiz sonucu çıkmasın. Unutulmamalı ki bilimde iyi gitmeyen şeyleri ortaya çıkaranlar da bizzat bilim insanları olmalıdır ve olmuştur.  Özünde eleştirel bir faaliyet olan bilimin eleştiri oklarını kendine çevirmesi hatalarından arınmasının en etkili yolu. Nitekim bu yazıda dile getirdiğimiz sorunların çözümü yolunda önemli adımlar da atılmıyor değil.  Giderek daha fazla destek gören açık bilim talep ve pratiği, yani bilimsel veri, protokol ve standartların tüm bilim camiasının erişimine açık olması;[17]Şencan RS, Sarıbay A. (2020) Açık Bilim hareketi. https://sarkac.org/2020/12/acik-bilim-hareketi/ tamamen tekrarlanabilirliğe adanmış dergilerin yayımlanmaya başlaması; Stanford Üniversitesi gibi dünya çapında bir üniversitede araştırmalarda tekrarlanabilirliği yükseltmek amacıyla 2015’te Tekrarlanabilir Nörolojik Bilimsel Araştırmalar Merkezi (The Stanford Center for Reproducible Neuroscience) kurulması; çıkar çatışmalarını önlemek ya da azaltmak amacıyla dergi politikalarındaki değişiklikler bunlar arasında sayılabilir. Olumlu bir örnek de “Sayılabilen her şey saymaya değmez, değecek her şeyi de saymak mümkün olmaz” şiarını benimsemiş görünen Utrecht Üniversitesi’nden. Söz konusu üniversite gelecek yıldan itibaren akademik yükseltmelerde dergilerin etki faktörlerine ve adayların h-faktörüyle dile getirilen atıf sayılarına artık pek kulak asmayacakmış ve bu girişime yakın gelecekte tüm Hollanda üniversitelerinin katılması bekleniyormuş.[18]Woolston C. (2021) Impact factor abandoned by Dutch university in hiring and promotion decisions. Nature. 595(7867): 462. https://www.nature.com/articles/d41586-021-01759-5 Darısı diğer üniversitelerin başına diyelim.

Bu yazıda dile getirmeye çalıştığımız sorunlar, bir yerde, güncel gerçeklik ötesi (post-truth) kültürünün bilime de bulaşmasının bir yan ürünü olabilir ve doğaldır ki etik dışı uygulamalara  bilim çevrelerinin gerekli etik tepkiyi vermeleri beklenir.

Esef ve hayretle izledik. Avrupa Bilimler Akademisi Mart 2021’de Bilimsel araştırmada dürüstlük: Akademik kariyere yeni başlamış araştırıcıları, etik dışı bilimsel davranışlarla karşılaştıklarında nasıl destekler ve koruruz? (Research integrity: how can we support and protect early-career researchers in cases of scientific misconduct?) konulu bir webinar (internet üzerinden toplantı) düzenledi. Toplantıya çoğunluğu Avrupa’dan gerek genç gerekse de yaşlı başlı ve ünlü bilim insanları katıldılar. İki saat boyunca bilim etiğinin güncel niteliği konusunda ibret verici bir konuyu tartıştılar.[19]Webinar on ‘Research integrity: how can we support and protect early-career researchers in cases of scientific misconduct?’ Academia Europaea Cardiff Knowledge Video: … Devamı Efendim, eğer bu genç araştırıcılar yanlarında çalıştıkları kıdemli ve anlı şanlı bilim insanlarının bilimsel açıdan etik dışı davranışlarını gözlerlerse, kendi kariyerlerine ve çalıştıkları kuruma zarar vermeden, nasıl bir yol izlemeliymişler? Doğru okudunuz. Koca Avrupa Bilimler Akademisi, ciddi ciddi oturmuş, “arsıza arsız, hırsıza hırsız nasıl denmeli?”’yi tartışıyordu. Tekrarlanabilirlik ve aralarında nedensellik boyutunun da olduğunu savunduğumuz P-değeri  krizlerinin baskın etik boyutları olduğuna inanıyorsak, olabildiğince yalın bir şekilde Hırsıza hırsız, arsıza arsız diyebilmek, bilimsel yöntem eğitiminin kapsamına ivedi girmelidir.

Hasan Yazıcı (İç Hastalıkları (Romatoloji) Emekli Emekli Öğretim Üyesi, İstanbul Üniversitesi Cerrahpaşa Tıp Fakültesi; Bilim Akademisi Üyesi)
Gürol Irzık (Sabancı Üniversitesi Felsefe Öğretim Üyesi; Bilim Akademisi Üyesi)

Faik Kurtulmuş, Defne Üçer Şaylan ve Müsemma Sabancıoğlu’na eleştiri ve önerileri için teşekkür ederiz.


Creative Commons LisansıBu eser Creative Commons Atıf-GayriTicari 4.0 Uluslararası Lisansı ile lisanslanmıştır. İçerik kullanım koşulları için tıklayınız.


Notlar/Kaynaklar

Notlar/Kaynaklar
1 Munafò, M. R., Nosek, B. A., Bishop, D. V. M., Button, K. S., Chambers, C. D., Percie du Sert, N., Simonsohn, U., Wagenmakers, E.-J., Ware, J. J., & Ioannidis, J. P. A. (2017). A manifesto for reproducible science. In Nature Human Behaviour (Vol. 1, Issue 1). Springer Science and Business Media LLC. https://doi.org/10.1038/s41562-016-0021
2 Müller, J. (2018) The tyranny of metrics. Princeton: Princeton University Press.
3 Yurtsever, E. (2020) Sayıların Diktatörlüğüne darbe  https://sarkac.org/2020/03/cinden-sayilarin-diktatorlugune-darbe/
4 Tonta, Y. (2018) Araştırma değerlendirme üzerine, https://sarkac.org/2018/12/arastirma-degerlendirme-uzerine/
5 Smaldino, P. E., & McElreath, R. (2016). The natural selection of bad science. In Royal Society Open Science (Vol. 3, Issue 9, p. 160384). The Royal Society. https://doi.org/10.1098/rsos.160384
6 Serra-Garcia, M., & Gneezy, U. (2021). Nonreplicable publications are cited more than replicable ones. In Science Advances (Vol. 7, Issue 21). American Association for the Advancement of Science (AAAS). https://doi.org/10.1126/sciadv.abd1705
7 Amrhein, V., Greenland S, Mcshane B. (2019) Scientists rise up against statistical significance. Nature; 567: 305-7. https://www.nature.com/articles/d41586-019-00857-9
8 Ioannidis, J. P. A. (2005). Why Most Published Research Findings Are False. In PLoS Medicine (Vol. 2, Issue 8, p. e124). Public Library of Science (PLoS). https://doi.org/10.1371/journal.pmed.0020124
9 Stanley, T. D., Carter, E. C., & Doucouliagos, H. (2018). What meta-analyses reveal about the replicability of psychological research. In Psychological Bulletin (Vol. 144, Issue 12, pp. 1325–1346). American Psychological Association (APA). https://doi.org/10.1037/bul0000169
10 Şencan RS, Sarıbay A. Açık Bilim hareketi. https://sarkac.org/2020/12/acik-bilim-hareketi/
11 Button, K. S., Ioannidis, J. P. A., Mokrysz, C., Nosek, B. A., Flint, J., Robinson, E. S. J., & Munafò, M. R. (2013). Power failure: why small sample size undermines the reliability of neuroscience. In Nature Reviews Neuroscience (Vol. 14, Issue 5, pp. 365–376). Springer Science and Business Media LLC. https://doi.org/10.1038/nrn3475
12 Head, M. L., Holman, L., Lanfear, R., Kahn, A. T., & Jennions, M. D. (2015). The Extent and Consequences of P-Hacking in Science. In PLOS Biology (Vol. 13, Issue 3, p. e1002106). Public Library of Science (PLoS). https://doi.org/10.1371/journal.pbio.1002106
13 Halsey, L. G., Curran-Everett, D., Vowler, S. L., & Drummond, G. B. (2015). The fickle P value generates irreproducible results. In Nature Methods (Vol. 12, Issue 3, pp. 179–185). Springer Science and Business Media LLC. https://doi.org/10.1038/nmeth.3288
14 Greenland, S., Senn, S. J., Rothman, K. J., Carlin, J. B., Poole, C., Goodman, S. N., & Altman, D. G. (2016). Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations. In European Journal of Epidemiology (Vol. 31, Issue 4, pp. 337–350). Springer Science and Business Media LLC. https://doi.org/10.1007/s10654-016-0149-3
15 Held, L. (2010). A nomogram for Pvalues. In BMC Medical Research Methodology (Vol. 10, Issue 1). Springer Science and Business Media LLC. https://doi.org/10.1186/1471-2288-10-21
16 Colquhuon, D. The Problem with p-values. https://aeon.co/essays/it-s-time-for-science-to-abandon-the-term-statistically-significant
17 Şencan RS, Sarıbay A. (2020) Açık Bilim hareketi. https://sarkac.org/2020/12/acik-bilim-hareketi/
18 Woolston C. (2021) Impact factor abandoned by Dutch university in hiring and promotion decisions. Nature. 595(7867): 462. https://www.nature.com/articles/d41586-021-01759-5
19 Webinar on ‘Research integrity: how can we support and protect early-career researchers in cases of scientific misconduct?’ Academia Europaea Cardiff Knowledge Video: http://aecardiffknowledgehub.wales/2021/03/24/webinar-on-research-integrity-supporting-early-career-researchers-in-cases-of-alleged-scientific-misconduct/,  Brifing: https://aecardiffknowledgehub.wales/wp-content/uploads/2021/05/Briefing-Research-integrity-FINAL.pdf