Yapay zekâ ve protein katlanması -Ezgi Karaca ile söyleşi

Bilim Akademisi

3 yıl önce

30 Kasım 2020’de bilim dünyasını çalkalayan ve basına da yansıyan bir gelişme oldu. Bir yapay zekâ sistemi olan Alphafold, biyolojinin önemli problemlerinden biri olan protein katlanma probleminin çözümünde beklenmedik bir başarı gösterdi.

Olayın gerçekleştiği yarışmanın hakemlerinden biri olan Ezgi Karaca’yla, problemi, önemini, çözümü, ekibi ve yarışmanın perde arkasını konuştuk. Açık bilimin önemini, neden akademinin yıllardır uğraştığı bu problemde özel bir şirketin başarı sağlayabildiğini, yarışmada nasıl tartışmalar gerçekleştiğine de değindik.

Ezgi Karaca, İzmir Biyotıp ve Genom Merkezi’nde Araştırma Grup Lideri, Dokuz Eylül Üniversitesi’nde öğretim üyesi ve aynı zamanda BAGEP 2020 sahibi. Moderatör: Defne Üçer-Şaylan (sarkac.org)

Sohbetten alıntılar:

Protein katlanması nedir, neden önemlidir?
Genomumuzda vücudumuzda olacak olayların bilgisi kodlu. Bu bilginin, büyük bir parçası da aslında vücuttaki işlevleri yerine getirecek protein makinalarının, bunları küçük nano makinalar gibi düşünebiliriz, nasıl bir sekansı ve yapısı olması gerektiğine dair bilgiyi içerir. Yani bu genomun içinde, belirli bir düzen içinde, dört değişkenli bir şifre var. Deşifre ettiğimizde, bunun bir kısmında vücuttaki olayları yönlendiren, bu işlevleri gerçekleştiren moleküllerin kodunun olduğunu görüyoruz. Bu kod lineer bir kod. Protein molekülleri 20 tane aminoasitten oluşabiliyor, bunların farklı kimyasal değişime uğramış, farklı formları da olabilir. Genomda baktığımızda bu 20 aminoasit, örnek veriyorum bizim vücudumuzdaki enerjiyi sentezleyecek makinanın içindeki bir parça. Bakıyoruz genomdaki sekansına, bu 20 aminoasit, birinci, beşinci, sekizinci vesaire.. belirli bir mantık içinde dizilmiş. Bu dizinin formu, işlevi gerçekleştirecek proteinin yapısına nasıl döndüğünü anlamamız gerekiyor. Bunu nasıl bileceğiz?

Bunu bilmemizin en temel yolu tabi ki deneyle anlamak olur. […] Ancak deneysel olarak bu, anlaması çok zor bir problem. Deney tekniklerinin limitlerini aşıyor. Yaklaşık 30 yıl önce şöyle bir fikir ortaya çıkıyor: Biz bunu bilgisayarda kodlayarak anlayabilir miyiz? Biz aminoasit sekansından başlayacağız, o sekanstan başlayarak aşağıya doğru neler oluyorsa biz o proteinin katlanmış üç boyutlu halini tahmin edeceğiz. Amaç bu ama bunu gerçekten yapabilir miyiz? Yaklaşık 30 yıldır bu soruya cevap aranıyor ve bu sorunun cevaplandığı düşünüldüğü için şu anda, geçtiğimiz Pazartesi günü dünyanın en önemli bilimsel dergilerinde bununla ilgili haberler çıktı. Türkiye’de haberler çıktı. Gerçekten büyük bir aşamaydı bu bizim alanımız için. Hepimiz heyecanlıyız yani.

Neden bu kadar zor peki, nasıl çözmeye çalışıyorlar bu problemi?
Bir benzetme ile anlatmaya çalışayım. Çok basit herhangi bir makina ele alalım, mesela filtre kahve makinası olabilir, (az önce kahve yaptığım için..) Kahve makinasına baktığımız zaman filtre konacak bir yeri var, altında kahvenin aktığı çaydanlık üstü gibi şey var, suyu ısıtan kısmı var. Bunu parçalara ayırdığımız zaman her parçasının kendine göre bir şekli var ve bu şeklin bir anlamı var. Mesela filtreyi koyduğunuz yer koni gibi. Neden? Çünkü suyu bir şekilde toplayıp daha sonra süzmesi gerekiyor. Altındaysa damlamasını engelleyen bir şey var… Aslında bunu hayal etmek güç ama hücrenin içerisinde baktığımızda da aynen filtre kahve makinası gibi şekli fonksiyonunu anlatan küçük küçük, nano boyutta on üzeri eksi 10 metre boyutunda moleküler makinalar var. Bu 20 aminoasitin kullanıldığı ve belirli bir forma gelen, belirli bir şekli olan büyük moleküller yani proteinler bir araya geliyor, aynı kahve makinasındaki gibi bir fonksiyon gösteriyor ve işi bittiği zaman da hücre içinde parçalanma oluyor. Makinamız eskidiğinde geri dönüşüme, tamire veya birine vermemiz gibi. Bizim alanımızda, yani yapısal biyoloji alanında, biz bu formu görebiliyoruz. Bu formun, fonksiyonu nasıl anlattığını kavramaya çalışıyoruz. Temelde yaptığımız şey bu. Şimdi böyle anlattığımda neden bu zor olsun ki gibi bir düşünce oluşabilir ama bu formu anlamak çok zor! Neden? Çünkü biz aslında birincil diziden, yani aminoasit sekans dizisinden, proteinin bu forma geçmesini sağlayan fiziksel güçlerin tanımını tam olarak yapamıyoruz. Yani şu andaki bilimin geldiği noktada biz bir fizik fenomenini yüzde yüz, çok doğru bir şekilde açıklayamıyoruz. Açıklayamadığımız için de birinci sekanstan, o üç boyutlu forma, (yani o koniye), nasıl geliyor, bilmiyoruz. Bu bizim için bir soru işareti. Bu birinci şey, yani yeterli bir fiziksel bilgimizin olmaması…

Yapay zekâ işin içine girmeden evvel nasıl çözülmeye çalışılıyordu bu problem?Ondan önce bilinen fiziksel fenomen bilgileriyle çözmeye çalışıldı bu problem. Mesela 20 aminoasitin hepsinin bir özelliği var. Bir aminoasit suyla temas etmeyi sevmez, sudan kaçar; başka bir aminoasitin net bir artı yükü vardır, mıknatısın bir ucu gibi eksi yüklü öbür amino asiti çekmek ister. Bu tarz özellikleri olan bu aminoasitleri biz aslında bilgisayarın içinde bir formül ile kodlayarak, şunları takip ederek katlamaya çalıştık yıllardır: Tamam o zaman, sudan kaçanlar bir araya gelsin, suyu sevenler dışarıya dönsün. Yükleri birbirine zıt olanlar mıknatıs gibi birbirini çeksin… Biz bu bilgileri kodlayarak çözmeye çalıştık, ancak fiziksel fenomenin kendisini tam olarak anlayamadığımız için aslında teknik olarak, bizim bilgisayara kodladığımız şey de hep basit bir seviyede kaldı. Kötü anlamda değil bu. Bazen basit modeller çok doğru yerlere götürebilir bizi, karmaşık detaylardan uzaklaştığımız için […] Dolayısıyla uzun seneler ileri gidildi gidildi gidildi ama bir platoya erişildi ve o erişilen yerde yapar zekâ resme girdi ve olayın rengi tamamen değişti.

AlphaFold’un yaklaşımı nedir?
Geçtiğimiz 30-40 yıl içinde bizim alanımızda şöyle bir gelişme oldu: Bu protein yapıları ve protein kompleksi yapıları, moleküler makina yapıları, bunlar hiç belirlenemeyen şeyler değil, yapıların bazılarını biz deneyle anlayabiliyoruz, görebiliyoruz. Sadece o yapıya nasıl gittiğini anlayamıyoruz. Bu yapıların hepsi aslında bildiğimiz üç boyutlu koordinat. Bu koordinat içinde ne var? Atomların birbirlerine olan uzaklıkları var. Sonuçta bir aminoasitin içinde karbon var, oksijen var, vesaire. Şunu biliyoruz, deneycilerin bize verdiği şey: Şu aminoasitler uzayda şu kadar yakındır, bunlar bu kadar yakındır. Yani böyle bir inşaat mühendisinin veya bir mimarın yapı iskeletine baktığı gibi, biz de protein moleküllerinin ve komplekslerinin iskeletine açıp bakabiliyoruz. Tüm bu koordinat bilgisi, bütün dünyada toplanan koordinat bilgileri, bütün dünyanın erişebildiği bir merkezi veri bankasında toplanıyor ve tüm araştırmacılar buna erişebiliyor. Özel şirketlerin yayınlamayı tercih etmediği yapılar dışında. Akademisyenlerden, akademik çalışmalardan bahsediyorum. Burada bizim, herhangi birinin, benim bu alanda çalışanların yaptığı şey ilgilendiğimiz bir protein varsa, o veri bankasına bakıyoruz. Koordinatlarını indiriyoruz ve yapıyı inceliyoruz. AlphaFold’un yaptığı şey bu geçtiğimiz 30-40 yılda birikmiş olan bütün bu bilgiyi tarayıp öğrenecek bir yapay zekâ algoritması geliştirmiş olması. Yani en nihayetinde bu yaklaşımın bugün çıkmış, 15 yıl önce çıkmamış olmasının bir sebebi var, çünkü yapısal biyolojide teknoloji ilerledi ve son 10 yılda yapı belirleme tekniklerinin gelişmesiyle çok daha fazla yapı elimizde olmaya başladı… Yapı belirleme problemini, yapay zekâ problemi olarak değerlendirdiğimizde bu aslında bir örüntü belirleme problemine dönüşüyor. Yani o kadar çok bilgi var ki bununla ilgili. […] Aminoasit sekans dizisi bilgisiyle birlikte bu bilgiyi makinaya tanıtırsak, o zaman sekans dizisiyle formun yani fonksiyonun, şeklin nasıl bir ilişkisi olduğunu makinaya öğretebiliriz ve daha sonra bu şekilde yeni sekansları verdiğimizde de makinanın bu şekli tahmin etmesini sağlayabiliriz. Bu AlphaFold’un yaptığı şey bu. Özellikle son yıllarda bunun olabilmesi de yine akademik camianın çalışıp didinerek bir yere koymuş olduğu bilgi ve bunun açık bilgi bankaları tarafından paylaşılması sayesinde.

Bu başarı ne getirecek ve daha neleri yapmaktan uzağız?
Bilimsel olarak ve yaygın bir şekilde uygulanabilir hale geleceğini varsayarak konuşursam, bu başarı bize şunu getirecek: Şimdi bizim aslında temelde yapıyı anlamak istememizin iki sebebi var: Birincisi merak. Nasıl katlanıyor, ne oluyor, bu fonksiyon ne yapıyor… Örnek olarak, temel bir enzim artı doksan derecede yaşayan bir organizmada var, eksi doksan derecede yaşayan başka bir organizmada da var ve bizde de var. Bu enzimlerine yapısına bakıyoruz, yapısı aynı! Bu nasıl olabilir? Bunu anlamaya çalışıyoruz. İkincisi de tabi ki bu herkesi, toplumu insanlığı ve yaşadığımız ekosistemi ilgilendiren kısım: Yapıyı anladığımız zaman hastalıklara çözüm bulabilme hızımızın aşırı artacak olduğunu düşünmemiz. Neden düşünüyoruz bunu? Örnek veriyorum: Şu anda korona virüse karşı pek çok farklı strateji geliştiriliyor. Onlardan biri de korona virüs proteininin hedefini, insandaki hedefini nasıl tanıdığını yapı olarak anlamak ve anladıktan sonra onu bloke edecek bir inhibitör, yani o etkileşimi tamamen kesecek bir inhibitör geliştirmek. Bu mesela yapıyı anlamamızın bize getireceği birincil ve sağlık açısında en önemli implikasyonudur.

Onun dışında başka pek çok şey de var. Örnek olarak kanserde diyelim ki bir mutasyon olduğu için kanser olunduğundan bahsediliyor. Acaba bu mutasyonu, proteinlerin nasıl etkileştiğine, formuna ve fonksiyonuna nasıl bir etkisi olduğunu anlayarak geri çevirebilir miyiz? Veya çok daha ilginç bir alan, şu anda aynı şekilde yapay zekânın oyuna girmesiyle birlikte çok başka bir boyuta taşınmak üzere olan protein tasarımı. Mesela hiç doğada olmayan bir proteini biz bilinen aminoasit patternlerini kararak, karıştırarak yeni bir protein önerebilir miyiz? Örnek veriyorum bu sizin çamaşır makinasında yıkadığınız leke sökücünün içinde olabilir, onu parçalayacak bir enzim yapılabilir 90 dereceye dayanıklı, ya da bambaşka bir şey yapılabilir, mesela arabanız belki kendi kendini yıkayacak. Teknoloji, mühendislik uygulamaları için de kullanılabilir yani… Şu anda değil ama belki 10 yıl içinde yapısal biyolojiyi bir tık uzaklığına getirebilmek, tamamen yepyeni bilimsel alanların teknolojik alanların kapısını açacak. Bir hastalığın tedavisini bulmak bulmak için 15 yıl beklemeyeceğiz, belki beş yıl bekleyeceğiz. Tabi ben iyimser bir insanım onun etkisiyle iyimser konuşuyor olabilirim, ama insanların önemini anlaması açısından bu kadar etkisi olduğunu söylemek isterim. […] Her şey çözülmedi sonuçta, bir şey çözüldü, çözülmeyen şeyler nedir, ne kaldı? Örnek veriyorum tek bir proteninin nasıl katlandığını söyledi bize AlphaFold ama bu katlanmış proteinlerin bir moleküleri makinayı oluşturmak için nasıl bir araya geldiklerini hala bilmiyoruz.