Yukarıdaki iki fotoğrafa bakın ve hangi kedi yavrusunun gerçek olduğunu anlayabilecek misiniz bir düşünün. Bu her iki fotoğraf da internette sıklıkla paylaşılan kedi görüntülerinden birisi gibi duruyor, değil mi? Peki kulaklarını dikmiş, hafif şaşkınca size bakmakta olan bu kedilerden solda olan aslında gerçek değil desek! Bu kedi imgesi, gerçekte tamamen sentetik olarak NVIDIA firmasındaki araştırmacılar tarafından geliştirilen bir yapay zekâ modeli [1] tarafından yaratıldı.
Bu yazımızda bize gerçekliği sorgulatan bilimsel gelişmelere değineceğiz. Nasıl oluyor da bu derece gerçekçi duran imgeleri günümüzde sentezleyebilir hale geldik. Buradaki anahtar kelime “üretici ağlar”.
Bilgisayar programlarınca yaratılan bu tür sentetik imgeler derin öğrenmeye dayalı, biraz daha detaya inecek olursak derin üretici sinir ağları kullanılarak oluşturuluyor. Doğal görüntülerin genelde belli yapısal özellikler içerdikleri (örneğin kedi görüntüsü deyince zihnimizde iki kulağı, iki gözü ve bıyığı olan, belli bir şekle sahip bir hayvan imgesinin canlanması gibi) düşünülürse; bu derin modellerin amaçladıkları şeyin aslında bu görüntüleri temsil eden alt-uzayı öğrenmek olduğunu söyleyebiliriz.
Şöyle ki 256 x 256 boyutlu renkli bir görüntü aslında gösterim açısından 196,608 boyutlu bir vektörden farksız. Bu vektörün her bir bileşeni aslında görüntünün ilgili konumundaki pikselin rengini ifade ediyor. Bir kez üretici bir model eğittiğinizde aslında karmaşık bir dağılım modeli öğrenmiş oluyorsunuz; kedi örneğine geri dönecek olursak burada model olası bütün kedi görüntülerinin piksellerinde ne gibi renkler gözlemlenebilir bunu öğreniyor. Sonrasında eğittiğiniz modeli kullanarak farklı farklı ve gerçekçi duran yeni kedi imgeleri sentezleyebiliyorsunuz (Şekil 1).
Peki derin öğrenmeden kastedilen ne? Yazımızın ana konusunu oluşturan çekişmeli üretici ağları (generative adversarial networks-GAN) [2] anlatmaya başlamadan önce isterseniz bu yapay öğrenme yaklaşımının ne olduğunu sizlere kısaca hatırlatalım. Derin öğrenme, ilhamını insan sinir sisteminde yer alan sinir ağlarından alan “gösterim öğrenme” yaklaşımlarını ifade etmek için kullanılan genel bir terim. Bu devasa modeller, hiyerarşik bir düzen içinde birbirine bağlı ve her biri farklı soyutlama düzeylerinde değişik bilgileri kodlayan çoklu işlem katmanlarından oluşuyor. Bu derin ağ yapısı içinde, her katmandaki hesaplamalar ilgili katmanda yer alan çok sayıda yapay nöron tarafından yönlendiriliyor .
“Çekişmeli üretici ağlar” nedir?
Çekişmeli üretici ağlar, günümüzde sentetik ama gerçekçi görünen imge oluşturan derin üretici ağ modellerinden en popüler olanı. Ian Goodfellow ve diğerleri tarafından ortaya atılan bu derin ağ modelinin önerilmesinin üzerinden sadece 6 yıl gibi kısa bir süre geçmiş olmasına rağmen Şekil 2’den de görülebileceği üzere bu modelin gelişmiş türevlerinin yarattığı sentetik görüntülerin kalitesindeki iyileşme gerçekten şaşırtıcı.
Çekişmeli üretici ağlar, gerçeğinden ayırt edilmesi güç imgeler sentezlemeyi yukarıda değindiğimiz doğal görüntü dağılımlarını bir oyuna dönüştürerek öğreniyor. Bu modellerin eğitimi bir üretici ağ ve bir ayrımsayıcı ağ arasındaki etkileşime dayanıyor (Şekil 3). Bu iki ağ arasında oynanan oyunda her ağın ayrı bir görevi var. Ayrımsayıcı ağ, üretici ağın yarattığı sentetik imgeleri gerçek imgelerden ayırmaya çabalarken; üretici ağ da ayrımsayıcı ağı aldatabilecek derecede gerçekçi sentetik imgeler yaratmaya çalışıyor. Bu ağlardan ilkini sahte resimler yapan bir ressama benzetecek olursak ikincisini ise bir sanat eleştirmeni gibi düşünebiliriz. Üretici ağ zaman içinde ayrımsayıcı ağın yakaladığı anlışlardan kendisine ders çıkararak çok daha eşsiz resimler ortaya çıkarmaya başlıyor diyebiliriz.
Video 1’de aşamalı bir yapı izleyerek düşük çözünürlüklü imgelerden yüksek çözünürlüklü görüntüler sentezleyebilen bir çekişmeli üretici ağ modelinin [5] eğitim sürecine şahit oluyoruz. Görülebileceği üzere üretici ve ayrımsayıcı ağlar arasında yukarıda değinilen oyun oynanmaya başladığında tabi ki ayrımsayıcı ağın işi başlangıçta çok daha kolay. Ancak bir noktada oyun dengeye ulaştığında, üretici ağ artık gerçekçi duran imgeler yaratabilir konuma gelmiş oluyor.
Bu eğitim sürecinin detayları ilginizi çektiyse görüntüler olmasa da 2 boyutlu basit örnek veriler için kendi GAN modelinizi GAN Lab bilgisayar yazılımı ile kendi internet tarayıcınız üzerinde eğitebilirsiniz [7].
Video 1: Aşamalı olarak çalışan bir çekişmeli üretici ağ modelinin [5] eğitimi esnasında oluşturulan sentetik kişi görüntülerinin zamana bağlı değişimi.
Çekişmeli üretici ağlar konusunda son zamanda yaşanan en önemli gelişme imge üretiminde stil ile içerik bilgisini birbirinden ayrıştırılması ve imgenin buna bağlı olarak yaratılması [6]. Aşağıdaki videodan görülebileceği üzere, böylece sentezlenen imgelerin renk düzeni gibi ince veya yüz özellikleri ve göz gibi orta düzey detaylarıyla oynanabildiği gibi poz, saç ve yüz şekli gibi kaba detaylar ise kontrollü biçimde değiştirilebiliyor (Video 2).
Video 2: StyleGAN modeli [6] kullanılarak stil ve içerik ayrıştırılmasıyla elde edilen sentetik imgelere örnekler.
Çekişmeli üretici ağların başarılı uygulama örnekleri
Çekişmeli üretici ağların (daha genel olarak derin üretici ağların) görüntü sentezlemenin ötesinde birçok farklı ilginç uygulaması da ortaya çıkmaya başladı. Aşağıda çeşitli örnekler üzerinden bu modellerin neleri olası kıldığını ele alacağız ve bu modellerin geldiği son noktayı siz okuyuculara aktarmaya çalışacağız.
Görüntü Düzenleme
Hacettepe Üniversitesi Bilgisayarla Görme Laboratuvarı bünyesinde incelediğimiz araştırma konularından birisini öğrenme tabanlı yeni nesil görüntü düzenleme problemleri oluşturuyor. Örneğin, yakın bir zaman önce geliştirdiğimiz ve arkaplanda kendi tasarımımız olan bir çekişmeli üretici ağın yer aldığı sistem [8], bir dış mekân görüntüsünü girdi olarak alıp aynı sahnenin farklı mevsimler (kış, ilkbahar, yaz, sonbahar), farklı hava durumları (açık, yağmurlu, sisli vb.), günün farklı saatleri (gündoğumu, günbatımı, öğlen, gece) gibi farklı koşullardaki hallerini otomatik olarak oluşturabiliyor (Şekil 4).
Google ve MIT Bilgisayar Bilimi ve Yapay Zekâ Laboratuvarı (CSAIL) tarafından geliştirilen GANPaint Studio adlı bir başka sistem ise belli imge sınıflarını sentezlemek için eğitilmiş bir çekişmeli üretici modelini kullanarak girdi görüntüsünde işaretlenen bölgeler üzerinde anlamsal değişikler yapılmasına imkân sağlıyor [9] (Şekil 5). Bu her iki sistemin ortak yanı uzmanlık gerektiren olması dışından normalde çok zaman alıcı olan düzenleme işlemlerini oldukça basitleştirmesi.
Müzik ve Konuşma Sentezi
Çekişmeli üretici ağların kullanım bulduğu uygulama alanlarından bir diğeri müzik ve konuşma sentezi. Sıralı veri olması bakımından görüntülerden yapısal olarak farklılık gösteren bu tür veriler zamansal açıdan bütünlük gerektirdiği için farklı zorluklar içeriyorlar. Google AI tarafından geliştirilen ve müzik aleti notalarının bulunduğu bir veri kümesi üzerinde eğitilen GANSynth modeli, perde ve tını gibi global özellikleri kodlayarak MIDI dosyalarından farklı müzikal performanslar sentezleyebiliyor [10].
GANSynth modelince üretilmiş Bach solo viyolonsel süiti no. 1’in farklı icraları [10].
International Institute of Information Technology (IIIT)’den araştırmacıların gerçekleştirdikleri bir başka yakın tarihli çalışma ise Lip2Wav adı verilen sistem kişilerin videolarını izleyip daha sonra ses içermeyen videolarda sadece dudak hareketlerinden gerçekçi konuşma sesleri üretebiliyor [11] (Video 3).
Video 3: Lip2Wav modelinin dudak okuyarak kişiye özel sentezlediği konuşma örneği [11].
Robotbilim
Robotbilim araştırmacıları geliştirdikleri robotik sistemlerin geliştirimi ve eğitimleri için genellikle benzetim (simulation) ortamları kullanırlar. Ancak bu durum modellerin gerçek dünyada doğrulama ve sağlamalarında istenilen başarımları yakalamaları önünde bir engel teşkil edebiliyor. Bunun ana nedeni, benzetim yazılımlarınca üretilen sentetik verilerin çoğu zaman, gerçek dünyanın karmaşıklığını yakalayamaması. İşte bu noktada derin üretici ağlar bu sentetik verilerin fotogerçekçiliklerin arttırılması için sıklıkla başvurulan bir teknik olarak karşımıza çıkıyor [12] (Video 4).
Video 4: Google’daki araştırmacıların geliştirdikleri GraspGAN modeli ile sentetik veriler ile gerçek dünya verileri arasındaki farkın kapatılması [12]. Solda, benzetim yoluyla üretilen sentetik robot-nesne etkileşim videoları, sağda sahnedeki nesneleri ifade eden etiket görüntüleri ve ortada GraspGAN ile elde edilen ve gölgeleme, ışıklandırma açısından çok daha fotogerçekçi duran halleri.
Temel Bilimler ve Mühendislik
Bilgisayar teknolojileri, günlük hayatlarımıza nüfuz ettikleri gibi uzunca zamandır bütün bilim dallarının vazgeçilmez bir parçası haline gelmiş durumda. Ancak yapay zekâ alanında yaşanan gelişmeler bilimsel yöntemin bir parçası olarak farklı alanlardan bilimsel çalışmaları da etkilemeye başladı. Bu amaçla kullanılan yapay öğrenme tekniklerinin başında üretici modeller geliyor. Bu modeller sayesinde tamamen gözlemlerin kendisinden yola çıkarak ve minimum düzeyde ön bilgi kullanarak fiziksel süreçler öğrenilebiliyor. Sentetik galaksilerin oluşumu [13], yeni molekül ve ilaçların keşfi [14] ve karmaşık nano malzeme tasarımı [15] gibi çalışmalar bu tür çalışmalara örnek olarak verilebilir (Şekil 6).
Dijital Sanat ve Yaratıcılık
Üretici ağlar dijital sanat dünyası içinde de yer bulmaya başlamış durumda. Projelerinde yapay zekâ ve yapay öğrenmeden faydalanan bir sanatçı olan Refik Anadol, bu yazımızda bahsettiğimiz üretici modelleri yaşadığımız dünyayı resmetmek için kullanan sanatçıların başında geliyor [16]. Aşağıda yer verdiğimiz sanat projelerinde Anadol’un doğayı ve kentleri nasıl hayal ettiğini görebilirsiniz.
Video 5-6: Refik Anadol’un çekişmeli üretici ağlar kullanarak yarattığı doğa ve kent imgelerinden oluşturulan sanat videoları [16].
Rotoskop, standart kamera ile çekilmiş bir filmin her film karesinin daha sonra elle işlenerek bir animasyon filme döndürülmesi tekniğine verilen bir isim. Hacettepe Üniversitesi Bilgisayarla Görme Laboratuvarı ve ODTÜ Görüntü İşleme Laboratuvarından çıkan ortak bir çalışma, doğal imgeleri otomatik olarak işleyerek bir çizerin elinden çıkmış bir resme dönüştürüyor [17]. CycleGAN modeline [18] dayanan GANILLA adı verilen bu stil transferi yönteminin bir grup doğal sahne görüntüsünü renk paleti ve görünüm olarak Hayao Miyazaki’nin animasyonlarına nasıl benzettiğini Şekil 7’de görebilirsiniz.
DeepFake ve Sahte Videolar
Her gelişmiş teknolojide olabildiği gibi derin üretici ağların kötüye kullanımı da maalesef söz konusu. Bunun en bilinen örneği, popüler tabirle DeepFake olarak adlandırılan ve gerçeğinden ayırt edilemeyen sahte videolar. Bu videolarda genellikle bir kişinin videosu üzerinde oynamaya gidilerek video içeriği bir başka kişinin görüntüsü ile değiştiriliyor (Video 7).
Daha önce dile getirdiğimiz üzere, geliştirilen yöntemler zorlu görüntü düzenleme işlemlerini önemli oranda basitleştirip otomatikleştirdiği ve neredeyse kusursuz sonuçlar verdiği için ilgili yazılımlar kötü niyetli kişilerin zararlı eylemlerine kapı açıyor. Bu tarz videoların sosyal medya platformlarından paylaşılması yasaklanmış olmasına rağmen kişisel itibarsızlaştırma ve yalan haber olarak kullanımları gelecekte başımızı çok ağrıtacak gibi [19]. Artık internette ve sosyal ağ platformlarında her gördüğümüze inanmamamız gerekiyor. Aslında sahte videoların tespit edilmesi de üzerinde aktif olarak çalışılan araştırma konularından birisi ancak henüz istenilen başarı seviyelerine ulaşıldığını söylemek güç [20].
Video 7: Ctrl Shift Face adlı Youtube kullanıcısının yaptığı bir DeepFake örneğinde Bill Hader konuşurken birden Tom Cruise’a dönüşüyor. (Dönüşüm 01:00’de gerçekleşiyor).
Çekişmeli üretici ağların henüz başaramadıkları
Bu yazımızda çekişmeli üretici ağlara ve bu modellerin farklı alanlardaki çeşitli uygulamalarına değindik. Eklememiz gerekir ki çekişmeli üretici ağlar o tüm başarılarına rağmen hala bazı belirgin kısıtlara sahipler. Bu modeller, doğa veya yüz imgeleri gibi yapısal olarak çok da karmaşık olmayan görsel sınıflar için gerçekten inandırıcı örnekler sentezleyebiliyorlar. Ancak Şekil 8’de görebileceğiniz üzere daha karmaşık görsel sınıflar için en son yaklaşımlardan biri olan BigGAN ile oluşturulan örnekler pek o kadar başarılı değil [21].
Sentezlenen imgelerde dört bacaklı bir deve kuşu, köpek yüzüne sahip bir tenis topu veya en kötü kabuslarımızdan çıkıp gelmiş gibi duran acayip yaratıklar karşınıza çıkabiliyor.
Dolayısıyla bu heyecan verici konuda kat edilebilecek daha çok yol olduğunu rahatlıkla söyleyebiliriz.
Aykut Erdem (Koç Üniversitesi, Bilgisayar Mühendisliği Bölümü)
Erkut Erdem (Hacettepe Üniversitesi, Bilgisayar Mühendisliği Bölümü)
Kaynaklar
[1] Tero Karras, et al., Analyzing and Improving the Image Quality of StyleGAN, CVPR 2020.
[2] Ian J. Goodfellow, et al., Generative Adversarial Nets, NIPS 2014.
[3] Alec Radford, et al., Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks, ICLR 2016.
[4] Ming-Yu Liu and Oncel Tuzel, Coupled Generative Adversarial Networks, NIPS 2016.
[5] Tero Karras et al., Progressive Growing of GANs for Improved Quality, Stability, and Variation, ICLR 2018.
[6] Tero Karras et al., A Style-Based Generator Architecture for Generative Adversarial Networks, CVPR 2019
[7] Minsuk Kahng, et al., GAN Lab: Understanding Complex Deep Generative Models using Interactive Visual Experimentation.” IEEE Transactions on Visualization and Computer Graphics, 25(1) (VAST 2018), Jan. 2019.
[8] Levent Karacan et al., Manipulating Attributes of Natural Scenes via Hallucination, ACM Transactions on Graphics, Article No: 7, February 2020.
[9] David Bau et al., Semantic Photo Manipulation with a Generative Image Prior, SIGGRAPH 2019.
[10] Jesse Engel, et al., GANSynth: Adversarial Neural Audio Synthesis, ICLR 2019.
[11] Prajwal Renukanand, et al., Learning Individual Speaking Styles for Accurate Lip to Speech Synthesis, CVPR 2020.
[12] Konstantinos Bousmalis, et al., Using Simulation and Domain Adaptation to Improve Efficiency of Deep Robotic Grasping, ICRA 2018.
[13] Levi Fussell and Ben Moews, Forging new worlds: high-resolution synthetic galaxies with chained generative adversarial networks, Monthly Notices of the Royal Astronomical Society, 485(3):3203–3214, May 2019.
[14] Nicola De Cao and Thomas Kipf, MolGAN: An implicit generative model for small molecular graphs, ICML 2018 workshop on Theoretical Foundations and Applications of Deep Generative Models.
[15] Yunwei Mao, et al., Designing complex architectured materials with generative adversarial networks, Science Advances, Vol. 6, no. 17, 24 Apr 2020.
[16] Refik Anadol, Kişisel web sayfası: http://refikanadol.com/, Son erişim tarihi: Ağustos 2020.
[17] Samet Hicsonmez et al., GANILLA: Generative adversarial networks for image to illustration translation, Image and Vision Computing, Vol 95., 2020
[18] Jun-Yan Zhu, et al., Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks, ICCV 2017.
[19] William A. Galston, Is Seeing Still Believing? The Deepfake Challenge to Truth in Politics, Brookings, January 8, 2020.
[20] James Vincent, Facebook contest reveals deepfake detection is still an ‘unsolved problem’, Son erişim tarihi: Ağustos 2020.
[21] Andrew Brock, et al., Large Scale GAN Training for High Fidelity Natural Image Synthesis, ICLR 2019.