Bilim ve Teknoloji

İstediğiniz Her Şeyi Resmeden Yapay Zeka: DALL-E

Paylaş

Gelişen teknoloji çağıyla birlikte neredeyse ayda bir, makine öğrenimi (machine learning) üzerine makale ve ürün ve proje görmeye başladık. Bu sefer konuşulmaya değer olan çığır açacak OpenAI (yapay-zeka) bir projeyi kaleme alıyoruz: DALL-E.

DALL-E, devasa 12 milyar parametreli yapay sinir ağlarından oluşuyor. Bir metin başlığı yazıldığında (ör. “Avokado şeklinde bir koltuk”) buna uygun görüntüler oluşturuyor:

openai

Kaynak “Openai”

 

Yapay zekanın sıfırdan bunları tasarlamış olması gerçekten de fazlasıyla etkileyici değil mi? Belki de bazılarınız bu avokado sandalyelerden birini satın almak istemiş olabilir. DALL-E’nin en etkileyici tarafı ise uzay-zaman ve mantık düzleminde işlemler yapabiliyor olması. Görsele dönüştürmek istediğiniz metni veriyorsunuz ve saniyeler içerisinde anlamlandırarak sonuçları gösteriyor.

Bu yazıda DALL-E’nin neler yapabildiğini, nasıl çalıştığını, makine öğrenimindeki son trendlere nasıl uyduğunu ve neden önemli olduğunu göreceksiniz.

DALL-E Nedir ve Neler Yapabilir?

Temmuz ayında, DALL-E’nin yaratıcısı olan OpenAI şirketi Op Eds, profesyonel bir insanın elinden çıkmış gibi görünen şiirler, soneler ve hatta bilgisayar kodlamaları da dahil olmak üzere pek çok orijinal metni üretebilen bir yapay zeka yayınladı: GPT-3.

DALL-E, metin komutlarını ayrıştıran ve ardından sözcüklerle değil resimlerle yanıt veren GPT-3’ün doğal bir uzantısı olarak karşımıza çıkıyor.

OpenAI’ın blogundaki bir örnekte görülüyor ki; “iki beyaz koltuklu bir oturma odası ve duvarda bir kolezyum resmi. Resim, modern bir şöminenin üzerine monte edilmiştir” şeklinde bir istekte bulunursanız karşılaşacağınız sonuçlardan bazıları işte böyle görünecek:

 

Kaynak “Openai”

 

Oldukça şık görünüyor, değil mi? Muhtemelen bunun tasarımcılar için nasıl yararlı olabileceğini tahmin etmişsinizdir. DALL-E’nin girilen bilgi metni istemiyle çok sayıda görüntü oluşturabileceğini görülüyor. Resimler daha sonra hangi resimlerin en iyi eşleştiğini belirlemeye çalışan CLIP adlı ikinci bir OpenAI modeline göre sıralanıyor.

DALL-E Nasıl İnşa Edildi?

Maalesef bu konuda henüz pek fazla ayrıntıya sahip değiliz çünkü OpenAI henüz tam bir makale yayınlamadı. Ancak özünde, DALL-E; makine öğrenimindeki tonlarca son gelişmeden sorumlu olan yeni yapay sinir ağları mimarisini kullanıyor: Transformer. 2017’de keşfedilen transformatörler, ölçeklendirilebilen ve büyük veri kümeleri (dataset) üzerinde çalışan yapay sinir ağı modelidir.

Özellikle doğal dil, işleme konusunda devrim niteliğindeydiler. BERT, T5, GPT-3 ve diğerleri bu modellerin temelini oluşturuyorlar. Google Arama sonuçlarının kalitesini, çevirisini ve hatta proteinlerin yapılarını bile tahmin etmede oldukça geliştiler.

Bu büyük dil modellerinin çoğu muazzam metin veri kümeleri üzerinde eğitilmişlerdir. (Wikipedia’nın tamamı veya web taramaları gibi) DALL-E’yi benzersiz kılan şey, kelimelerin ve piksellerin birleşimi olan diziler üzerinde eğitilmiş olmasıdır. Hangi verilerden beslendiğini henüz bilmiyoruz ancak çok büyük bir veri havuzu olduğuna hiç şüphe yok. Büyük ihtimalle yapay-zeka “açıklamalar içeren fotoğraflar” kullanılarak geliştirildi.

DALL-E Neler Yaratabilir?

Sonuçlar ne kadar etkileyici olsa da, yapay zekanın üretimine karşı makine öğrenimi üzerine çalışan mühendisler şüpheyle yaklaşırlar. Çünkü sonuçlar fazlasıyla kaynak materyalden kopyalandığı veya ezberlendiği için gerçekten yüksek kaliteli orijinal bir üretim olup olmadığını sormakta haklılardır.

Yapay zekanın yazılımcıları, DALL-E’nin varolan görüntüleri yeniden kullanmadığını kanıtlanmak için, onu oldukça sıra dışı bazı istemler vermeye zorladı:

“Yüksek kaliteli devasa bir zürafa ve kaplumbağadan oluşan illüstrasyon”

 

Kaynak “Openai”

 

“Arptan yapılmış bir salyangoz.”

 

Kaynak “Openai”

 

Yapay zekanın beslendiği veri havuzunda birçok zürafa-kaplumbağa meleziyle karşılaştığını hayal etmek çok zor. Bu da sonuçları daha etkileyici hale getiriyor.

Dahası, bu garip yönlendirmeler DALL-E ile ilgili daha da büyüleyici bir şeye işaret ediyor. Bu yapay zeka, yaratıcı bir görsel akıl yürütmeyle çalışıyor. Buna “sıfır atışlı görsel akıl yürütme” diyeceğiz.

Sıfır Atışlı Görsel Akıl Yürütme Nedir?

Tipik bir makine öğreniminde yapay zeka, binlerce veya milyonlarca örneklem olan veri havuzu içerisinde model ve kalıpları öğrenir.

Örneğin, köpek cinslerini tanımlayan bir model eğitmek için, yapay zekaya, cinslerine göre etiketlenmiş binlerce köpek resmi gösterebilir ve ardından yeni köpek resimlerini etiketleme yeteneğini test edebiliriz. OpenAI’ın geldiği son durum dolayısıyla artık bu fazlasıyla basit bir görev olmaya başladı.

Sıfır atışlı görsel akıl yürütme ise, modellerin özel olarak yapmak üzere eğitilmedikleri görevleri gerçekleştirme becerisidir. Örneğin, DALL-E, başlıklardan görüntü oluşturmak üzere eğitildi. Ancak aynı zamanda, doğru bir metin istemi ile eskizleri fotoğrafa dönüştürebiliyor:

Kaynak “Openai”

 

DALL-E ayrıca sokaklarda istediğiniz metni içeren tabelalar oluşturabilir:

 

Kaynak “Openai”

 

DALL-E, kafanızdakileri yazıya döktüğünüzde rahatlıkla anlayıp fotoğrafa dökebiliyor. Mekanı, zamanı ve konsepti çözümleyebiliyor. Belki de yapay zeka geliştikçe “İstanbul’da gece vakti çekilmiş kokoreç görselleri” diye pekala arama yapabileceğiz. Örneğin “çin yemeği görseli.” dediğinizde çıkan sonuçlar şu şekilde:

 

Kaynak “Openai”

Yapay Zekaya IQ Testi

DALL-E girilen yazı başlıklarıyla güzel bir resim oluşturmaktan çok daha fazlasını yapabiliyor. Başka bir deyişle, sorulara görsel olarak cevap veriyor.

Yazılımcılar DALL-E’nin görsel akıl yürütme yeteneğini test etmek için görsel bir IQ testi yaptırdılar. Aşağıdaki örneklerde yapay zeka, tekrar eden görselin eksik kalan sağ alt köşesini tamamlaması ve cevabı bulması gerekiyordu.

 

Kaynak “Openai”

 

Yazılımcılar, “DALL-E genellikle devam eden basit kalıpları veya temel geometrik akıl yürütmeyi içeren matrisleri çözebilir.” diyor ve ekliyor. “Ancak bazı problemlere diğerlerinden daha iyi sonuçlar verebiliyor. Bulmacaların renkleri tersine çevrildiğinde, DALL-E daha da kötüleşti. Bazen beklenmeyen sonuçlar verebilir.”

Şaşırtıcı ama beklemediğimiz bir sonuç değil. Günümüz teknolojisinin buralara geleceğini tahmin etmek zor olmasa gerek. DALL-E ve GPT-3, derin öğrenmede daha büyük bir temanın iki öncü örneği sayılırlar. Kendi kendini denetleyen ve özgün sonuçlar veren bu yapay zeka modelleri birçok şeyi yapabilir. Üstelik spesifik bir şey üzerine tasarlanmamış olmalarına rağmen.

Şimdilik tasarımcıların yaratıcılık düzeyiyle karşılaştırılabilecek kadar gelişmemiş olabilirler. Belki de karşılaştırmak aptalca bir fikir gibi görünüyor da olabilir. Ancak bütün bunların ötesinde işlerimizi oldukça kolaylaştıracak yeni bir dünyaya hazırlanıyor olmalıyız. Belki de daha kötüsüne, kim bilir?

Yazar: Cenk Demirkıran

Kaynak: Openai

Tags: , ,
En Yaşlı Futbolcu Kazuyoshi Miura Kimdir?
Fütüristik Ses Teknolojisi: Ses Işınlama

En Çok Okunan

Bunlarda İlginizi Çekebilir

Menü