İçindekiler dizini

Yapay Zekanın Akıl Almaz 5 Sırrı: Bildiğinizi Sandığınız Her Şeyi Unutun

1.1       Giriş: Yapay Zekanın Ardındaki Şaşırtıcı Mantık

Yapay Zekanın Akıl Almaz 5 Sırrı adlı bu yazıda; Yapay zeka, artık hayatımızın ayrılmaz bir parçası. Google Translate ile anında çeviri yapıyor, chatbot’lar ile müşteri hizmetleri sorunlarımızı çözüyoruz. Bu araçlar o kadar yaygınlaştı ki, nasıl çalıştıklarını pek sorgulamıyoruz. Peki, bir bilgisayarın bir dili “anlaması” veya bir soruyu “cevaplaması” gerçekte ne anlama geliyor? Bu teknolojilerin temelindeki mantığın, insan düşüncesinden çok daha farklı ve çoğu zaman şaşırtıcı olduğunu hiç düşündünüz mü?

Bu makaleyi Spotify’da sesli olarak dinlemek için podcast’ine bu linkten ulaşabilirsiniz.

Bu yazıda, sadece zekice değil, aynı zamanda zarif bir şekilde sezgilerimize aykırı olan beş fikrin ardındaki perdeyi aralayacağız. Bunlar, yapay zekanın insan mantığını taklit etmeyi bırakıp zekaya giden kendi, çoğu zaman daha üstün yolunu çizmesini sağlayan kavramlardır. Bu sırlar, yapay zekanın sadece karmaşık kodlardan ibaret olmadığını, aynı zamanda problemlere insan zekasından tamamen farklı yollarla yaklaşan bir “düşünce” biçimi olduğunu gösteriyor.

Bu makaleyi Youtube’da görüntülü olarak izlemek için videosuna bu linkten ulaşabilirsiniz.

1.2       En Zeki Sistemlerin Arkasındaki ‘Saf’ Varsayım

Bir metni analiz eden bir yapay zekanın, dilin karmaşık yapısını anladığını varsayabiliriz. Ancak en etkili metin sınıflandırma sistemlerinden bazıları, tam tersi bir yaklaşımla çalışır: “Kelime Torbası” (Bag of Words) modeli. Bu modelde, bir metin dilbilgisi veya kelime sırası tamamen göz ardı edilerek, sadece içinde geçen kelimelerin bir koleksiyonu olarak ele alınır.

Bu modeli kullanan en yaygın algoritmalardan biri, spam tespiti gibi görevlerde kullanılan Naif Bayes sınıflandırıcısıdır. Algoritmanın kalbinde “naif varsayım” olarak bilinen şaşırtıcı derecede basit bir fikir yatar: Model, bir metindeki her kelimenin diğer tüm kelimelerden tamamen bağımsız olduğunu varsayar. Bu varsayım bariz bir şekilde yanlıştır; “silikon” ve “vadisi” kelimeleri gerçek dilde birbirinden bağımsız değildir. Ancak bu yanlışı kabul etmek, hesaplamaları inanılmaz derecede basitleştirir ve hızlandırır. Elbette bu “saf” yaklaşımı gerçek dünyada sağlam kılmak için, test verilerinde karşılaşılan ancak eğitim verilerinde hiç görülmemiş kelimelerin sıfır olasılık sorununa yol açmasını önleyen “Katkısal Düzeltme” gibi akıllıca istatistiksel düzeltmeler gerekir. Bu, yapay zekadaki temel bir mühendislik değiş tokuşunu örneklendirir: pratik verimlilik ve hız için teorik mükemmellikten ödün vermek. Bazen daha “aptalca” bir varsayım, daha akıllı bir sistemin temelini oluşturur.

Eğer kelimeler hakkında “aptalca” bir varsayım yapmak verimliliğin kapısını aralıyorsa, bir sonraki sır yapay zekanın kelimelerin anlamını geometrik bir uzayda haritalandırarak basit bir sayımdan ilişkileri anlamaya nasıl geçtiğini ortaya koyuyor.

1.3       Kelimelerle Matematik: Kral – Erkek + Kadın = Kraliçe

Yapay zekanın dili işleyebilmesi için kelimelerin sayılarla temsil edilmesi gerekir. “One-Hot” kodlama gibi ilk yaklaşımlar, her kelime için devasa ve verimsiz vektörler yaratıyor ve “kitap” ile “roman” gibi anlamsal olarak yakın kelimeleri tamamen ilişkisiz görüyordu. Bu, kelimeleri anlamsız jetonlar olarak ele almaktan farksızdı.

Bu soruna çözüm olarak geliştirilen “Dağıtılmış Temsil” (Distributed Representation) kavramı ve Word2Vec gibi modeller, bir devrim yarattı. Bu modeller, bir kelimeyi etrafında kullanılan diğer kelimelere (bağlamına) göre çok boyutlu bir vektör uzayında konumlandırır. Bu yaklaşımın gücü, anlamı bir haritaya dönüştürmesidir. Bu uzayda, anlamsal olarak benzer olan “kahvaltı” ve “öğle yemeği” gibi kelimeler doğal olarak birbirine yakın kümelenir.

Ancak asıl sihir, araştırmacıların bu vektörlerin kelimeler arasındaki analojileri yakaladığını keşfetmesiyle ortaya çıktı. Vektörler üzerinde basit matematiksel işlemler yapmak, şaşırtıcı derecede mantıklı sonuçlar veriyordu. “Kral” vektöründen “Erkek” vektörünü çıkarıp “Kadın” vektörünü eklemek gibi basit bir matematiksel işlemin sonucu, tek bir kavrama inanılmaz derecede yakın bir vektör üretti:

“Queen (kraliçe)”

Bu, makine öğreniminin kelimeleri anlamsız jetonlar olarak görmekten, ilişkileri olan kavramlar olarak ele almaya geçtiği felsefi bir sıçramaydı. Yapay zeka artık sadece anahtar kelimeleri eşleştirmiyor; kavramların yön ve mesafeye sahip olduğu geometrik bir anlam haritasında geziniyordu. Anlam, artık bir sayıya dönüştürülmüştür.

Kavramları anlamak bir şeydir, ancak bu anlayışı kullanarak eyleme geçmek ve zamanla daha iyi kararlar almak tamamen başka bir zorluktur. Bir sonraki sır, yapay zekanın bu çok insani öğrenme ikilemiyle nasıl başa çıktığını inceliyor.

1.4       Yapay Zekanın İnsan Benzeri İkilemi: Keşfetmek mi, Sömürmek mi?

“Pekiştirmeli Öğrenme” (Reinforcement Learning), bir yapay zeka “ajanının” deneme yanılma yoluyla öğrendiği bir alandır. Ajan, belirli eylemler gerçekleştirdiğinde ödül veya ceza alır ve zamanla en yüksek ödülü getirecek stratejiyi öğrenir. Ancak bu süreç, ajanı temel ve çok insani bir ikilemle karşı karşıya bırakır: “Keşif ve Sömürü” (Exploration and Exploitation) gerilimi.

Bu ikilemi basit bir analojiyle düşünebiliriz: Her zaman gittiğiniz ve sevdiğinizden emin olduğunuz restorana mı gitmelisiniz (sömürü), yoksa daha iyi olabilecek ama hayal kırıklığı yaratma riski de taşıyan yeni bir restoranı mı denemelisiniz (keşif)? Ajan da sürekli olarak bu kararı vermek zorundadır. Bildiği en iyi hamleyi tekrar tekrar yaparak garantili bir ödül mü almalı, yoksa daha büyük bir ödüle yol açabilecek bilinmeyen bir hamleyi mi denemeli?

Bu, yapay zeka için felsefi bir problem değil, çözülmesi gereken temel bir teknik zorluktur. Mühendisler bu dengeyi kurmak için “Epsilon Açgözlü Algoritması” (Epsilon Greedy Algorithm) gibi pratik çözümler geliştirmiştir. Bu algoritmada ajan, zamanın büyük bir bölümünde (1-epsilon olasılıkla) en iyi bildiği eylemi yaparak bildiklerinden faydalanır (sömürü), ancak küçük ve tanımlı bir olasılıkla (epsilon) tamamen rastgele bir eylem seçerek yeni olasılıkları araştırır (keşif).

Öğrenme ve karar verme arasındaki bu hassas denge, yapay zekanın karmaşık görevlerde ustalaşmasını sağlar. Ancak bir cümlenin anlamını kavramak gibi görevler, tek bir doğru hamleden daha fazlasını gerektirir; bütünsel bir bakış açısı ve odaklanma yeteneği ister.

1.5       Çeviri Yapay Zekasının Süper Gücü: Geriye Dönüp ‘Odaklanma’ Yeteneği

Eski nesil makine çevirisi sistemleri, Tekrarlayan Sinir Ağları (RNN’ler) tabanlı bir “Kodlayıcı-Kod Çözücü Mimarisi” kullanıyordu ve önemli bir kısıtlamayla karşı karşıyaydı. Kodlayıcı (Encoder), çevrilecek cümlenin tamamını okuyup anlamını tek bir sabit boyutlu vektörde (son gizli durum) sıkıştırmak zorundaydı. Bu vektör, Kod Çözücü (Decoder) için tek bilgi kaynağıydı ve özellikle uzun cümlelerde bir darboğaz oluşturuyordu. Cümlenin başındaki önemli bilgiler, sona gelindiğinde kaybolabiliyordu.

Bu sorunu çözen çığır açıcı fikir “Dikkat Mekanizması” (Attention Mechanism) oldu. Bu mekanizma, çeviri modeline insan benzeri bir yetenek kazandırdı: odaklanma. Dikkat mekanizması, Kod Çözücü’nün her kelimeyi üretirken Kodlayıcı’nın tek bir özetine bağımlı kalmasını engeller. Bunun yerine, çevrilmiş cümleyi kelime kelime oluştururken, her adımda orijinal cümlenin tüm gizli durumlarına “geri dönüp bakar” ve o an ürettiği kelime için orijinal cümlenin hangi kısımlarının en önemli olduğuna karar verir. Örneğin, cümlenin sonundaki bir sıfatı çevirirken, dikkat mekanizması modelin cümlenin başındaki ilgili isme odaklanmasını sağlar.

Bu tek fikir, modelin bilgiyi tek bir yerde sıkıştırma zorunluluğunu ortadan kaldırdı ve makine çevirisinin doğruluğunu ve kalitesini çarpıcı bir şekilde artırdı.

Dikkat mekanizması, bir modelin sıralı bilginin en ilgili kısımlarına odaklanmasına izin vererek devrim yarattı. Peki ya bir modelin her şeyi aynı anda görmesi ve her parçanın diğer her parçayla olan ilişkisine odaklanması gerekseydi? Bu fikir, modern yapay zekanın temelini atacaktı.

1.6       Modern Yapay Zekayı Ateşleyen Devrim: Her Şeyi Aynı Anda Görmek

Tekrarlayan Sinir Ağları (RNN’ler), dili bizim gibi işler: kelime kelime, sıralı bir şekilde. Bu sıralı yapı, dilin doğasına uygun görünse de büyük bir dezavantaj yaratır: yavaşlık. Bir kelimeyi işlemek için bir önceki kelimenin işlenmesinin bitmesi gerekir, bu da modern donanımların paralel işlem gücünden tam olarak faydalanmayı imkansız kılar.

İşte bu noktada, modern yapay zekayı şekillendiren Transformer mimarisi devreye girdi. Transformer’ın temelindeki devrimci fikir, sıralı işlemeyi tamamen terk etmesidir. Transformer, bir cümlenin her kelimesini aynı anda, paralel olarak işler. Peki, sıralı işlemeyi terk edip kelime sırasını nasıl korur? Cevap iki parçalıdır. İlk olarak, kelimeler işlenmeden önce, her kelimenin vektörüne o kelimenin cümledeki konumunu temsil eden bir “Konumsal Kodlama” (Positional Encoding) vektörü eklenir. İkinci olarak, “Öz Dikkat” (Self-Attention) adı verilen bir mekanizma kullanılır. Öz dikkat, her bir kelimenin, cümlenin geri kalanındaki diğer tüm kelimelerle olan ilişkisini ve önemini tartmasını sağlar. Böylece bir kelimenin bağlamı, sıralı bir okumayla değil, tüm cümlenin bütünsel bir görünümünden çıkarılır.

Bu paralel işleme yeteneği, yapay zeka alanında bir devrim yarattı. Eğitim sürelerini büyük ölçüde kısaltması sadece bir başlangıçtı. Asıl etkisi, ölçekte ortaya çıktı. Transformer’ların hızı ve verimliliği, bugün kullandığımız GPT serisi gibi devasa ve güçlü dil modellerinin geliştirilmesini hesaplama açısından mümkün kıldı; bu, sıralı RNN’lerle hayal bile edilemeyecek bir başarıdır.

1.7       Sonuç: Farklı Bir Zeka Türü

Bu beş sır, yapay zekanın gücünün genellikle insan düşüncesini taklit etmekten değil, problemlere tamamen yeni ve verimli yollar bulan zarif matematiksel ve istatistiksel yaklaşımlardan geldiğini gösteriyor. Bazen bariz derecede yanlış bir varsayım yapmak, bazen anlamı geometriye dönüştürmek veya sıralı düşünmeyi tamamen terk etmek, en büyük atılımları mümkün kılan adımlar olmuştur.

Yapay zeka geliştikçe, onun sadece bir araç olmadığını, aynı zamanda zekanın ne anlama geldiğine dair varsayımlarımızı sorgulayan bir ayna olduğunu görüyoruz. Bu bizi şu düşündürücü soruyla baş başa bırakıyor: Yapay zekanın bu “yabancı” düşünme biçimi, gelecekte kendi zekamızı anlama şeklimizi nasıl değiştirebilir?