Sinir Ağlarında Aktivasyon Fonksiyonları: ReLU, Sigmoid, Softmax
Derin öğrenmede sinir ağlarının gücü yalnızca katman sayısından değil, her katmanda kullanılan aktivasyon fonksiyonlarından da kaynaklanır. Aktivasyon fonksiyonları olmadan sinir ağı ne kadar derin olursa olsun yalnızca lineer bir dönüşüm gerçekleştirir; dolayısıyla gerçek dünyanın karmaşık, doğrusal olmayan ilişkilerini öğrenemez. Bu yazıda en yaygın aktivasyon fonksiyonlarını, güçlü ve zayıf yönlerini ve hangi durumda hangisinin tercih edilmesi gerektiğini ele alıyoruz.
Aktivasyon Fonksiyonu Neden Gereklidir?
Bir sinir ağı katmanı, girişlere ağırlık uygular ve bir bias ekler; bu çıktı z = Wx + b şeklinde ifade edilir. Bu işlem tamamen lineerdir. İkinci katmanda aynı işlem uygulandığında yine lineer bir dönüşüm elde edilir; binlerce katmana çıkılsa da sonuç değişmez — tüm ağ tek bir lineer dönüşüme eşdeğer olur.
Aktivasyon fonksiyonu, her katmanın çıktısına doğrusal olmayan bir dönüşüm uygular. Bu sayede ağ, görüntü sınıflandırma, metin anlama veya fiyat tahmini gibi karmaşık problemleri çözebilecek kapasiteye kavuşur.
Sigmoid Fonksiyonu
Sigmoid, çıktıyı 0 ile 1 arasına sıkıştırır: σ(z) = 1 / (1 + e⁻ᶻ). İkili sınıflandırmanın çıkış katmanında olasılık yorumu için idealdir. Ancak vanishing gradient problemi, sigmoid'in derin ağlarda gizli katman aktivasyonu olarak kullanımını kısıtlar: gradyanlar katmandan katmana geri yayılırken üstel olarak küçülür ve ilk katmanlar neredeyse hiç öğrenemez hale gelir.
Tanh Fonksiyonu
Hiperbolik tanjant, çıktıyı −1 ile +1 arasına sıkıştırır. Sigmoid'in sıfır merkezli olmama dezavantajını giderir; bu, gradyan güncellemelerinin daha dengeli ilerlemesini sağlar. Ancak vanishing gradient sorunu tanh'ta da mevcuttur ve çok derin ağlar için yine de uygun değildir.
ReLU ve Türevleri
ReLU (Rectified Linear Unit): f(z) = max(0, z). Negatif değerleri sıfırlarken pozitif değerleri olduğu gibi geçirir. Hesaplaması son derece basit ve hızlıdır; derin ağlarda vanishing gradient sorununu büyük ölçüde çözer ve günümüzde varsayılan gizli katman aktivasyon fonksiyonu konumundadır. Dezavantajı: negatif bölgede gradyan sıfır olduğundan bazı nöronlar eğitim boyunca hiç aktive olmayabilir (dying ReLU sorunu).
- Leaky ReLU: Negatif bölgeye küçük bir eğim (örn. 0.01) eklenerek dying ReLU sorunu hafifletilir:
f(z) = max(0.01z, z). - ELU (Exponential Linear Unit): Negatif bölgede üstel bir fonksiyon kullanır; çıktının ortalamasını sıfıra yaklaştırır ve genellikle daha hızlı öğrenme sağlar.
- GELU (Gaussian Error Linear Unit): Nöronu olasılıksal olarak aktive eder; BERT, GPT gibi transformer modellerinde yaygın olarak kullanılır.
İpucu: Çoğu durumda gizli katmanlar için ReLU ile başlamak en iyi stratejidir. Dying ReLU gözlemleniyorsa Leaky ReLU veya ELU deneyin. Transformer tabanlı NLP modellerinde ise GELU tercih edin. Hiçbir zaman sigmoid veya tanh'ı derin gizli katmanlarda kullanmayın.
Softmax Fonksiyonu
Softmax, çok sınıflı sınıflandırma problemlerinde çıkış katmanında kullanılır. Her sınıf için bir olasılık değeri üretir ve tüm olasılıkların toplamı 1'e eşit olur: softmax(zᵢ) = eᶻⁱ / Σ eᶻʲ. Bu sayede modelin güven düzeyini yorumlamak kolaylaşır; en yüksek olasılıklı sınıf tahmin edilen sınıf olarak seçilir.
Hangi Katmanda Hangi Aktivasyon?
| Katman / Görev | Önerilen Aktivasyon | Gerekçe |
|---|---|---|
| Derin gizli katmanlar (CNN, MLP) | ReLU / Leaky ReLU | Hızlı, vanishing gradient yok |
| Transformer gizli katmanları | GELU | Olasılıksal aktivasyon, daha iyi genelleme |
| İkili sınıflandırma çıktısı | Sigmoid | 0–1 arası olasılık üretir |
| Çok sınıflı sınıflandırma çıktısı | Softmax | Sınıf olasılıklarını normalize eder |
| Regresyon çıktısı | Lineer (aktivasyon yok) | Sınırsız çıktı değeri gereklidir |
| RNN / LSTM gizli durum | Tanh | Sıfır merkezli, −1/+1 sınırlı aralık |
Pratik Öneriler
Aktivasyon fonksiyonu seçimi, modelin mimarisine, veri tipine ve probleme göre değişir. Genel pratik kurallar şöyle özetlenebilir: Görüntü problemleri için ReLU veya türevleri, NLP ve transformer mimarileri için GELU, RNN tabanlı mimariler için gizli durumlarda tanh ve kapı mekanizmalarında sigmoid kullanın. Çıkış katmanında her zaman görevinize uygun aktivasyonu (sigmoid/softmax/lineer) seçin ve bu seçimi kayıp fonksiyonunuzla uyumlu hale getirin.
Kaynaklar
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
- He, K., Zhang, X., Ren, S., & Sun, J. (2015). Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification. ICCV, 1026–1034. (PReLU)
Derin Öğrenme Modelinizi Birlikte Tasarlayalım
Mimari seçiminden aktivasyon fonksiyonlarına, hiperparametre optimizasyonundan model yorumlamaya kadar tam destek alın.
Ücretsiz Danışmanlık Al