Aktivasyon fonksiyonu neden gereklidir, olmasa ne olur?

Aktivasyon fonksiyonu olmadan sinir ağı, ne kadar katman eklenirse eklensin yalnızca doğrusal bir dönüşüm gerçekleştirir. Bu durum tüm ağı tek bir doğrusal modele indirger ve görüntü tanıma veya dil anlama gibi karmaşık, doğrusal olmayan ilişkileri öğrenemez. Aktivasyon fonksiyonları, modele doğrusal olmayan (non-linear) dönüşüm kapasitesi kazandırarak derin öğrenmeyi güçlü kılar.

ReLU ve Sigmoid aktivasyon fonksiyonları arasındaki fark nedir?

ReLU (Rectified Linear Unit), negatif girişleri sıfırlar ve pozitif girişleri değiştirmez; bu basitliği sayesinde derin ağlarda hızlı ve etkilidir. Sigmoid ise çıktıyı 0-1 arasına sıkıştırır; derin ağlarda vanishing gradient sorununa yol açabilir. Bu nedenle gizli katmanlar için ReLU veya türevleri (Leaky ReLU, GELU) tercih edilirken sigmoid yalnızca ikili sınıflandırmada çıktı katmanı için kullanılır.

Vanishing gradient problemi nedir ve nasıl çözülür?

Vanishing gradient, derin ağlarda geri yayılım sırasında gradyanların katmanlar boyunca çarpılarak sıfıra yaklaşması ve öğrenmenin durmasıdır. Sigmoid ve tanh aktivasyonları bu soruna en çok yol açan fonksiyonlardır. Çözümler arasında ReLU ve türevi aktivasyonlar, batch normalization, residual bağlantılar (ResNet) ve dikkatli ağırlık başlatma (He/Xavier) yöntemleri öne çıkar.

Çok sınıflı sınıflandırmada çıktı katmanında hangi aktivasyon kullanılır?

Çok sınıflı sınıflandırmada çıktı katmanında softmax aktivasyonu kullanılır; bu fonksiyon her sınıf için olasılık değeri üretir ve tüm olasılıkların toplamı 1'e eşit olur. İkili sınıflandırmada ise tek nöronlu çıktı katmanında sigmoid kullanılır. Regresyon görevlerinde çıktı katmanında herhangi bir aktivasyon fonksiyonu kullanılmaz (doğrusal aktivasyon).

🧠 Derin Öğrenme

Sinir Ağlarında Aktivasyon Fonksiyonları: ReLU, Sigmoid, Softmax

📅 5 Haziran 2026 ⏱ 8 dk okuma ✍ FM Analitik

Derin öğrenmede sinir ağlarının gücü yalnızca katman sayısından değil, her katmanda kullanılan aktivasyon fonksiyonlarından da kaynaklanır. Aktivasyon fonksiyonları olmadan sinir ağı ne kadar derin olursa olsun yalnızca lineer bir dönüşüm gerçekleştirir; dolayısıyla gerçek dünyanın karmaşık, doğrusal olmayan ilişkilerini öğrenemez. Bu yazıda en yaygın aktivasyon fonksiyonlarını, güçlü ve zayıf yönlerini ve hangi durumda hangisinin tercih edilmesi gerektiğini ele alıyoruz.

Aktivasyon Fonksiyonu Neden Gereklidir?

Bir sinir ağı katmanı, girişlere ağırlık uygular ve bir bias ekler; bu çıktı z = Wx + b şeklinde ifade edilir. Bu işlem tamamen lineerdir. İkinci katmanda aynı işlem uygulandığında yine lineer bir dönüşüm elde edilir; binlerce katmana çıkılsa da sonuç değişmez — tüm ağ tek bir lineer dönüşüme eşdeğer olur.

Aktivasyon fonksiyonu, her katmanın çıktısına doğrusal olmayan bir dönüşüm uygular. Bu sayede ağ, görüntü sınıflandırma, metin anlama veya fiyat tahmini gibi karmaşık problemleri çözebilecek kapasiteye kavuşur.

Sigmoid Fonksiyonu

Sigmoid, çıktıyı 0 ile 1 arasına sıkıştırır: σ(z) = 1 / (1 + e⁻ᶻ). İkili sınıflandırmanın çıkış katmanında olasılık yorumu için idealdir. Ancak vanishing gradient problemi, sigmoid'in derin ağlarda gizli katman aktivasyonu olarak kullanımını kısıtlar: gradyanlar katmandan katmana geri yayılırken üstel olarak küçülür ve ilk katmanlar neredeyse hiç öğrenemez hale gelir.

Tanh Fonksiyonu

Hiperbolik tanjant, çıktıyı −1 ile +1 arasına sıkıştırır. Sigmoid'in sıfır merkezli olmama dezavantajını giderir; bu, gradyan güncellemelerinin daha dengeli ilerlemesini sağlar. Ancak vanishing gradient sorunu tanh'ta da mevcuttur ve çok derin ağlar için yine de uygun değildir.

ReLU ve Türevleri

ReLU (Rectified Linear Unit): f(z) = max(0, z). Negatif değerleri sıfırlarken pozitif değerleri olduğu gibi geçirir. Hesaplaması son derece basit ve hızlıdır; derin ağlarda vanishing gradient sorununu büyük ölçüde çözer ve günümüzde varsayılan gizli katman aktivasyon fonksiyonu konumundadır. Dezavantajı: negatif bölgede gradyan sıfır olduğundan bazı nöronlar eğitim boyunca hiç aktive olmayabilir (dying ReLU sorunu).

Leaky ReLU: Negatif bölgeye küçük bir eğim (örn. 0.01) eklenerek dying ReLU sorunu hafifletilir: f(z) = max(0.01z, z).
ELU (Exponential Linear Unit): Negatif bölgede üstel bir fonksiyon kullanır; çıktının ortalamasını sıfıra yaklaştırır ve genellikle daha hızlı öğrenme sağlar.
GELU (Gaussian Error Linear Unit): Nöronu olasılıksal olarak aktive eder; BERT, GPT gibi transformer modellerinde yaygın olarak kullanılır.

İpucu: Çoğu durumda gizli katmanlar için ReLU ile başlamak en iyi stratejidir. Dying ReLU gözlemleniyorsa Leaky ReLU veya ELU deneyin. Transformer tabanlı NLP modellerinde ise GELU tercih edin. Hiçbir zaman sigmoid veya tanh'ı derin gizli katmanlarda kullanmayın.

Softmax Fonksiyonu

Softmax, çok sınıflı sınıflandırma problemlerinde çıkış katmanında kullanılır. Her sınıf için bir olasılık değeri üretir ve tüm olasılıkların toplamı 1'e eşit olur: softmax(zᵢ) = eᶻⁱ / Σ eᶻʲ. Bu sayede modelin güven düzeyini yorumlamak kolaylaşır; en yüksek olasılıklı sınıf tahmin edilen sınıf olarak seçilir.

Hangi Katmanda Hangi Aktivasyon?

Katman / Görev	Önerilen Aktivasyon	Gerekçe
Derin gizli katmanlar (CNN, MLP)	ReLU / Leaky ReLU	Hızlı, vanishing gradient yok
Transformer gizli katmanları	GELU	Olasılıksal aktivasyon, daha iyi genelleme
İkili sınıflandırma çıktısı	Sigmoid	0–1 arası olasılık üretir
Çok sınıflı sınıflandırma çıktısı	Softmax	Sınıf olasılıklarını normalize eder
Regresyon çıktısı	Lineer (aktivasyon yok)	Sınırsız çıktı değeri gereklidir
RNN / LSTM gizli durum	Tanh	Sıfır merkezli, −1/+1 sınırlı aralık

Pratik Öneriler

Aktivasyon fonksiyonu seçimi, modelin mimarisine, veri tipine ve probleme göre değişir. Genel pratik kurallar şöyle özetlenebilir: Görüntü problemleri için ReLU veya türevleri, NLP ve transformer mimarileri için GELU, RNN tabanlı mimariler için gizli durumlarda tanh ve kapı mekanizmalarında sigmoid kullanın. Çıkış katmanında her zaman görevinize uygun aktivasyonu (sigmoid/softmax/lineer) seçin ve bu seçimi kayıp fonksiyonunuzla uyumlu hale getirin.

Kaynaklar

Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
He, K., Zhang, X., Ren, S., & Sun, J. (2015). Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification. ICCV, 1026–1034. (PReLU)

Derin Öğrenme Modelinizi Birlikte Tasarlayalım

Mimari seçiminden aktivasyon fonksiyonlarına, hiperparametre optimizasyonundan model yorumlamaya kadar tam destek alın.

Ücretsiz Danışmanlık Al