Kümeleme Analizi: K-Means Nasıl Çalışır?
Elinizde etiketlenmemiş veri var ve bu veride doğal gruplar olup olmadığını keşfetmek istiyorsunuz. Müşterilerinizi satın alma alışkanlıklarına göre segmentlere ayırmak, pazar araştırması katılımcılarını benzer profillere göre gruplamak veya görüntüleri içerik türüne göre sınıflandırmak gibi durumlarda denetimsiz öğrenme yöntemleri devreye girer. Bu yöntemlerin en yaygın kullanılanı K-Means kümeleme algoritmasıdır.
K-Means Algoritması Nasıl Çalışır?
MacQueen tarafından 1967'de tanımlanan K-Means, basit ama güçlü bir yinelemeli algoritmadır. Çalışma adımları şöyle özetlenebilir:
- Başlangıç merkezlerini belirle: K adet merkez (centroid) rastgele seçilir veya K-Means++ yöntemiyle akıllıca başlatılır.
- Her noktayı en yakın merkeze ata: Öklid mesafesine göre her gözlem en yakın kümeye atanır.
- Merkezleri güncelle: Her kümedeki noktaların ortalaması alınarak yeni merkez hesaplanır.
- Yinele: Merkez konumları değişmeyene kadar 2. ve 3. adımlar tekrarlanır.
Algoritma, her küme içindeki noktaların merkeze olan toplam uzaklığını (Within-Cluster Sum of Squares, WCSS) minimize etmeye çalışır. Sonuç, başlangıç merkezlerine bağlı olduğundan farklı başlangıçlarla birden fazla kez çalıştırmak iyi bir uygulamadır.
Optimal K Sayısı Nasıl Belirlenir?
K-Means'in en zor kısmı küme sayısını (k) önceden belirleme gerekliliğidir. İki yaygın yöntem bu karara yardımcı olur:
Elbow (Dirsek) Yöntemi
Farklı k değerleri için WCSS hesaplanır ve k'ya göre grafiğe dökülerek "dirsek" oluşturan nokta optimal k olarak seçilir. Bu noktadan sonra k artırmak WCSS'yi çok az azaltır; dolayısıyla ek küme eklemek anlamlı olmaz. Grafik her zaman net bir dirsek vermeyebilir; bu durumda diğer yöntemler devreye girer.
Silhouette Skoru
Rousseeuw (1987) tarafından geliştirilen silhouette skoru, her noktanın kendi kümesine ne kadar uyduğunu ve komşu kümeye ne kadar uzak olduğunu ölçer. −1 ile +1 arasında değer alır; 1'e yakın değerler iyi küme ayrımına, 0 sınır durumuna, negatif değerler ise yanlış atamaya işaret eder. Farklı k değerleri için ortalama silhouette skoru hesaplanarak en yüksek skor veren k seçilir.
💡 Pratik Öneri: Elbow ve silhouette yöntemlerini birlikte kullanın. İkisi aynı k değerini işaret ediyorsa güvenle seçebilirsiniz. Farklı değer gösteriyorsa alan bilgisi ve yorumlanabilirlik ön plana çıkar.
K-Means'in Sınırlılıkları
K-Means her durumda ideal değildir. Şu sınırlılıklara dikkat edilmelidir:
- Kümelerin yuvarlak ve eşit büyüklükte olduğunu varsayar; uzun elipsoid veya düzensiz şekilli kümeler için uygun değildir.
- Aykırı değerlere karşı hassastır; bu değerler merkez konumunu çarpıtabilir.
- Kategorik değişkenlerle doğrudan çalışmaz; bunlar için K-Modes veya Gower mesafesi tercih edilir.
- K değerinin önceden bilinmesini gerektirir.
Hiyerarşik Kümeleme ile Farkı
| Özellik | K-Means | Hiyerarşik Kümeleme |
|---|---|---|
| K sayısı | Önceden belirtilmeli | Dendrogramdan seçilir |
| Büyük veri | Verimli çalışır | Yavaş (O(n²) veya O(n³)) |
| Yorumlama | Basit | Dendrogram zengin bilgi sunar |
| Küme şekli | Yuvarlak kümeler varsayar | Daha esnek |
Pazarlama Uygulaması: Müşteri Segmentasyonu
K-Means'in en popüler uygulama alanı müşteri segmentasyonudur. Örneğin RFM analizi (Recency, Frequency, Monetary) verisiyle müşteriler kaç gün önce alışveriş yaptıklarına, ne sıklıkla alışveriş yaptıklarına ve toplam harcama miktarlarına göre segmentlere ayrılabilir. Tipik bir analiz 3-5 küme ortaya çıkarır: "sadık yüksek değerli müşteriler", "risk altındaki müşteriler", "tek seferlik alıcılar" gibi. Her segment için farklı pazarlama stratejileri geliştirilebilir.
💡 Ölçeklendirme Zorunlu: K-Means mesafeye dayalı bir algoritmadır. Değişkenler farklı ölçeklerdeyse (örneğin 0-100 arası gelir ve 1-5 arası memnuniyet puanı) analiz öncesinde StandardScaler veya MinMaxScaler ile ölçeklendirme yapılmalıdır.
Müşteri Segmentasyonu ve Kümeleme Analizi
K-Means ve hiyerarşik kümeleme ile müşteri segmentlerinizi belirliyor, segmente özel stratejiler için veri odaklı içgörüler sunuyoruz.
Teklif AlKaynaklar
- MacQueen, J. B. (1967). Some methods for classification and analysis of multivariate observations. Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, 1, 281–297.
- Rousseeuw, P. J. (1987). Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20, 53–65.