NLP (Doğal Dil İşleme) ne işe yarar ve hangi alanlarda kullanılır?

NLP, bilgisayarların insan dilini anlayıp işlemesini sağlayan yapay zeka dalıdır. Duygu analizi (sosyal medya yorumları), metin sınıflandırma (spam tespiti), makine çevirisi (Google Translate), soru cevaplama sistemleri, chatbot'lar ve belge özetleme NLP'nin yaygın uygulama alanlarıdır. Türkçe metinlerin işlenmesinde dil özelliklerine uygun araçlar seçilmesi büyük önem taşır.

TF-IDF nedir ve metin analizinde nasıl kullanılır?

TF-IDF (Terim Frekansı-Ters Belge Frekansı), bir kelimenin bir belgede ne sıklıkla geçtiğini ve tüm koleksiyondaki nadirliliğini birleştirerek her kelimenin önem skorunu hesaplar. Sık geçen ama tüm belgelerden ortak olan kelimeler ("ve", "bir") düşük skor alırken, az belgede geçen ayırt edici kelimeler yüksek skor alır. Metin sınıflandırma ve bilgi geri çekme (information retrieval) için temel bir araçtır.

Tokenization, stemming ve lemmatization arasındaki farklar nelerdir?

Tokenization, metni kelime veya cümle birimine bölme işlemidir. Stemming, kelimelerin soneklerini kural tabanlı kırparak köke indirger (örn. "çalışıyor" → "çalış"); hızlıdır ama bazen anlamsız kökler üretebilir. Lemmatization ise sözdizimsel ve morfolojik analiz yaparak kelimenin sözlük biçimini (lemma) bulur; daha doğru ama daha yavaştır. Türkçe gibi eklemeli dillerde lemmatization özellikle önem kazanır.

BERT ve klasik NLP yöntemleri arasındaki temel fark nedir?

Klasik NLP yöntemleri (TF-IDF, Word2Vec) kelimeleri bağlamdan bağımsız olarak temsil eder. BERT (Bidirectional Encoder Representations from Transformers) ise kelimelerin anlamını cümle içindeki hem sağ hem sol bağlamdan çift yönlü öğrenir; bu sayede çok anlamlı kelimeleri doğru yorumlar. BERT ve türevleri (RoBERTa, XLM-R) günümüzde metin sınıflandırma, NER ve soru cevaplama görevlerinde en yüksek performansı sağlamaktadır.

💬 NLP

Doğal Dil İşleme (NLP): Metin Verisinden Anlam Çıkarma

📅 4 Haziran 2026 ⏱ 10 dakika okuma ✍️ FM Analitik

İnternetin her saniye ürettiği muazzam metin verisi, geleneksel sayısal analiz yöntemleriyle incelenemez. Müşteri yorumları, sosyal medya paylaşımları, haber makaleleri, açık uçlu anket yanıtları veya sağlık kayıtlarındaki notlar gibi yapılandırılmamış metin verilerinden anlamlı bilgi çıkarmak için Doğal Dil İşleme (Natural Language Processing, NLP) teknikleri kullanılır. Bu yazıda NLP'nin temel kavramlarını, kullanılan yöntemleri ve Python ile nasıl uygulandığını ele alıyoruz.

NLP Ne Zaman Kullanılır?

NLP, metin verisiyle çalışan her durumda değer katabilir:

Müşteri yorumlarının otomatik olarak olumlu/olumsuz/nötr sınıflandırılması (duygu analizi)
Anket açık uçlu yanıtlarının tematik kategorilere ayrılması
Haber veya belgelerin otomatik özetlenmesi
Sohbet botları ve müşteri destek otomasyonu
Belge benzerliği ve arama motorları
Sosyal medya izleme ve marka analizi

Metin Ön İşleme Adımları

Ham metin analiz edilmeden önce bir dizi ön işleme adımından geçirilmesi gerekir:

Tokenization (Belirteçlere Ayırma)

Metni kelime veya cümle birimlerine bölme işlemidir. "Veri analizi önemlidir." cümlesi ["Veri", "analizi", "önemlidir", "."] belirteçlerine ayrılır. Kelime tokenization en yaygın kullanılan biçimdir. Python'da NLTK'nın word_tokenize() veya spaCy'nin tokenizer'ı bu işlevi yerine getirir.

Stopword Kaldırma

"ve", "ile", "bu", "bir" gibi anlam taşımayan sık kullanılan kelimeler (stopwords) analiz öncesinde çıkarılır. Aksi takdirde bu kelimeler frekans analizini bozar. NLTK Türkçe stopword listesi içerir; gerektiğinde özelleştirilebilir.

Stemming ve Lemmatization

Stemming, kelimenin kökünü kural tabanlı kesme işlemleriyle bulur (hızlıdır ama kaba). "Koşuyordu" → "koş". Lemmatization ise sözlük temelli gerçek kökü bulur; "koşuyordu" → "koş", "iyidir" → "iyi". Türkçe gibi sondan eklemeli diller için gelişmiş lemmatizasyon araçları gerekir; Zemberek veya TRMorph bu amaçla kullanılabilir.

💡 Türkçe NLP İpucu: Türkçe eklemeli bir dil olduğundan kelime köklerine ulaşmak İngilizce'ye göre çok daha karmaşıktır. Genel amaçlı bir analiz için spaCy'nin Türkçe modeli (tr_core_news_sm) iyi bir başlangıç noktasıdır.

TF-IDF: Kelimelerin Önemi Nasıl Ölçülür?

Bir kelimenin bir belgede önemli olup olmadığını anlamak için TF-IDF (Term Frequency–Inverse Document Frequency) kullanılır. İki bileşenden oluşur:

TF (Terim Frekansı): Kelimenin o belgede kaç kez geçtiği
IDF (Ters Belge Frekansı): Kelimenin tüm koleksiyonda ne kadar nadir olduğu

Çok belgede geçen yaygın kelimeler düşük IDF değeri alır; yalnızca belirli belgelerde geçen özgün kelimeler yüksek değer alır. Python'da scikit-learn'ün TfidfVectorizer sınıfıyla birkaç satır kodla uygulanabilir.

Duygu Analizi (Sentiment Analysis)

Metin analizinin en yaygın uygulamasıdır. Bir metnin olumlu, olumsuz veya nötr bir duygu içerip içermediğini belirler. Yöntemler iki ana kategoriye ayrılır:

Yöntem	Avantaj	Dezavantaj
Sözlük tabanlı (lexicon-based)	Etiketli veri gerektirmez	Bağlamı kaçırabilir
Makine öğrenmesi (ML)	Bağlama duyarlı	Etiketli eğitim verisi gerektirir
Derin öğrenme (BERT vb.)	En yüksek doğruluk	Hesaplama yoğun, dil modeli gerektirir

Word Embeddings: Kelimeler Sayılara Dönüşüyor

Makine öğrenmesi modelleri metni doğrudan işleyemez; kelimelerin sayısal vektörlere dönüştürülmesi gerekir. Basit yaklaşım one-hot encoding veya bag-of-words'tür; ancak bu yöntemler kelimeler arası anlam ilişkisini yakalamaz. Word2Vec, GloVe ve FastText gibi word embedding yöntemleri kelimeleri anlam bakımından yakın olanların vektör uzayında da yakın durduğu şekilde temsil eder. Klasik örnek: "Kral − Erkek + Kadın ≈ Kraliçe".

BERT ve GPT: Büyük Dil Modelleri

2018'de Google tarafından tanıtılan BERT (Bidirectional Encoder Representations from Transformers), bir kelimenin hem sol hem sağ bağlamını aynı anda işleyerek anlam temsili oluşturur. Metin sınıflandırma, duygu analizi ve soru-cevap gibi görevlerde geleneksel yöntemleri büyük farkla geçti. GPT modelleri ise metin üretimi konusunda öne çıkar. Türkçe için Hugging Face'te önceden eğitilmiş BERT modelleri mevcuttur; bunlar ince ayar (fine-tuning) ile özelleştirilebilir.

💡 Başlangıç İçin Tavsiye: NLP'ye yeni başlıyorsanız Python'da NLTK ile temel ön işleme, scikit-learn ile TF-IDF ve lojistik regresyon tabanlı metin sınıflandırması iyi bir giriş noktasıdır. Daha ileri seviye için spaCy ve Hugging Face Transformers kütüphanelerine geçebilirsiniz.

Metin Madenciliği vs. NLP

Metin madenciliği (text mining) genellikle yapılandırılmamış metinden örüntü ve bilgi çıkarmaya odaklanırken NLP dilin dilbilgisel ve anlamsal yapısını anlamayı hedefler. Pratikte ikisi iç içe geçmiş kavramlardır ve birlikte kullanılır. Konu modelleme (topic modeling, örneğin LDA), adlandırılmış varlık tanıma (NER) ve metin özetleme NLP ile metin madenciliğinin kesiştiği alanlardandır.

Metin Verilerinizi Analiz Edelim

Açık uçlu anket yanıtları, müşteri yorumları veya sosyal medya verileriniz için duygu analizi, konu modelleme ve metin sınıflandırması hizmetleri sunuyoruz.

Teklif Al

Kaynaklar

Jurafsky, D., & Martin, J. H. (2023). Speech and Language Processing (3rd ed. draft). web.stanford.edu/~jurafsky/slp3
Manning, C. D., & Schütze, H. (1999). Foundations of Statistical Natural Language Processing. MIT Press.