t-SNE Nedir? Yüksek Boyutlu Verilerin Görselleştirilmesinde Kullanılan Güçlü Bir Teknik

Günümüzde veri bilimi ve makine öğrenmesi projelerinde karşılaşılan en büyük zorluklardan biri, yüzlerce hatta binlerce özellik içeren yüksek boyutlu veri setleriyle çalışmaktır. İnsan beyni üç boyutun ötesini görselleştirmekte zorlandığından, bu karmaşık veri yapılarını anlamak ve analiz etmek oldukça güçtür. İşte tam bu noktada t-SNE (t-Distributed Stochastic Neighbor Embedding) devreye girer. Bu makalede, t-SNE'nin ne olduğunu, nasıl çalıştığını, nerelerde kullanıldığını ve avantajlarını detaylı bir şekilde inceleyeceğiz.

t-SNE'nin Tanımı ve Temel Kavramlar

t-SNE, 2008 yılında Laurens van der Maaten ve Geoffrey Hinton tarafından geliştirilen bir boyut indirgeme ve görselleştirme algoritmasıdır. Algoritmanın tam adı "t-Distributed Stochastic Neighbor Embedding" olup, Türkçe'ye "t-Dağılımlı Stokastik Komşu Gömme" olarak çevrilebilir.

t-SNE'nin temel amacı, yüksek boyutlu bir veri setindeki her bir veri noktasını, düşük boyutlu (genellikle 2D veya 3D) bir uzayda temsil etmektir. Bu dönüşüm sırasında algoritma, orijinal yüksek boyutlu uzaydaki veri noktaları arasındaki benzerlik ilişkilerini korumaya çalışır. Yani birbirine yakın olan noktalar düşük boyutlu uzayda da yakın kalırken, birbirinden uzak olan noktalar uzak kalır.

Boyut İndirgeme Neden Önemlidir?

Yüksek boyutlu verilerle çalışırken birçok zorlukla karşılaşılır:

Görselleştirme Zorluğu: İnsan gözü 3 boyutun ötesini algılayamaz, bu nedenle 100 veya 1000 boyutlu bir veriyi doğrudan görselleştirmek imkansızdır.
Boyutun Laneti (Curse of Dimensionality): Boyut sayısı arttıkça, veri noktaları arasındaki mesafeler anlamsızlaşmaya başlar ve makine öğrenmesi algoritmalarının performansı düşer.
Hesaplama Maliyeti: Yüksek boyutlu veriler üzerinde işlem yapmak daha fazla bellek ve işlem gücü gerektirir.
Gürültü ve Gereksiz Özellikler: Tüm özellikler eşit derecede bilgi taşımaz; bazıları gürültüden ibaret olabilir.

t-SNE Nasıl Çalışır?

t-SNE algoritması, iki temel aşamadan oluşan karmaşık bir matematiksel süreç izler. Bu süreci adım adım inceleyelim:

Aşama 1: Yüksek Boyutlu Uzayda Benzerlik Hesaplama

Algoritma ilk olarak, orijinal yüksek boyutlu uzaydaki her bir veri noktası çifti arasındaki benzerliği hesaplar. Bu benzerlik, koşullu olasılık olarak ifade edilir. Matematiksel olarak, x_j noktasının x_i noktasına komşu olma olasılığı şu formülle hesaplanır:

p(j|i) = exp(-||xi - xj||² / 2σi²) / Σk≠i exp(-||xi - xk||² / 2σi²)

Bu formülde:

||xi - xj||: İki nokta arasındaki Öklid mesafesi
σi: xi noktası etrafındaki Gaussian dağılımının varyansı

Daha sonra simetrik bir benzerlik matrisi elde etmek için şu dönüşüm uygulanır:

pij = (p(j|i) + p(i|j)) / 2n

Aşama 2: Düşük Boyutlu Uzayda Benzerlik Hesaplama

İkinci aşamada, düşük boyutlu uzaydaki (2D veya 3D) veri noktaları arasındaki benzerlik hesaplanır. Burada t-SNE'nin "t" harfinin geldiği Student-t dağılımı kullanılır. Bu dağılım, Gaussian dağılımına göre daha "ağır kuyruklu" olduğundan, uzak noktaları daha iyi ayırt edebilir.

qij = (1 + ||yi - yj||²)^(-1) / Σk≠l (1 + ||yk - yl||²)^(-1)

Aşama 3: Kullback-Leibler Diverjansının Minimizasyonu

t-SNE'nin son aşaması, yüksek boyutlu uzaydaki benzerlik dağılımı (P) ile düşük boyutlu uzaydaki benzerlik dağılımı (Q) arasındaki farkı minimize etmektir. Bu fark, Kullback-Leibler (KL) Diverjansı ile ölçülür:

KL(P||Q) = Σi Σj pij * log(pij / qij)

Bu maliyet fonksiyonu, gradient descent (gradyan inişi) optimizasyon algoritması kullanılarak minimize edilir. Algoritma iteratif olarak çalışır ve her adımda düşük boyutlu noktaların konumlarını güncelleyerek optimal yerleşimi bulmaya çalışır.

t-SNE'nin Temel Parametreleri

t-SNE algoritmasının performansını etkileyen birkaç kritik parametre bulunmaktadır:

1. Perplexity (Şaşkınlık)

Perplexity, t-SNE'nin en önemli parametrelerinden biridir ve her bir veri noktası için dikkate alınacak etkili komşu sayısını belirler. Matematiksel olarak, perplexity değeri 2'nin entropi üssüdür:

Perplexity = 2^H(Pi)

Perplexity değerinin seçimi sonuçları önemli ölçüde etkiler:

Düşük perplexity (5-10): Yerel yapılara odaklanır, küçük kümeler daha belirgin hale gelir.
Orta perplexity (30-50): Çoğu veri seti için önerilen aralık.
Yüksek perplexity (100+): Global yapıyı daha iyi korur ancak yerel detaylar kaybolabilir.

Genel kural olarak, perplexity değeri veri setindeki nokta sayısından küçük olmalı ve tipik olarak 5 ile 50 arasında bir değer seçilmelidir.

2. Learning Rate (Öğrenme Oranı)

Öğrenme oranı, gradient descent sırasında her adımda noktaların ne kadar hareket edeceğini belirler. Varsayılan değer genellikle 200'dür, ancak:

Çok düşük öğrenme oranı: Algoritma yerel minimumlarda takılabilir.
Çok yüksek öğrenme oranı: Noktalar kaotik hareket edebilir ve anlamlı bir yapı oluşmayabilir.

Önerilen aralık genellikle 10 ile 1000 arasındadır.

3. Iteration Sayısı (n_iter)

Algoritmanın kaç iterasyon çalışacağını belirler. Varsayılan değer genellikle 1000'dir, ancak karmaşık veri setleri için 2000-5000 iterasyon gerekebilir. Algoritmanın yakınsamasını izlemek için maliyet fonksiyonunun değişimini takip etmek önemlidir.

4. Early Exaggeration

Early exaggeration, algoritmanın ilk aşamalarında yüksek boyutlu benzerlikleri yapay olarak büyüterek kümelerin birbirinden ayrılmasını kolaylaştırır. Varsayılan değer genellikle 12'dir ve ilk 250 iterasyon boyunca uygulanır.

t-SNE'nin Kullanım Alanları

t-SNE, pek çok farklı alanda yaygın olarak kullanılmaktadır:

1. Görüntü Tanıma ve Bilgisayarlı Görü

Derin öğrenme modellerinin öğrendiği özellikleri görselleştirmek için t-SNE sıklıkla kullanılır. Örneğin, bir görüntü sınıflandırma modelinin son katmanındaki özellik vektörleri t-SNE ile 2D'ye indirgendiğinde, benzer sınıflara ait görüntülerin bir arada kümelendiği gözlemlenir. Bu, modelin ne kadar iyi ayrım yapabildiğini görsel olarak değerlendirmeye olanak tanır.

2. Doğal Dil İşleme (NLP)

Kelime gömmeleri (word embeddings) yüksek boyutlu vektörlerdir. Word2Vec, GloVe veya BERT gibi modellerin ürettiği kelime vektörleri t-SNE ile görselleştirildiğinde:

Anlamsal olarak benzer kelimelerin gruplandığı
Kelime ilişkilerinin (eş anlamlılar, zıt anlamlılar) görsel olarak ortaya çıktığı
Dil yapılarının ve tematik grupların keşfedilebildiği

gözlemlenir.

3. Biyoinformatik ve Genomik

Tek hücreli RNA sekanslaması (scRNA-seq) verileri, binlerce gen ifadesi içeren yüksek boyutlu veri setleri üretir. t-SNE, bu verilerde:

Farklı hücre tiplerini ayırt etmek
Hücre popülasyonlarını keşfetmek
Gelişimsel yörüngeleri görselleştirmek

için vazgeçilmez bir araç haline gelmiştir.

4. Anomali Tespiti

t-SNE görselleştirmelerinde, normal veri noktalarından belirgin şekilde ayrılan noktalar potansiyel anomaliler olarak işaretlenebilir. Bu özellik:

Dolandırıcılık tespiti
Ağ saldırısı tespiti
Kalite kontrol

gibi alanlarda kullanılır.

5. Müşteri Segmentasyonu

Pazarlama ve iş analitiğinde, müşteri davranış verilerini t-SNE ile görselleştirerek:

Benzer davranış kalıplarına sahip müşteri grupları
Pazar segmentleri
Hedef kitle profilleri

keşfedilebilir.

6. Ses ve Müzik Analizi

Ses özellik vektörleri (MFCC, spektrogramlar) t-SNE ile görselleştirildiğinde:

Müzik türleri arasındaki ilişkiler
Konuşmacı benzerlikleri
Ses kalıpları ve temaları

ortaya çıkarılabilir.

t-SNE'nin Avantajları

t-SNE, diğer boyut indirgeme tekniklerine göre birçok önemli avantaj sunar:

1. Doğrusal Olmayan İlişkileri Yakalama

PCA gibi doğrusal yöntemler yalnızca doğrusal korelasyonları yakalayabilirken, t-SNE karmaşık, doğrusal olmayan ilişkileri de modelleyebilir. Bu özellik, gerçek dünya verilerinin çoğunun doğrusal olmayan yapılar içerdiği düşünüldüğünde büyük bir avantajdır.

2. Yerel Yapıyı Koruma

t-SNE, veri noktaları arasındaki yerel komşuluk ilişkilerini korumada son derece başarılıdır. Bu sayede:

Kümeler net bir şekilde ayrılır
Veri içindeki alt gruplar görünür hale gelir
İnce taneli yapılar korunur

3. Görsel Olarak Anlamlı Sonuçlar

t-SNE'nin ürettiği görselleştirmeler, diğer yöntemlere kıyasla daha net ayrılmış kümeler ve daha yorumlanabilir sonuçlar sunar. Bu, veri keşfi ve sunum amaçları için idealdir.

4. Robustluk

Algoritma, veri setlerindeki gürültüye karşı nispeten dayanıklıdır ve aykırı değerlerin genel yapıyı bozmasını önleyebilir.

5. Esneklik

t-SNE, farklı veri tipleri ve boyutlarıyla çalışabilir. Görüntü piksellerinden metin vektörlerine, gen ifadelerinden müşteri davranış verilerine kadar geniş bir uygulama yelpazesinde kullanılabilir.

t-SNE'nin Dezavantajları ve Sınırlılıkları

Her algoritma gibi t-SNE'nin de bazı sınırlılıkları vardır:

1. Hesaplama Maliyeti

t-SNE, O(n²) zaman karmaşıklığına sahiptir, bu da büyük veri setleri için hesaplama süresinin dramatik şekilde artması anlamına gelir. 10.000'den fazla veri noktası için:

Barnes-Hut yaklaşımı (O(n log n)) kullanılabilir
Örnekleme stratejileri uygulanabilir
GPU hızlandırması kullanılabilir

2. Stokastik Yapı

t-SNE, rastgele başlatma kullanır ve her çalıştırmada farklı sonuçlar üretebilir. Bu nedenle:

Sonuçların tekrarlanabilirliği için random_state parametresi sabitlenmelidir
Birden fazla çalıştırma yapılarak sonuçların tutarlılığı kontrol edilmelidir

3. Global Yapı Kaybı

t-SNE yerel yapıyı korumada mükemmel olsa da, global mesafeleri ve küme boyutlarını korumada başarısız olabilir. Bu nedenle:

Kümeler arası mesafeler anlamlı değildir
Küme boyutları gerçek veri dağılımını yansıtmayabilir
t-SNE sonuçları üzerinde kümeleme algoritmaları çalıştırılmamalıdır

4. Parametre Hassasiyeti

Farklı perplexity değerleri çok farklı görselleştirmeler üretebilir. Optimal parametreleri bulmak deneme-yanılma gerektirebilir.

5. Yeni Veri Noktaları

t-SNE, eğitim sırasında görülmeyen yeni veri noktalarını doğrudan düşük boyutlu uzaya yerleştiremez. Bu, gerçek zamanlı uygulamalar için bir sınırlılıktır. Parametrik t-SNE veya UMAP gibi alternatifler bu sorunu çözmek için kullanılabilir.

t-SNE ile PCA Karşılaştırması

t-SNE ve PCA, en yaygın kullanılan iki boyut indirgeme tekniğidir. İkisi arasındaki temel farkları inceleyelim:

Özellik	t-SNE	PCA
Yaklaşım	Doğrusal olmayan	Doğrusal
Zaman Karmaşıklığı	O(n²) veya O(n log n)	O(np²) veya O(n²p)
Yerel Yapı	Mükemmel korur	Kısmen korur
Global Yapı	Zayıf korur	İyi korur
Determinizm	Stokastik	Deterministik
Yeni Veri	Doğrudan uygulanamaz	Kolayca uygulanır
Yorumlanabilirlik	Eksenler anlamsız	Bileşenler yorumlanabilir
Kullanım Amacı	Görselleştirme	Boyut indirgeme, gürültü azaltma

Pratikte, genellikle önce PCA ile boyut sayısını 50-100'e indirmek, ardından t-SNE uygulamak yaygın bir stratejidir. Bu yaklaşım hem hesaplama süresini azaltır hem de gürültüyü filtreler.

Python ile t-SNE Uygulaması

t-SNE'yi Python'da uygulamak oldukça kolaydır. Scikit-learn kütüphanesi, kullanımı basit bir t-SNE implementasyonu sunar:

Temel Uygulama

import numpy as np
import matplotlib.pyplot as plt
from sklearn.manifold import TSNE
from sklearn.datasets import load_digits
from sklearn.preprocessing import StandardScaler

# Veri setini yükle
digits = load_digits()
X = digits.data
y = digits.target

# Veriyi standartlaştır
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# t-SNE uygula
tsne = TSNE(
    n_components=2,      # Hedef boyut sayısı
    perplexity=30,       # Etkili komşu sayısı
    learning_rate=200,   # Öğrenme oranı
    n_iter=1000,         # İterasyon sayısı
    random_state=42      # Tekrarlanabilirlik için
)

X_tsne = tsne.fit_transform(X_scaled)

# Görselleştir
plt.figure(figsize=(12, 8))
scatter = plt.scatter(
    X_tsne[:, 0], 
    X_tsne[:, 1], 
    c=y, 
    cmap='tab10',
    alpha=0.7
)
plt.colorbar(scatter)
plt.title('t-SNE ile Rakam Görselleştirmesi')
plt.xlabel('t-SNE Bileşen 1')
plt.ylabel('t-SNE Bileşen 2')
plt.show()

Farklı Perplexity Değerlerinin Etkisi

import numpy as np
import matplotlib.pyplot as plt
from sklearn.manifold import TSNE
from sklearn.datasets import load_digits
from sklearn.preprocessing import StandardScaler

# Veri yükle ve hazırla
digits = load_digits()
X = StandardScaler().fit_transform(digits.data)
y = digits.target

# Farklı perplexity değerleri
perplexities = [5, 15, 30, 50]

fig, axes = plt.subplots(2, 2, figsize=(14, 12))

for idx, perplexity in enumerate(perplexities):
    ax = axes[idx // 2, idx % 2]
    
    tsne = TSNE(
        n_components=2,
        perplexity=perplexity,
        random_state=42,
        n_iter=1000
    )
    X_embedded = tsne.fit_transform(X)
    
    scatter = ax.scatter(
        X_embedded[:, 0], 
        X_embedded[:, 1], 
        c=y, 
        cmap='tab10',
        alpha=0.6,
        s=10
    )
    ax.set_title(f'Perplexity = {perplexity}')
    ax.set_xticks([])
    ax.set_yticks([])

plt.suptitle('Farklı Perplexity Değerlerinin t-SNE Üzerindeki Etkisi', fontsize=14)
plt.tight_layout()
plt.show()

3D t-SNE Görselleştirmesi

import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn.manifold import TSNE
from sklearn.datasets import load_digits
from sklearn.preprocessing import StandardScaler

# Veri hazırla
digits = load_digits()
X = StandardScaler().fit_transform(digits.data)
y = digits.target

# 3D t-SNE
tsne_3d = TSNE(
    n_components=3,
    perplexity=30,
    random_state=42,
    n_iter=1000
)
X_3d = tsne_3d.fit_transform(X)

# 3D görselleştirme
fig = plt.figure(figsize=(12, 10))
ax = fig.add_subplot(111, projection='3d')

scatter = ax.scatter(
    X_3d[:, 0], 
    X_3d[:, 1], 
    X_3d[:, 2],
    c=y, 
    cmap='tab10',
    alpha=0.7
)

ax.set_xlabel('t-SNE 1')
ax.set_ylabel('t-SNE 2')
ax.set_zlabel('t-SNE 3')
ax.set_title('3D t-SNE Görselleştirmesi')

plt.colorbar(scatter)
plt.show()

Büyük Veri Setleri için Optimizasyon

from sklearn.manifold import TSNE
from sklearn.decomposition import PCA
import numpy as np

def optimized_tsne(X, n_components=2, pca_components=50, perplexity=30):
    """
    Büyük veri setleri için optimize edilmiş t-SNE
    
    Parameters:
    -----------
    X : array-like, shape (n_samples, n_features)
        Girdi verisi
    n_components : int
        t-SNE çıktı boyutu
    pca_components : int
        Ön işlem için PCA boyutu
    perplexity : float
        t-SNE perplexity değeri
    
    Returns:
    --------
    X_embedded : array, shape (n_samples, n_components)
        Düşük boyutlu temsil
    """
    
    # Önce PCA ile boyut indirgeme
    if X.shape[1] > pca_components:
        print(f"PCA ile {X.shape[1]} boyuttan {pca_components} boyuta indirgeniyor...")
        pca = PCA(n_components=pca_components, random_state=42)
        X_pca = pca.fit_transform(X)
        explained_var = sum(pca.explained_variance_ratio_) * 100
        print(f"Açıklanan varyans: {explained_var:.2f}%")
    else:
        X_pca = X
    
    # t-SNE uygula
    print("t-SNE uygulanıyor...")
    tsne = TSNE(
        n_components=n_components,
        perplexity=perplexity,
        learning_rate='auto',
        init='pca',
        random_state=42,
        n_iter=1000,
        method='barnes_hut'  # Büyük veri setleri için hızlı
    )
    
    X_embedded = tsne.fit_transform(X_pca)
    print("t-SNE tamamlandı!")
    
    return X_embedded

# Kullanım örneği
# X_embedded = optimized_tsne(X, n_components=2, pca_components=50, perplexity=30)

t-SNE Kullanırken En İyi Uygulamalar

t-SNE'den en iyi sonuçları elde etmek için aşağıdaki önerileri takip edin:

1. Veri Ön İşleme

Veriyi standartlaştırın (ortalaması 0, standart sapması 1)
Eksik değerleri işleyin
Aykırı değerleri kontrol edin ve gerekirse kaldırın
Büyük veri setleri için önce PCA uygulayın

2. Parametre Ayarlama

Perplexity için 5-50 aralığında farklı değerler deneyin
Öğrenme oranı için varsayılan 'auto' değerini kullanın
Yeterli iterasyon sayısı kullanın (en az 1000)
Birden fazla rastgele başlatma ile sonuçları karşılaştırın

3. Sonuç Yorumlama

Kümeler arası mesafeleri yorumlamayın, bunlar anlamlı değildir
Küme boyutlarına güvenmeyin
Eksen değerlerini yorumlamayın, anlamsızdır
Sadece yerel yapıyı (hangi noktaların birbirine yakın olduğunu) yorumlayın

4. Alternatif Yöntemler

Çok büyük veri setleri için UMAP'ı değerlendirin
Kümeleme için t-SNE yerine PCA + k-Means kullanın
Global yapı önemliyse MDS veya Isomap'ı deneyin

t-SNE Alternatifleri

t-SNE'nin bazı sınırlılıklarını aşmak için geliştirilmiş alternatif yöntemler bulunmaktadır:

UMAP (Uniform Manifold Approximation and Projection)

UMAP, t-SNE'ye benzer sonuçlar üreten ancak daha hızlı çalışan modern bir algoritmadır. Avantajları:

Daha hızlı hesaplama
Global yapıyı daha iyi koruma
Yeni veri noktalarını dönüştürebilme
Daha tutarlı sonuçlar

LargeVis

Milyonlarca veri noktasına ölçeklenebilen, t-SNE'ye benzer bir yaklaşımdır.

TriMap

Üçlü kısıtlamalar kullanarak hem yerel hem de global yapıyı korumaya çalışan yeni bir yöntemdir.

Sonuç

t-SNE, yüksek boyutlu verileri görselleştirmek için en güçlü ve yaygın kullanılan tekniklerden biridir. Karmaşık veri yapılarındaki gizli örüntüleri ortaya çıkarma yeteneği, onu veri bilimi, makine öğrenmesi ve biyoinformatik gibi alanlarda vazgeçilmez bir araç haline getirmiştir.

Ancak t-SNE'nin sınırlılıklarını anlamak ve sonuçları doğru yorumlamak da bir o kadar önemlidir. Küme boyutları ve kümeler arası mesafeler gibi özelliklerin yanıltıcı olabileceğini hatırlamak gerekir. Doğru parametre ayarlaması ve veri ön işleme ile t-SNE, verilerinizin hikayesini anlamanıza yardımcı olan güçlü görselleştirmeler sunabilir.

Günümüzde UMAP gibi daha yeni alternatifler ortaya çıkmış olsa da, t-SNE hala akademik araştırmalar ve endüstriyel uygulamalarda standart bir görselleştirme aracı olarak konumunu korumaktadır. Veri bilimi yolculuğunuzda t-SNE'yi araç kutunuza eklemenizi şiddetle tavsiye ederiz.

Sıkça Sorulan Sorular

t-SNE sonuçları üzerinde kümeleme algoritması çalıştırabilir miyim?

Teknik olarak mümkün olsa da önerilmez. t-SNE görselleştirme için tasarlanmıştır ve global mesafeleri korumaz. Kümeleme için orijinal yüksek boyutlu veri veya PCA çıktısı kullanılmalıdır.

Hangi perplexity değerini kullanmalıyım?

Genel kural olarak, veri setinizdeki küme başına nokta sayısının bir fonksiyonu olarak düşünülebilir. 30-50 aralığı çoğu durumda iyi çalışır. Farklı değerler deneyerek en anlamlı görselleştirmeyi bulmak en iyi yaklaşımdır.

t-SNE neden her seferinde farklı sonuç veriyor?

t-SNE stokastik bir algoritmadır ve rastgele başlatma kullanır. Tekrarlanabilir sonuçlar için random_state parametresini sabit bir değere ayarlayın.

t-SNE mi yoksa UMAP mı kullanmalıyım?

Büyük veri setleri veya yeni veri noktalarını dönüştürme ihtiyacı varsa UMAP tercih edilebilir. Akademik yayınlar veya daha olgun bir araç gerekiyorsa t-SNE hala geçerli bir seçimdir.