Temel Bileşenler Analizi (PCA)
Temel Bileşenler Analizi (Principal Component Analysis - PCA), çok değişkenli verilerdeki karmaşıklığı azaltmak ve veriyi daha az sayıda değişkenle (bileşenle) temsil etmek için kullanılan istatistiksel bir yöntemdir. Veri setindeki varyansı (bilgiyi) maksimum düzeyde koruyarak boyut indirgeme sağlar.
Neden PCA Kullanılır?
- Boyut İndirgeme: Yüzlerce değişkeni birkaç temel bileşene indirgeyerek analizi kolaylaştırır.
- Gürültü Azaltma: Verideki önemsiz varyasyonları (gürültüyü) filtreler.
- Görselleştirme: Çok boyutlu verileri 2 veya 3 boyutta görselleştirmeyi sağlar.
- Çoklu Bağlantı Sorunu: Regresyon analizinde değişkenler arasındaki yüksek korelasyonu (multicollinearity) giderir.
Matematiksel Temel
PCA, veri matrisinin kovaryans matrisinin özdeğer (eigenvalue) ve özvektör (eigenvector) ayrışımına dayanır. İlk temel bileşen ($PC_1$), verideki en büyük varyansı açıklayan yöndür.
$ Z = X W $- $Z$: Temel bileşenler matrisi (Skorlar)
- $X$: Orijinal veri matrisi (Merkezileştirilmiş)
- $W$: Ağırlık matrisi (Özvektörler)
graph TD
A[Veri Seti] --> B[Standardizasyon]
B --> C[Kovaryans Matrisi Hesaplama]
C --> D[Özdeğer ve Özvektör Ayrışımı]
D --> E[Bileşen Seçimi]
E --> F[Yeni Veri Seti Dönüşümü]
F --> G[Analiz ve Görselleştirme]
Python ile PCA Uygulaması
Analiz Sonucu: Yapılan PCA analizi sonucunda, veri setindeki toplam varyansın %95.4'ü ilk iki temel bileşen ile açıklanabilmiştir. Bu sayede 10+ değişkenli karmaşık yapı, bilgi kaybı olmadan 2 boyuta indirgenmiştir.
Uygulama Alanları
- Görüntü İşleme: Yüz tanıma ve görüntü sıkıştırma.
- Finans: Hisse senedi getirilerindeki ortak faktörlerin belirlenmesi.
- Pazarlama: Müşteri segmentasyonu ve anket analizi.
- Genetik: Gen ekspresyon verilerinin analizi.